• Artykuły
  • Forum
  • Ciekawostki
  • Encyklopedia
  • Rozpoznawanie mowy



    Podstrony: 1 [2] [3] [4] [5] [6]
    Przeczytaj także...
    Mariusz Ziółko (ur. 18 września 1946 w Hamburgu) – polski automatyk, matematyk i elektronik, profesor nauk technicznych.Polska Platforma Bezpieczeństwa Wewnętrznego, PPBW – naukowa sieć, powstała w 2005 roku, jako jedna z nadzorowanych przez Radę Ministrów, a zainicjowanych przez Komisję Europejską platform technologicznych, której zadania polegają na tworzeniu zaawansowanych, zintegrowanych narzędzi technologicznych i informatycznych, wspomagających działania organów ścigania i wymiaru sprawiedliwości na rzecz bezpieczeństwa publicznego.

    Rozpoznawanie mowy – technologia pozwalająca komputerowi lub innemu urządzeniu interpretować mowę ludzką, na przykład do celów transkrypcji lub jako alternatywną metodę interakcji.

    Dla języka polskiego (stan na rok 2008) dostępne są programy rozpoznające poprawnie 5-9 na 10 wypowiedzianych słów mowy ciągłej (na współczynnik ten, oprócz jakości algorytmu, wpływają m.in. wyrazistość i zrozumiałość mowy). Wartości skuteczności systemów rozpoznawania mowy bardzo zależą od przyjętego scenariusza testu. Dlatego informacje liczbowe, wbrew intuicji, zwykle nie są dobrym odzwierciedleniem jakości takich systemów. Najskuteczniejszą metodą jest porównanie dwóch lub więcej systemów na takim samym scenariuszu testowym. Jakość systemów może jednak także zależeć od tego jak sygnał jest rejestrowany. Przykładowo wiele z systemów oferowanych dla języka polskiego działa dużo gorzej dla sygnału z sieci GSM. Ogólnie należy przyjąć, że rozpoznawanie mowy polskiej działa poprawnie tylko dla pojedynczych słów lub dla ustalonych zbiorów scenariuszy dialogów (stan na marzec 2014). Próg komercyjnej akceptowalności systemów rozpoznawania mowy zwykle przyjmuje się jako 95% poprawności rozpoznania.

    Algorytm zachłanny (ang. greedy algorithm) – algorytm, który w celu wyznaczenia rozwiązania w każdym kroku dokonuje zachłannego, tj. najlepiej rokującego w danym momencie wyboru rozwiązania częściowego. Innymi słowy algorytm zachłanny nie dokonuje oceny czy w kolejnych krokach jest sens wykonywać dane działanie, dokonuje decyzji lokalnie optymalnej, dokonuje on wyboru wydającego się w danej chwili najlepszym, kontynuując rozwiązanie podproblemu wynikającego z podjętej decyzji. Typowe zadanie rozwiązywane metodą zachłanną ma charakter optymalizacyjny. W dziedzinie sztucznej inteligencji zachłanna odmiana przeszukiwania lokalnego jest nazywana "podchodzeniem pod wzgórze".Uczenie maszynowe albo uczenie się maszyn, systemy uczące się (ang. machine learning) – stosunkowo młoda i szybko rozwijająca się dziedzina wchodząca w skład nauk zajmujących się problematyką SI (patrz sztuczna inteligencja).

    Spis treści

  • 1 Rodzaje rozpoznawania mowy
  • 2 Historia
  • 3 Trudności implementacyjne i wdrożeniowe
  • 4 Koszty obliczeniowo-pamięciowe a jakość algorytmów
  • 5 Algorytmy i modele
  • 6 Zastosowania
  • 7 Zastosowania dla przedsiębiorstw
  • 8 Standaryzacje międzynarodowe
  • 9 Rozpoznawanie mowy polskiej
  • 10 Rozpoznawanie mowy angielskiej
  • 11 Zobacz też
  • 12 Przypisy
  • 13 Linki zewnętrzne
  • Agora Spółka Akcyjna – polska, publiczna spółka prawa handlowego, notowana na giełdzie w Warszawie, prowadząca działalność mediową. Nazwa spółki pochodzi od greckiego określenia miejsca spotkań.Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie (AGH; dawniej: Akademia Górnicza w Krakowie; nazwa międzynarodowa: AGH University of Science and Technology; dawniej: University of Mining and Metallurgy) – jedna z największych polskich wyższych uczelni, została powołana 8 kwietnia 1919 uchwałą Rady Ministrów. Jest zaliczana do najlepszych uczelni technicznych w kraju. Według ogólnoświatowego rankingu szkół wyższych Webometrics Ranking of World Universities z lipca 2013, opracowanego przez hiszpański instytut Consejo Superior de Investigaciones Científicas uczelnia zajmuje 3. miejsce w Polsce wśród uczelni technicznych, a na świecie 526. pośród wszystkich typów uczelni.

    Rodzaje rozpoznawania mowy[]

    Pod względem segmentacji rozpoznawanej wypowiedzi:

  • rozpoznawanie pojedynczych fonemów (przy przestarzałych systemach, lub dla słów spoza słownika, modelu języka),
  • rozpoznawanie izolowanych słów (system wymaga znacznych pauz między wypowiadanymi wyrazami),
  • rozpoznawanie łączonych słów (wymagane bardzo krótkie odstępy między wyrazami),
  • rozpoznawanie mowy ciągłej (system sam określa segmentację, mowa prawie jak naturalna, ale określona powtarzalnymi regułami jak przy dyktowaniu/czytaniu),
  • rozpoznawanie mowy spontanicznej (mowa z różnymi naturalnymi cechami jak różnorodna prędkość, głośność wypowiedzi, brak odstępów między wyrazami, różne partykuły wtrącenia nie do końca poprawne, przerwy na zastanawianie się, fragmenty słów, powtórzenia; stopa błędów co najmniej dwukrotnie wyższa niż dla czytania).
  • Pod względem czasu odpowiedzi:

    Nuance Communications jest amerykańską, międzynarodową korporacją działająca w dziedzinie technologii oprogramowania komputerowego, z siedzibą w Burlington, w stanie Massachusetts, USA, dostarczają aplikacje rozumienia mowy i obrazowania. Aktualnie oferta firmy koncentruje się na serwerach i platformach rozpoznawania mowy, systemach zarządzania głosem, biometrii głosowej, automatycznych telefonicznych usługach katalogowych, oprogramowaniu i systemach językowej transkrypcji dla służby zdrowia, oprogramowaniu do optycznego rozpoznawania znaków i oprogramowaniu do przetwarzania obrazu na pulpicie. Spółka posiada również mały oddział odpowiedzialny za oprogramowanie i rozwój systemów dla agencji wojskowych i rządowych. W październiku 2011 r. , niepotwierdzone źródła wskazywały, że jej serwery obsługują aplikacje iPhone 4S Siri rozpoznawania mowy. [ 3 ]VoiceXML (VXML) – aplikacja języka XML służąca do opisu interaktywnych dialogów pomiędzy człowiekiem i komputerem. Jest ona w pełni analogiczna do HTML i przynosi podobne korzyści w pisaniu aplikacji głosowych, jakie HTML niesie dla aplikacji wizualnych. Dokumenty VoiceXML są interpretowane przez przeglądarki głosowe, analogicznie jak dokumenty HTML, które interpretowane są przez przeglądarki internetowe. Najczęstszym rozwiązaniem jest podłączenie szeregu przeglądarek głosowych do sieci telefonicznej (PSTN), dzięki czemu użytkownicy mogą po prostu zadzwonić i rozpocząć interakcję z aplikacją głosową.
  • rozpoznawanie mowy w czasie rzeczywistym – system podaje wyniki niemal równolegle z pobieraniem, danych wejściowych, za pomocą urządzenia do próbkowania dźwięku (np. karty dźwiękowej z mikrofonem),
  • transkrypcja zasobów akustycznych, uprzednio zdigitalizowanych do plików, np. celem indeksowania/przeszukiwania.
  • Pod względem stopnia zależności od mówcy:

    IVR (ang. Interactive Voice Response) to nazwa systemu w telekomunikacji, umożliwiającego interaktywną obsługę osoby dzwoniącej.Komputer (z ang. computer od łac. computare – liczyć, sumować; dawne nazwy używane w Polsce: mózg elektronowy, elektroniczna maszyna cyfrowa, maszyna matematyczna) – maszyna elektroniczna przeznaczona do przetwarzania informacji, które da się zapisać w formie ciągu cyfr albo sygnału ciągłego.
  • zależne od mówcy,
  • zależne od grupy mówców,
  • niezależne od mówcy.
  • Pod względem rozmiaru słownika:

  • mały słownik – dziesiątki słów (np. rozpoznawanie cyfr),
  • średni – setki słów,
  • duży – tysiące słów,
  • bardzo duży – dziesiątki tysięcy słów (np. dyktowanie).


  • Podstrony: 1 [2] [3] [4] [5] [6]



    w oparciu o Wikipedię (licencja GFDL, CC-BY-SA 3.0, autorzy, historia, edycja)

    Warto wiedzieć że... beta

    Apercepcja – termin filozoficzny oznaczający postrzeganie samego siebie, świadomość samego siebie, postrzeganie przez umysł jego własnych stanów.
    XML (ang. Extensible Markup Language, w wolnym tłumaczeniu Rozszerzalny Język Znaczników) – uniwersalny język formalny przeznaczony do reprezentowania różnych danych w strukturalizowany sposób.
    Projektowanie interakcji (ang. Interaction Design, w skrócie IxD lub IaD) – dziedzina zajmująca się projektowaniem funkcjonalnym systemów, przede wszystkim informatycznych (oprogramowanie oraz interfejsy fizycznych urządzeń elektronicznych), choć może dotyczyć także planowania usług czy procesów w organizacji. W dziedzinach projektowania, interakcji człowieka z komputerem oraz w procesie wytwórczym oprogramowania, dziedzina projektowania interakcji dotyczy „kształtowania rzeczy digitalnych na ludzki użytek”, inaczej określana też jako „praktyka projektowania interaktywnych produktów, środowisk, systemów i usług”. Pojęcie projektowania interakcji zostało po raz pierwszy wprowadzone przez Billa Moggridge’a w latach 80. XX wieku.
    Notacja Backusa-Naura (ang.) Backus-Naur Form, BNF – metoda zapisu reguł gramatyki bezkontekstowej – metoda definiowania języka formalnego.
    Mel − skala wysokości dźwięku mierzona metodą akustyki psychologicznej określającej subiektywny odbiór poziomu dźwięku przez ludzkie ucho względem obiektywnej skali mierzenia dźwięku w hercach.
    Psychoakustyka – dziedzina nauki zajmująca się badaniem i opisywaniem związków zachodzących między falą dźwiękową docierającą do uszu słuchacza (bodźcem) a subiektywnie odczuwanym wrażeniem, które u niego wywołuje. Jest to nauka z pogranicza akustyki i psychologii. Działem akustyki zajmującym się psychoakustyką jest akustyka słuchu, natomiast działem psychologii jest psychologia poznawcza. Dziedzinami, do których stale odwołuje się psychoakustyka są również anatomia, neuropsychologia oraz fizjologia.
    Wydawnictwa Naukowo-Techniczne (WNT) – polskie wydawnictwo założone w 1949 z siedzibą w Warszawie, do 1961 działało pod firmą Państwowe Wydawnictwa Techniczne.

    Reklama

    Czas generowania strony: 0.035 sek.