Rozpoznawanie mowy

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Rozpoznawanie mowy – technologia pozwalająca komputerowi lub innemu urządzeniu interpretować mowę ludzką, na przykład do celów transkrypcji lub jako alternatywną metodę interakcji.

Polska Platforma Bezpieczeństwa Wewnętrznego, PPBW – naukowa sieć, powstała w 2005 roku, jako jedna z nadzorowanych przez Radę Ministrów, a zainicjowanych przez Komisję Europejską platform technologicznych, której zadania polegają na tworzeniu zaawansowanych, zintegrowanych narzędzi technologicznych i informatycznych, wspomagających działania organów ścigania i wymiaru sprawiedliwości na rzecz bezpieczeństwa publicznego.Algorytm zachłanny (ang. greedy algorithm) – algorytm, który w celu wyznaczenia rozwiązania w każdym kroku dokonuje zachłannego, tj. najlepiej rokującego w danym momencie wyboru rozwiązania częściowego. Innymi słowy algorytm zachłanny nie dokonuje oceny czy w kolejnych krokach jest sens wykonywać dane działanie, dokonuje decyzji lokalnie optymalnej, dokonuje on wyboru wydającego się w danej chwili najlepszym, kontynuując rozwiązanie podproblemu wynikającego z podjętej decyzji. Typowe zadanie rozwiązywane metodą zachłanną ma charakter optymalizacyjny. W dziedzinie sztucznej inteligencji zachłanna odmiana przeszukiwania lokalnego jest nazywana "podchodzeniem pod wzgórze".

Dla języka polskiego (stan na rok 2008) dostępne są programy rozpoznające poprawnie 5-9 na 10 wypowiedzianych słów mowy ciągłej (na współczynnik ten, oprócz jakości algorytmu, wpływają m.in. wyrazistość i zrozumiałość mowy). Wartości skuteczności systemów rozpoznawania mowy bardzo zależą od przyjętego scenariusza testu. Dlatego informacje liczbowe, wbrew intuicji, zwykle nie są dobrym odzwierciedleniem jakości takich systemów. Najskuteczniejszą metodą jest porównanie dwóch lub więcej systemów na takim samym scenariuszu testowym. Jakość systemów może jednak także zależeć od tego jak sygnał jest rejestrowany. Przykładowo wiele z systemów oferowanych dla języka polskiego działa dużo gorzej dla sygnału z sieci GSM. Ogólnie należy przyjąć, że rozpoznawanie mowy polskiej działa poprawnie tylko dla pojedynczych słów lub dla ustalonych zbiorów scenariuszy dialogów (stan na marzec 2014). Próg komercyjnej akceptowalności systemów rozpoznawania mowy zwykle przyjmuje się jako 95% poprawności rozpoznania.

Uczenie maszynowe albo uczenie się maszyn, systemy uczące się (ang. machine learning) – stosunkowo młoda i szybko rozwijająca się dziedzina wchodząca w skład nauk zajmujących się problematyką SI (patrz sztuczna inteligencja).Unia Europejska, UE – gospodarczo-polityczny związek 27 demokratycznych państw europejskich. Unia powstała 1 listopada 1993 roku – na mocy podpisanego 7 lutego 1992 traktatu z Maastricht – jako efekt wieloletniego procesu integracji politycznej, gospodarczej i społecznej. Korzenie współczesnej integracji europejskiej sięgają okresu powojennego i ograniczały się do 6 państw zachodnioeuropejskich. Państwa te tworzyły wiele form i mechanizmów współpracy, powoływały organizacje, instytucje i organy, których celem było wzmocnienie jedności między nimi. W 1993 nadrzędną wobec wszystkich poprzednich organizacji została Unia Europejska, sama otrzymując nieznaną wcześniej hybrydową formułę sui generis.

Rodzaje rozpoznawania mowy[ | edytuj kod]

Pod względem segmentacji rozpoznawanej wypowiedzi:

Agora Spółka Akcyjna – polska, publiczna spółka prawa handlowego, notowana na giełdzie w Warszawie, prowadząca działalność mediową. Nazwa spółki pochodzi od greckiego określenia miejsca spotkań.Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie (AGH; dawniej: Akademia Górnicza w Krakowie; nazwa międzynarodowa: AGH University of Science and Technology; dawniej: University of Mining and Metallurgy) – jedna z największych polskich wyższych uczelni, została powołana 8 kwietnia 1919 uchwałą Rady Ministrów. Jest zaliczana do najlepszych uczelni technicznych w kraju. Według ogólnoświatowego rankingu szkół wyższych Webometrics Ranking of World Universities z lipca 2013, opracowanego przez hiszpański instytut Consejo Superior de Investigaciones Científicas uczelnia zajmuje 3. miejsce w Polsce wśród uczelni technicznych, a na świecie 526. pośród wszystkich typów uczelni.
 • rozpoznawanie pojedynczych fonemów (przy przestarzałych systemach, lub dla słów spoza słownika, modelu języka),
 • rozpoznawanie izolowanych słów (system wymaga znacznych pauz między wypowiadanymi wyrazami),
 • rozpoznawanie łączonych słów (wymagane bardzo krótkie odstępy między wyrazami),
 • rozpoznawanie mowy ciągłej (system sam określa segmentację, mowa prawie jak naturalna, ale określona powtarzalnymi regułami jak przy dyktowaniu/czytaniu),
 • rozpoznawanie mowy spontanicznej (mowa z różnymi naturalnymi cechami jak różnorodna prędkość, głośność wypowiedzi, brak odstępów między wyrazami, różne partykuły wtrącenia nie do końca poprawne, przerwy na zastanawianie się, fragmenty słów, powtórzenia; stopa błędów co najmniej dwukrotnie wyższa niż dla czytania).
 • Pod względem czasu odpowiedzi:

  Nuance Communications jest amerykańską, międzynarodową korporacją działająca w dziedzinie technologii oprogramowania komputerowego, z siedzibą w Burlington, w stanie Massachusetts, USA, dostarczają aplikacje rozumienia mowy i obrazowania. Aktualnie oferta firmy koncentruje się na serwerach i platformach rozpoznawania mowy, systemach zarządzania głosem, biometrii głosowej, automatycznych telefonicznych usługach katalogowych, oprogramowaniu i systemach językowej transkrypcji dla służby zdrowia, oprogramowaniu do optycznego rozpoznawania znaków i oprogramowaniu do przetwarzania obrazu na pulpicie. Spółka posiada również mały oddział odpowiedzialny za oprogramowanie i rozwój systemów dla agencji wojskowych i rządowych. W październiku 2011 r. , niepotwierdzone źródła wskazywały, że jej serwery obsługują aplikacje iPhone 4S Siri rozpoznawania mowy. [ 3 ]Przesłyszenie, przesłyszenie się – przypadek błędnego zrozumienia usłyszanej poprawnej wypowiedzi i zastąpienia jej fragmentu jego homofonem lub wyrażeniem o podobnym brzmieniu. Przesłyszeniem nie jest sytuacja, gdy słuchacz źle zinterpretował intencję mówcy, gdy to mówca się przejęzyczył czy użył malapropizmu. Zjawisko to może być źródłem powstawania słów. Niektórzy twórcy literaccy wykorzystują to zjawisko dla wywołania efektu humorystycznego.
 • rozpoznawanie mowy w czasie rzeczywistym – system podaje wyniki niemal równolegle z pobieraniem, danych wejściowych, za pomocą urządzenia do próbkowania dźwięku (np. karty dźwiękowej z mikrofonem),
 • transkrypcja zasobów akustycznych, uprzednio zdigitalizowanych do plików, np. celem indeksowania/przeszukiwania.
 • Pod względem stopnia zależności od mówcy:

  VoiceXML (VXML) – aplikacja języka XML służąca do opisu interaktywnych dialogów pomiędzy człowiekiem i komputerem. Jest ona w pełni analogiczna do HTML i przynosi podobne korzyści w pisaniu aplikacji głosowych, jakie HTML niesie dla aplikacji wizualnych. Dokumenty VoiceXML są interpretowane przez przeglądarki głosowe, analogicznie jak dokumenty HTML, które interpretowane są przez przeglądarki internetowe. Najczęstszym rozwiązaniem jest podłączenie szeregu przeglądarek głosowych do sieci telefonicznej (PSTN), dzięki czemu użytkownicy mogą po prostu zadzwonić i rozpocząć interakcję z aplikacją głosową.IVR (ang. Interactive Voice Response) to nazwa systemu w telekomunikacji, umożliwiającego interaktywną obsługę osoby dzwoniącej.
 • zależne od mówcy,
 • zależne od grupy mówców,
 • niezależne od mówcy.
 • Pod względem rozmiaru słownika:

 • mały słownik – dziesiątki słów (np. rozpoznawanie cyfr),
 • średni – setki słów,
 • duży – tysiące słów,
 • bardzo duży – dziesiątki tysięcy słów (np. dyktowanie).
 • Historia[ | edytuj kod]

 • 1952 – Fonetograf Drayfusa-Grafa, maszyna zapisująca fonemy
 • 1952 – Davis opracował maszynę rozpoznającą zbiór 10 izolowanych wyrazów – cyfr języka angielskiego
 • 1956 – urządzenie Olsona i Belara służące do zapisywania pod dyktando początkowo 10 sylab, a w 1961 roku 100 sylab
 • 1956 – AUDREY – opracowana w firmie Bell maszyna rozpoznająca cyfry
 • 1960 – opracowano metodę rozpoznawania trzech wyrazów języka rosyjskiego (G. I. Cjemiel)
 • 1962 – IBM zademonstrował maszynę Shoebox rozpoznającą 16 słów języka angielskiego w tym 10 cyfr
 • 1975 – propozycja systemu Dragon opartego na własnościach procesów Markowa (J. Baker)
 • 1976 – CMU Harpy, słownik ok. 1000 wyrazów, pierwsze użycie algorytmu BeamSearch, rozpoznawanie mowy łączonej, odpowiedź kilkanaście razy czas rzeczywisty
 • koniec lat 1970 – badania nad rozpoznawaniem mowy ciągłej o dużym słowniku, jednak nie w czasie rzeczywistym i nie komercyjne (IBM T.J. Watson Research Center)
 • lata 1980 – słowniki rzędu kilku-kilkunastu tysięcy wyrazów, upowszechnione zastosowanie HMM
 • lata 1990 – pierwsze produkty masowej produkcji, słowniki rzędu kilkudziesięciu tysięcy słów, progres w wydajności procesorów umożliwił rozpoznawanie mowy ciągłej
 • lata 2000 – stosunkowo niewielki postęp w rozwoju technologii (w porównaniu do poprzedzającej dekady) słowniki rzędu dziesiątek do kilku setek tysięcy słów dla rozwiązań zależnych od rozpoznawanego mówcy; dla mniejszych słowników niezależnie od mówcy,
 • 2011 – słownik Google dla języka angielskiego: około miliona różnych słów, model języka trenowany setkami miliardów zapytań
 • Komputer (z ang. computer od łac. computare – liczyć, sumować; dawne nazwy używane w Polsce: mózg elektronowy, elektroniczna maszyna cyfrowa, maszyna matematyczna) – maszyna elektroniczna przeznaczona do przetwarzania informacji, które da się zapisać w formie ciągu cyfr albo sygnału ciągłego.Apercepcja – termin filozoficzny oznaczający postrzeganie samego siebie, świadomość samego siebie, postrzeganie przez umysł jego własnych stanów.


  Podstrony: 1 [2] [3] [4] [5] [6]
  Warto wiedzieć że... beta

  XML (ang. Extensible Markup Language, w wolnym tłumaczeniu Rozszerzalny Język Znaczników) – uniwersalny język formalny przeznaczony do reprezentowania różnych danych w strukturalizowany sposób.
  Projektowanie interakcji (ang. Interaction Design, w skrócie IxD lub IaD) – dziedzina zajmująca się projektowaniem funkcjonalnym systemów, przede wszystkim informatycznych (oprogramowanie oraz interfejsy fizycznych urządzeń elektronicznych), choć może dotyczyć także planowania usług czy procesów w organizacji. W dziedzinach projektowania, interakcji człowieka z komputerem oraz w procesie wytwórczym oprogramowania, dziedzina projektowania interakcji dotyczy „kształtowania rzeczy digitalnych na ludzki użytek”, inaczej określana też jako „praktyka projektowania interaktywnych produktów, środowisk, systemów i usług”. Pojęcie projektowania interakcji zostało po raz pierwszy wprowadzone przez Billa Moggridge’a w latach 80. XX wieku.
  Notacja Backusa-Naura (ang.) Backus-Naur Form, BNF – metoda zapisu reguł gramatyki bezkontekstowej – metoda definiowania języka formalnego.
  Mel − skala wysokości dźwięku mierzona metodą akustyki psychologicznej określającej subiektywny odbiór poziomu dźwięku przez ludzkie ucho względem obiektywnej skali mierzenia dźwięku w hercach.
  Psychoakustyka – dziedzina nauki zajmująca się badaniem i opisywaniem związków zachodzących między falą dźwiękową docierającą do uszu słuchacza (bodźcem) a subiektywnie odczuwanym wrażeniem, które u niego wywołuje. Jest to nauka z pogranicza akustyki i psychologii. Działem akustyki zajmującym się psychoakustyką jest akustyka słuchu, natomiast działem psychologii jest psychologia poznawcza. Dziedzinami, do których stale odwołuje się psychoakustyka są również anatomia, neuropsychologia oraz fizjologia.
  Microsoft Windows (ang. windows „okna”, IPA: [maɪkɹoʊsɑːft ˈwɪndoʊz]) – rodzina systemów operacyjnych stworzonych przez firmę Microsoft. Systemy rodziny Windows działają na serwerach, systemach wbudowanych oraz na komputerach osobistych, z którymi są najczęściej kojarzone.
  Wydawnictwa Naukowo-Techniczne (WNT) – polskie wydawnictwo założone w 1949 z siedzibą w Warszawie, do 1961 działało pod firmą Państwowe Wydawnictwa Techniczne.

  Reklama