• Artykuły
  • Forum
  • Ciekawostki
  • Encyklopedia
  • Rozpoznawanie mowy



    Podstrony: [1] 2 [3] [4] [5] [6]
    Przeczytaj także...
    Mariusz Ziółko (ur. 18 września 1946 w Hamburgu) – polski automatyk, matematyk i elektronik, profesor nauk technicznych.Polska Platforma Bezpieczeństwa Wewnętrznego, PPBW – naukowa sieć, powstała w 2005 roku, jako jedna z nadzorowanych przez Radę Ministrów, a zainicjowanych przez Komisję Europejską platform technologicznych, której zadania polegają na tworzeniu zaawansowanych, zintegrowanych narzędzi technologicznych i informatycznych, wspomagających działania organów ścigania i wymiaru sprawiedliwości na rzecz bezpieczeństwa publicznego.
    Historia[]
  • 1952 – Fonetograf Drayfusa-Grafa, maszyna zapisująca fonemy
  • 1952 – Davis opracował maszynę rozpoznającą zbiór 10 izolowanych wyrazów – cyfr języka angielskiego
  • 1956 – urządzenie Olsona i Belara służące do zapisywania pod dyktando początkowo 10 sylab, a w 1961 roku 100 sylab
  • 1956 – AUDREY – opracowana w firmie Bell maszyna rozpoznająca cyfry
  • 1960 – opracowano metodę rozpoznawania trzech wyrazów języka rosyjskiego (G. I. Cjemiel)
  • 1962 – IBM zademonstrował maszynę Shoebox rozpoznającą 16 słów języka angielskiego w tym 10 cyfr
  • 1975 – propozycja systemu Dragon opartego na własnościach procesów Markowa (J. Baker)
  • 1976 – CMU Harpy, słownik ok. 1000 wyrazów, pierwsze użycie algorytmu BeamSearch, rozpoznawanie mowy łączonej, odpowiedź kilkanaście razy czas rzeczywisty
  • koniec lat 1970 – badania nad rozpoznawaniem mowy ciągłej o dużym słowniku, jednak nie w czasie rzeczywistym i nie komercyjne (IBM T.J. Watson Research Center)
  • lata 1980 – słowniki rzędu kilku-kilkunastu tysięcy wyrazów, upowszechnione zastosowanie HMM
  • lata 1990 – pierwsze produkty masowej produkcji, słowniki rzędu kilkudziesięciu tysięcy słów, progres w wydajności procesorów umożliwił rozpoznawanie mowy ciągłej
  • lata 2000 – stosunkowo niewielki postęp w rozwoju technologii (w porównaniu do poprzedzającej dekady) słowniki rzędu dziesiątek do kilku setek tysięcy słów dla rozwiązań zależnych od rozpoznawanego mówcy; dla mniejszych słowników niezależnie od mówcy,
  • 2011 – słownik Google dla języka angielskiego: około miliona różnych słów, model języka trenowany setkami miliardów zapytań
  • Trudności implementacyjne i wdrożeniowe[]

    Pomimo wielu osiągnięć problem automatycznego rozpoznawania mowy jest stale daleko od bycia rozwiązanym. Najbardziej trudnymi do implementacji kwestiami są:

    Algorytm zachłanny (ang. greedy algorithm) – algorytm, który w celu wyznaczenia rozwiązania w każdym kroku dokonuje zachłannego, tj. najlepiej rokującego w danym momencie wyboru rozwiązania częściowego. Innymi słowy algorytm zachłanny nie dokonuje oceny czy w kolejnych krokach jest sens wykonywać dane działanie, dokonuje decyzji lokalnie optymalnej, dokonuje on wyboru wydającego się w danej chwili najlepszym, kontynuując rozwiązanie podproblemu wynikającego z podjętej decyzji. Typowe zadanie rozwiązywane metodą zachłanną ma charakter optymalizacyjny. W dziedzinie sztucznej inteligencji zachłanna odmiana przeszukiwania lokalnego jest nazywana "podchodzeniem pod wzgórze".Uczenie maszynowe albo uczenie się maszyn, systemy uczące się (ang. machine learning) – stosunkowo młoda i szybko rozwijająca się dziedzina wchodząca w skład nauk zajmujących się problematyką SI (patrz sztuczna inteligencja).
  • duża przestrzeń przeszukiwania (z powodu znacznego rozmiaru niezbędnych danych – szczególnie np. dla języków słowiańskich)
  • odporność na silną zmienność sygnału wejściowego, w wielu wymiarach (np. zmienność mówcy: zmienność realizacji tej samej wypowiedzi w czasie, płeć, anatomia traktu głosowego, dialekt, akcent, styl, emocje, tempo wypowiedzi; zmienność tła/kanału)
  • rozumienie mowy, reprezentacja wiedzy
  • uwzględnianie wielu kontekstów np. mowy ciała
  • rozwiązywanie problemu niejednoznaczności językowych na wielu poziomach (por. homofonia, mondegreen, homonim)
  • segmentacja mowy, rozpoznawanie mowy ciągłej
  • mowa naturalna/spontaniczna różni się od języka czytanego/pisanego charakterystycznego dla wielu korpusów/modeli
  • pomijanie zakłóceń sygnału
  • Problemy/limity wdrożeniowe:

    Agora Spółka Akcyjna – polska, publiczna spółka prawa handlowego, notowana na giełdzie w Warszawie, prowadząca działalność mediową. Nazwa spółki pochodzi od greckiego określenia miejsca spotkań.Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie (AGH; dawniej: Akademia Górnicza w Krakowie; nazwa międzynarodowa: AGH University of Science and Technology; dawniej: University of Mining and Metallurgy) – jedna z największych polskich wyższych uczelni, została powołana 8 kwietnia 1919 uchwałą Rady Ministrów. Jest zaliczana do najlepszych uczelni technicznych w kraju. Według ogólnoświatowego rankingu szkół wyższych Webometrics Ranking of World Universities z lipca 2013, opracowanego przez hiszpański instytut Consejo Superior de Investigaciones Científicas uczelnia zajmuje 3. miejsce w Polsce wśród uczelni technicznych, a na świecie 526. pośród wszystkich typów uczelni.
  • zmęczenie użytkownika ciągłym używaniem głosu,
  • wzajemne przeszkadzanie sobie w pomieszczeniu wypełnionym mówiącymi do swoich komputerów, urządzeń,
  • proces myślenia dla wielu ludzi jest blisko związany z mową więc, trudne jest mówienie/słuchanie i rozwiązywanie problemów w tym samym czasie, zaś mówienie i aktywność fizyczna np. chodzenie są kompatybilne, dzieje się tak dlatego, że przetwarzanie mowy w ludzkim mózgu odbywa się w tym samym obszarze co rozwiązywanie problemów, więc to zachodzi najlepiej w cichym środowisku, by odciążyć tę część mózgu wybierane jest w wielu przypadkach ręczne sterowanie za pomocą dżojstików, przycisków i przełączników itp.
  • Koszty obliczeniowo-pamięciowe a jakość algorytmów[]

    Rozmiar problemów uczenia i wyszukiwania, jaki generuje automatyczne rozpoznawanie mowy, jest źródłem wielu kolejnych wyzwań stawianych przed informatyką (szczególnie problematyczność ta może wzrastać dla języków z wieloma formami gramatycznymi jak np. słowiańskie, a współcześnie dominujące podejście statystyczne powoduje w tych przypadkach ogromne wymagania pamięciowe dla modelu języka). Interpretacja sygnału mowy tylko z pozoru jest łatwa i daje jasno określone kryteria wydzielania jednostek składowych, w rzeczywistości jest mało deterministyczna, a wysoce zależna od szerszego kontekstu (na każdym kolejnym poziomie). Chodzi tu oczywiście głównie o algorytmy rozpoznawania mowy spontanicznej, a także ciągłej, które dawałyby wyniki porównywalne ze „zdolnościami ludzkimi” (na marginesie można dodać, że dla specyficznych kryteriów udało się uzyskać „nad-ludzkie” wyniki), ogólnie algorytmy te (o bardzo dużym słowniku, działające w czasie rzeczywistym) wymagają znacznej mocy obliczeniowej i pamięci komputerowej o dużej pojemności. Ma to miejsce z powodu powolnego spadku stopy błędów (WER) w zależności od znacznego wzrostu rozmiaru modelu języka. W wymaganiach systemowych produktów spotyka się sformułowanie: im więcej pamięci komputerowej tym lepiej dla wydajności, tym większy model języka, wymagania te rosną z kolejnymi wersjami wraz ze wzrostem zasobów sprzętowych możliwych do wykorzystania.

    Nuance Communications jest amerykańską, międzynarodową korporacją działająca w dziedzinie technologii oprogramowania komputerowego, z siedzibą w Burlington, w stanie Massachusetts, USA, dostarczają aplikacje rozumienia mowy i obrazowania. Aktualnie oferta firmy koncentruje się na serwerach i platformach rozpoznawania mowy, systemach zarządzania głosem, biometrii głosowej, automatycznych telefonicznych usługach katalogowych, oprogramowaniu i systemach językowej transkrypcji dla służby zdrowia, oprogramowaniu do optycznego rozpoznawania znaków i oprogramowaniu do przetwarzania obrazu na pulpicie. Spółka posiada również mały oddział odpowiedzialny za oprogramowanie i rozwój systemów dla agencji wojskowych i rządowych. W październiku 2011 r. , niepotwierdzone źródła wskazywały, że jej serwery obsługują aplikacje iPhone 4S Siri rozpoznawania mowy. [ 3 ]VoiceXML (VXML) – aplikacja języka XML służąca do opisu interaktywnych dialogów pomiędzy człowiekiem i komputerem. Jest ona w pełni analogiczna do HTML i przynosi podobne korzyści w pisaniu aplikacji głosowych, jakie HTML niesie dla aplikacji wizualnych. Dokumenty VoiceXML są interpretowane przez przeglądarki głosowe, analogicznie jak dokumenty HTML, które interpretowane są przez przeglądarki internetowe. Najczęstszym rozwiązaniem jest podłączenie szeregu przeglądarek głosowych do sieci telefonicznej (PSTN), dzięki czemu użytkownicy mogą po prostu zadzwonić i rozpocząć interakcję z aplikacją głosową.

    Jako że sygnał mowy jest mało deterministyczny, dekoduje się go algorytmami z zakresu kryptoanalizy (więc dodatkową trudnością może być, wprawdzie liberalizowana, ochrona pokrewnych tematów obostrzeniami rządowymi) – algorytmy tego typu „przewidują” prawdopodobieństwa słów na podstawie znacznych rozmiarów językowych danych statystycznych informujących o możliwych kombinacjach niezbyt dużych kontekstów (por. N-gram). Znaczną liczbę z danych należy wcześniej odrzucić w oparciu o różne kryteria m.in.: dostępne zasoby, złożoność obliczeniowa, miara nieokreśloności (ang. perplexity), dlatego stosowane są algorytmy obcinające (ang. pruning) na wielu poziomach: drzew decyzyjnych, modelu języka, przestrzeni przeszukiwania prawdopodobnego słowa dla danej wypowiedzi (np. algorytm ang. beam search).

    IVR (ang. Interactive Voice Response) to nazwa systemu w telekomunikacji, umożliwiającego interaktywną obsługę osoby dzwoniącej.Komputer (z ang. computer od łac. computare – liczyć, sumować; dawne nazwy używane w Polsce: mózg elektronowy, elektroniczna maszyna cyfrowa, maszyna matematyczna) – maszyna elektroniczna przeznaczona do przetwarzania informacji, które da się zapisać w formie ciągu cyfr albo sygnału ciągłego.

    Model języka służy do ukierunkowywania przeszukiwania, ogranicza więc jego złożoność obliczeniową (co oczywiście może skutkować spadkiem jakości i utratą optymalnych rozwiązań w mniej lokalnym sensie). Zasoby zajmowane rosną szczególnie w fazie trenowania modeli i algorytmów (tysiące godzin nagrań transkrybowanej mowy). Stosunkowo nowym podejściem jest model języka oparty na metodzie pamięci podręcznej, który umożliwia stopniowe przełączanie się modelu w bardziej lokalny kontekst (dla dużych słowników/kontekstów różnice między słowami na poziomie akustycznym są często zaniedbywalnie małe). Duże korpusy dla modeli akustyczno-językowych mają zwykle restrykcyjne licencje, aby ułatwić rozwój rozwiązań otwartych powstał projekt VoxForge.

    Apercepcja – termin filozoficzny oznaczający postrzeganie samego siebie, świadomość samego siebie, postrzeganie przez umysł jego własnych stanów.XML (ang. Extensible Markup Language, w wolnym tłumaczeniu Rozszerzalny Język Znaczników) – uniwersalny język formalny przeznaczony do reprezentowania różnych danych w strukturalizowany sposób.

    Innym rozwiązaniem wspomnianych problemów są systemy jedno-dziedzinowe o odpowiednio dostrojonym słowniku/modelu języka. Często także użytkownik ma możliwość dopasowania parametrów do danego ograniczonego zastosowania poprzez moduły uczenia maszynowego. W telefonach komórkowych (i nie tylko, np. także w przeglądarce Google Chrome/Chromium) nierzadko stosuje się również wysyłanie wstępnie przetworzonych danych do pomocniczej obróbki na serwerze zewnętrznym, niedogodność jest niezauważalna dla użytkownika, jednak w przyszłości wraz ze wzrostem wydajności sprzętowej i ulepszaniem algorytmów może pojawić się więcej używalnych rozwiązań po stronie klienta np. specyfikacja W3C Web Speech API nie ogranicza rozpoznawania mowy jedynie do trybu po stronie serwera.

    Projektowanie interakcji (ang. Interaction Design, w skrócie IxD lub IaD) – dziedzina zajmująca się projektowaniem funkcjonalnym systemów, przede wszystkim informatycznych (oprogramowanie oraz interfejsy fizycznych urządzeń elektronicznych), choć może dotyczyć także planowania usług czy procesów w organizacji. W dziedzinach projektowania, interakcji człowieka z komputerem oraz w procesie wytwórczym oprogramowania, dziedzina projektowania interakcji dotyczy „kształtowania rzeczy digitalnych na ludzki użytek”, inaczej określana też jako „praktyka projektowania interaktywnych produktów, środowisk, systemów i usług”. Pojęcie projektowania interakcji zostało po raz pierwszy wprowadzone przez Billa Moggridge’a w latach 80. XX wieku.Notacja Backusa-Naura (ang.) Backus-Naur Form, BNF – metoda zapisu reguł gramatyki bezkontekstowej – metoda definiowania języka formalnego.

    Na temat ograniczeń modeli czysto statystycznych języka naturalnego zobacz w artykule: Noam Chomsky, z drugiej strony okazuje się, że często wystarcza samo podejście statystyczne „brute force”, czyli im więcej danych pozyska się dla modelu języka tym system wyszukiwania/rozpoznawania okazuje się być „inteligentniejszy”, mniej (ale także) zależąc od jakości i algorytmów (jakość obniża się często celowo np. poprzez stosowanie wspomnianych powyżej heurystyk obcinania by uzyskać akceptowalny czas odpowiedzi, przechodząc z podejścia dynamicznego w kierunku przypominającego algorytm zachłanny). Użyteczność metod o dużym modelu języka wyjaśniałyby rozważania psychologiczne już z końca XIX wieku, które wykazały, że ludzka zdolność rozpoznawania mowy opiera się na pamięci o bardzo szerokim kontekście, zaś same dźwięki niosą trudną do zidentyfikowania informacje, to co się usłyszy jest dopiero uzupełniane w znacznym stopniu treścią z własnej pamięci (zobacz też apercepcja). Obecnie w badaniu uczenia się ludzkiego, także przywiązuje się wagę do faktu, iż nowo pozyskana/usłyszana informacja słowna (w rozpoznawaniu mowy na poziomie cech akustycznych) może często powodować znaczną modyfikację dotychczasowego modelu, więc nie może być dla człowieka całkowicie pomijalna (chodzi o zachowanie równowagi między tymi dwoma trybami por. Jean Piaget). W przyszłości pozostaje więc do spełnienia ważna rola dla coraz bardziej wyszukanych algorytmów uczenia maszynowego stosowanych w rozpoznawaniu mowy także na poziomie ekstrakcji cech akustycznych.

    Mel − skala wysokości dźwięku mierzona metodą akustyki psychologicznej określającej subiektywny odbiór poziomu dźwięku przez ludzkie ucho względem obiektywnej skali mierzenia dźwięku w hercach.Psychoakustyka – dziedzina nauki zajmująca się badaniem i opisywaniem związków zachodzących między falą dźwiękową docierającą do uszu słuchacza (bodźcem) a subiektywnie odczuwanym wrażeniem, które u niego wywołuje. Jest to nauka z pogranicza akustyki i psychologii. Działem akustyki zajmującym się psychoakustyką jest akustyka słuchu, natomiast działem psychologii jest psychologia poznawcza. Dziedzinami, do których stale odwołuje się psychoakustyka są również anatomia, neuropsychologia oraz fizjologia.


    Podstrony: [1] 2 [3] [4] [5] [6]



    w oparciu o Wikipedię (licencja GFDL, CC-BY-SA 3.0, autorzy, historia, edycja)

    Warto wiedzieć że... beta

    Wydawnictwa Naukowo-Techniczne (WNT) – polskie wydawnictwo założone w 1949 z siedzibą w Warszawie, do 1961 działało pod firmą Państwowe Wydawnictwa Techniczne.
    HTML (ang. HyperText Markup Language) – hipertekstowy język znaczników, obecnie szeroko wykorzystywany do tworzenia stron internetowych.
    Fonologia (dawniej głosownia) – nauka o systemach dźwiękowych języków. Stanowi jeden z działów językoznawstwa (lingwistyki). Fonemika czy fonematyka, podawane jako nazwy synonimiczne, odnoszą się tylko do jednej z teorii fonologicznych i nie mogą być traktowane jako zamiennik nazwy "fonologia".
    Algorytm Viterbiego – algorytm dekodujący opracowany przez Andrew Viterbiego i opublikowany przez niego w 1967 roku w IEEE Transactions on Information Theory, IT-13 w artykule Error bounds for convolutional codes and an asymptotically optimum decoding algorithm (str. 260-269).
    World Wide Web Consortium, w skrócie W3C, to organizacja, która zajmuje się ustanawianiem standardów pisania i przesyłu stron WWW. Została założona 1 października 1994 roku przez Tima Berners-Lee, twórcę WWW oraz autora pierwszej przeglądarki internetowej i serwera WWW.
    Cepstrum – odwrotna transformata Fouriera widma sygnału wyrażonego w skali logarytmicznej (decybelowego). Słowo cepstrum jest anagramem słowa spectrum.
    Interfejs programowania aplikacji (ang. Application Programming Interface, API) – sposób, rozumiany jako ściśle określony zestaw reguł i ich opisów, w jaki programy komunikują się między sobą. API definiuje się na poziomie kodu źródłowego dla takich składników oprogramowania jak np. aplikacje, biblioteki czy system operacyjny. Zadaniem API jest dostarczenie odpowiednich specyfikacji podprogramów, struktur danych, klas obiektów i wymaganych protokołów komunikacyjnych.

    Reklama

    Czas generowania strony: 0.037 sek.