• Artykuły
  • Forum
  • Ciekawostki
  • Encyklopedia
  • Rozpoznawanie mowy



    Podstrony: [1] [2] 3 [4] [5] [6]
    Przeczytaj także...
    Mariusz Ziółko (ur. 18 września 1946 w Hamburgu) – polski automatyk, matematyk i elektronik, profesor nauk technicznych.Polska Platforma Bezpieczeństwa Wewnętrznego, PPBW – naukowa sieć, powstała w 2005 roku, jako jedna z nadzorowanych przez Radę Ministrów, a zainicjowanych przez Komisję Europejską platform technologicznych, której zadania polegają na tworzeniu zaawansowanych, zintegrowanych narzędzi technologicznych i informatycznych, wspomagających działania organów ścigania i wymiaru sprawiedliwości na rzecz bezpieczeństwa publicznego.
    Algorytmy i modele[]
  • ukryte modele Markowa (HMM, zob. też: łańcuch Markowa)
  • N-gram
  • algorytm Viterbiego
  • sieci neuronowe (często jako metoda hybrydowa z modelami Markowa)
  • dynamiczne sieci Bayesa
  • analiza cepstralna i mel-cepstralna (zob. też: psychoakustyka)
  • transformata Fouriera
  • nieliniowa transformacja czasowa DTW
  • Zastosowania[]

  • Sterowanie – dedykowane silniki nie wymagają zaawansowanych cech jak przełączanie kontekstu, a z racji kilku/kilkunastowyrazowych słowników nie występuje tu problem ujednoznaczniania w środowiskach, w których sygnał mowy jest zakłócony, dlatego też wymagają one znacznie mniej zasobów niż algorytmy rozpoznawania mowy ciągłej.
  • w przypadku komputera PC – posiadającego różnorodne kanały komunikacji z użytkownikiem – sterowanie głosem wykorzystywane jest najczęściej przez osoby niepełnosprawne, dla których inne interfejsy interakcji z urządzeniem są niedostępne,
  • w urządzeniach – o znacznej miniaturyzacji, przez co ubogich w interfejsy interakcji – proste polecenia głosowe znacznie uefektywniają ich obsługę.
  • Transkrypcja mowa ciągła-tekst – algorytmy:
  • dziedzinowe – o ograniczonym słowniku,
  • całościowe – bardziej zaawansowane.
  • Mówione systemy dialogowe – interfejsy głosowe działające w sposób naturalny dla człowieka, a nie w oparciu o ustalone możliwe opcje.
  • Translacja pomiędzy językami naturalnymi (ang. speech-to-speech) np. komunikatów głosowych przydatnych w podróży.
  • Zastosowania dla przedsiębiorstw[]

    Technologie rozpoznawania mowy znalazły praktyczne zastosowanie w telefonicznych biurach obsługi klienta, gdzie zachodzi konieczność obsługi kilkudziesięciu tysięcy dzwoniących na godzinę. Banki, firmy branży informatycznej czy telekomunikacyjnej coraz częściej inwestują w nowoczesne narzędzia oferujące zoptymalizowaną obsługę oraz pozwalające na wzrost zadowolenia klienta. Jednym z takich rozwiązań jest sterowania głosem (ang. Call Steering) w systemie zapowiedzi głosowych IVR. Sterowanie głosem oparte na rozumieniu języka naturalnego przez komputer ułatwia konsumentom komunikowanie się z właściwym operatorem w biurze obsługi. Po zadaniu standardowego pytania „W czym możemy pomóc?” dzwoniący opisuje problem własnymi słowami, bez potrzeby wybierania z rozbudowanego menu kontaktów czy dopasowywania pytania do listy wcześniej zdefiniowanych opcji. Przyspiesza to obsługę klientów, ogranicza liczbę niepoprawnie przekierowanych połączeń oraz prowadzi do wyższego poziomu automatyzacji systemu obsługi IVR poprzez szybkie łączenie dzwoniących z usługą, której potrzebują. Funkcje rozpoznawania naturalnej mowy oraz rozumienia języka naturalnego (NLU) zostały już wdrożone w wielu biurach obsługi klienta na świecie, jak i w Polsce.

    Algorytm zachłanny (ang. greedy algorithm) – algorytm, który w celu wyznaczenia rozwiązania w każdym kroku dokonuje zachłannego, tj. najlepiej rokującego w danym momencie wyboru rozwiązania częściowego. Innymi słowy algorytm zachłanny nie dokonuje oceny czy w kolejnych krokach jest sens wykonywać dane działanie, dokonuje decyzji lokalnie optymalnej, dokonuje on wyboru wydającego się w danej chwili najlepszym, kontynuując rozwiązanie podproblemu wynikającego z podjętej decyzji. Typowe zadanie rozwiązywane metodą zachłanną ma charakter optymalizacyjny. W dziedzinie sztucznej inteligencji zachłanna odmiana przeszukiwania lokalnego jest nazywana "podchodzeniem pod wzgórze".Uczenie maszynowe albo uczenie się maszyn, systemy uczące się (ang. machine learning) – stosunkowo młoda i szybko rozwijająca się dziedzina wchodząca w skład nauk zajmujących się problematyką SI (patrz sztuczna inteligencja).


    Podstrony: [1] [2] 3 [4] [5] [6]



    w oparciu o Wikipedię (licencja GFDL, CC-BY-SA 3.0, autorzy, historia, edycja)

    Warto wiedzieć że... beta

    Agora Spółka Akcyjna – polska, publiczna spółka prawa handlowego, notowana na giełdzie w Warszawie, prowadząca działalność mediową. Nazwa spółki pochodzi od greckiego określenia miejsca spotkań.
    Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie (AGH; dawniej: Akademia Górnicza w Krakowie; nazwa międzynarodowa: AGH University of Science and Technology; dawniej: University of Mining and Metallurgy) – jedna z największych polskich wyższych uczelni, została powołana 8 kwietnia 1919 uchwałą Rady Ministrów. Jest zaliczana do najlepszych uczelni technicznych w kraju. Według ogólnoświatowego rankingu szkół wyższych Webometrics Ranking of World Universities z lipca 2013, opracowanego przez hiszpański instytut Consejo Superior de Investigaciones Científicas uczelnia zajmuje 3. miejsce w Polsce wśród uczelni technicznych, a na świecie 526. pośród wszystkich typów uczelni.
    Nuance Communications jest amerykańską, międzynarodową korporacją działająca w dziedzinie technologii oprogramowania komputerowego, z siedzibą w Burlington, w stanie Massachusetts, USA, dostarczają aplikacje rozumienia mowy i obrazowania. Aktualnie oferta firmy koncentruje się na serwerach i platformach rozpoznawania mowy, systemach zarządzania głosem, biometrii głosowej, automatycznych telefonicznych usługach katalogowych, oprogramowaniu i systemach językowej transkrypcji dla służby zdrowia, oprogramowaniu do optycznego rozpoznawania znaków i oprogramowaniu do przetwarzania obrazu na pulpicie. Spółka posiada również mały oddział odpowiedzialny za oprogramowanie i rozwój systemów dla agencji wojskowych i rządowych. W październiku 2011 r. , niepotwierdzone źródła wskazywały, że jej serwery obsługują aplikacje iPhone 4S Siri rozpoznawania mowy. [ 3 ]
    VoiceXML (VXML) – aplikacja języka XML służąca do opisu interaktywnych dialogów pomiędzy człowiekiem i komputerem. Jest ona w pełni analogiczna do HTML i przynosi podobne korzyści w pisaniu aplikacji głosowych, jakie HTML niesie dla aplikacji wizualnych. Dokumenty VoiceXML są interpretowane przez przeglądarki głosowe, analogicznie jak dokumenty HTML, które interpretowane są przez przeglądarki internetowe. Najczęstszym rozwiązaniem jest podłączenie szeregu przeglądarek głosowych do sieci telefonicznej (PSTN), dzięki czemu użytkownicy mogą po prostu zadzwonić i rozpocząć interakcję z aplikacją głosową.
    IVR (ang. Interactive Voice Response) to nazwa systemu w telekomunikacji, umożliwiającego interaktywną obsługę osoby dzwoniącej.
    Komputer (z ang. computer od łac. computare – liczyć, sumować; dawne nazwy używane w Polsce: mózg elektronowy, elektroniczna maszyna cyfrowa, maszyna matematyczna) – maszyna elektroniczna przeznaczona do przetwarzania informacji, które da się zapisać w formie ciągu cyfr albo sygnału ciągłego.
    Apercepcja – termin filozoficzny oznaczający postrzeganie samego siebie, świadomość samego siebie, postrzeganie przez umysł jego własnych stanów.

    Reklama

    Czas generowania strony: 0.058 sek.