• Artykuły
 • Forum
 • Ciekawostki
 • Encyklopedia
 • Rozpoznawanie mowy  Podstrony: [1] [2] [3] 4 [5] [6]
  Przeczytaj także...
  Mariusz Ziółko (ur. 18 września 1946 w Hamburgu) – polski automatyk, matematyk i elektronik, profesor nauk technicznych.Polska Platforma Bezpieczeństwa Wewnętrznego, PPBW – naukowa sieć, powstała w 2005 roku, jako jedna z nadzorowanych przez Radę Ministrów, a zainicjowanych przez Komisję Europejską platform technologicznych, której zadania polegają na tworzeniu zaawansowanych, zintegrowanych narzędzi technologicznych i informatycznych, wspomagających działania organów ścigania i wymiaru sprawiedliwości na rzecz bezpieczeństwa publicznego.
  Standaryzacje międzynarodowe[]

  Trwają prace standaryzacyjne jednolitych interfejsów programistycznych (API) oraz języków opisu danych wejściowych dla silników rozpoznawania mowy. Następujące instytucje opracowują własne rozwiązania w tym zakresie, w nawiasach podano numer aktualnej wersji oraz rok wydania.

  Microsoft:

  Algorytm zachłanny (ang. greedy algorithm) – algorytm, który w celu wyznaczenia rozwiązania w każdym kroku dokonuje zachłannego, tj. najlepiej rokującego w danym momencie wyboru rozwiązania częściowego. Innymi słowy algorytm zachłanny nie dokonuje oceny czy w kolejnych krokach jest sens wykonywać dane działanie, dokonuje decyzji lokalnie optymalnej, dokonuje on wyboru wydającego się w danej chwili najlepszym, kontynuując rozwiązanie podproblemu wynikającego z podjętej decyzji. Typowe zadanie rozwiązywane metodą zachłanną ma charakter optymalizacyjny. W dziedzinie sztucznej inteligencji zachłanna odmiana przeszukiwania lokalnego jest nazywana "podchodzeniem pod wzgórze".Uczenie maszynowe albo uczenie się maszyn, systemy uczące się (ang. machine learning) – stosunkowo młoda i szybko rozwijająca się dziedzina wchodząca w skład nauk zajmujących się problematyką SI (patrz sztuczna inteligencja).
 • SAPI – interfejs programistyczny (5.3 z r. 2005 – w Longhorn, oficjalne wydanie 2006/2007 – w Microsoft Windows Vista)
 • Sun Microsystems:

 • JSAPI – interfejs programistyczny (1.0 z r. 1998, wersję 2.0 zatwierdzono w maju 2008)
 • JSGF – język specyfikacji gramatyki
 • W3C:

 • Web Speech API – specyfikacja rozszerzeń HTML i JavaScript pod kątem wprowadzania głosowego – 19 10 2012,
 • PLS – język specyfikacji wymowy (1.0 oczekuje na zatwierdzenie),
 • VoiceXML – język specyfikacji dialogu głosowego człowiek-komputer (2.1 z r. 2007),
 • SISR – język semantycznego znakowania gramatyki (1.0 z r. 200),
 • SRGS – język specyfikacji gramatyki (oparty na XML lub BNF) (1.0 z r. 2004),
 • SLM(N-gram)S – język specyfikacji stochastyczengo modelu języka (roboczy szkic z r. 2001),
 • NLSML – język specyfikacji interpretacji semantycznej mowy (1.0-beta z r. 2000).
 • Rozpoznawanie mowy polskiej[]

  Prace badawcze i wdrożenia:

  Agora Spółka Akcyjna – polska, publiczna spółka prawa handlowego, notowana na giełdzie w Warszawie, prowadząca działalność mediową. Nazwa spółki pochodzi od greckiego określenia miejsca spotkań.Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie (AGH; dawniej: Akademia Górnicza w Krakowie; nazwa międzynarodowa: AGH University of Science and Technology; dawniej: University of Mining and Metallurgy) – jedna z największych polskich wyższych uczelni, została powołana 8 kwietnia 1919 uchwałą Rady Ministrów. Jest zaliczana do najlepszych uczelni technicznych w kraju. Według ogólnoświatowego rankingu szkół wyższych Webometrics Ranking of World Universities z lipca 2013, opracowanego przez hiszpański instytut Consejo Superior de Investigaciones Científicas uczelnia zajmuje 3. miejsce w Polsce wśród uczelni technicznych, a na świecie 526. pośród wszystkich typów uczelni.
 • Ogólnopolski projekt prowadzony jest przez, podległe MSWiA, służby bezpieczeństwa publicznego we współpracy z uczelniami wyższymi w ramach Polskiej Platformy Bezpieczeństwa Wewnętrznego. Przetwarzanie mowy występuje docelowo w dwóch (S3, S8) z ośmiu funkcjonalnych modułów zintegrowanego systemu wsparcia zarządzania bezpieczeństwem i przeciwdziałania przestępczości w Unii Europejskiej,
 • Instytut Monitorowania Mediów wdrożył system umożliwiający wyszukiwanie felietonów na podstawie słów kluczowych,
 • Wersje polskiego oprogramowania do rozpoznawania mowy SkryBot:
 • dla biznesu, serwery rozpoznawania mowy (monitoring, indeksowanie i wyszukiwanie tekstem multimediów radia i telewizji),
 • dla użytkowników komputerów osobistych, systemy Windows XP, Vista, 7,
 • portal rozpoznawania mowy przez internet SkryBot.TV.
 • System Rozpoznawania i Zamiany Mowy na Tekst – MagicScribe:
 • MagicScribeMedical – rozpoznawanie mowy dla medycyny,
 • MagicScribeLegal – rozpoznawanie mowy dla prawa,
 • System rozpoznawania mowy Sarmata, Zespołu Przetwarzania Sygnałów AGH kierowanego przez profesora Mariusza Ziółko,
 • Spikit – innowacyjne narzędzie wykorzystujące mowę do sterowania komputerem osobistym,
 • Google Web Speech API – dostępne w języku polskim w fazie beta za pośrednictwem przeglądarki Google Chrome (dyktowanie w języku polskim zobacz np.: https://dictation.io/). Istnieją też aplikacje nieoficjalne korzystające bezpośrednio z Google API (spoza przeglądarki). Wcześniej (od 15 września 2010) wprowadzono Google Voice Search dla użytkowników mobilnych w języku polskim. Wymagają połączenia z Internetem.
 • Dragon Dictation i Dragon Search firmy Nuance dla użytkowników mobilnych, systemów iOS, dostępne w języku polskim od października 2011, wymagają połączenia z Internetem.
 • Primespeech – polska firma wyspecjalizowana w produkcji portali głosowych, także opracowująca system do transkrypcji mowy.
 • Rozwiązania komercyjne:

  Nuance Communications jest amerykańską, międzynarodową korporacją działająca w dziedzinie technologii oprogramowania komputerowego, z siedzibą w Burlington, w stanie Massachusetts, USA, dostarczają aplikacje rozumienia mowy i obrazowania. Aktualnie oferta firmy koncentruje się na serwerach i platformach rozpoznawania mowy, systemach zarządzania głosem, biometrii głosowej, automatycznych telefonicznych usługach katalogowych, oprogramowaniu i systemach językowej transkrypcji dla służby zdrowia, oprogramowaniu do optycznego rozpoznawania znaków i oprogramowaniu do przetwarzania obrazu na pulpicie. Spółka posiada również mały oddział odpowiedzialny za oprogramowanie i rozwój systemów dla agencji wojskowych i rządowych. W październiku 2011 r. , niepotwierdzone źródła wskazywały, że jej serwery obsługują aplikacje iPhone 4S Siri rozpoznawania mowy. [ 3 ]VoiceXML (VXML) – aplikacja języka XML służąca do opisu interaktywnych dialogów pomiędzy człowiekiem i komputerem. Jest ona w pełni analogiczna do HTML i przynosi podobne korzyści w pisaniu aplikacji głosowych, jakie HTML niesie dla aplikacji wizualnych. Dokumenty VoiceXML są interpretowane przez przeglądarki głosowe, analogicznie jak dokumenty HTML, które interpretowane są przez przeglądarki internetowe. Najczęstszym rozwiązaniem jest podłączenie szeregu przeglądarek głosowych do sieci telefonicznej (PSTN), dzięki czemu użytkownicy mogą po prostu zadzwonić i rozpocząć interakcję z aplikacją głosową.
 • SpeechStorm – producent aplikacji do IVR opartych m.in. na technologii rozpoznawania mowy
 • Rozpoznawanie mowy angielskiej[]

 • Prototypowe
 • Sphinx,
 • Julius/Julian.
 • Użytkowe (Linux)
 • XVoice (frontend),
 • FreeSpeech.
 • Użytkowe (Windows)
 • Dragon Naturally Speaking,
 • Via Voice,
 • Loquendo.
 • SkryBot doMowy,
 • S voice (Android),
 • Siri (iOS)
 • Cortana (Windows Phone)
 • Call Steering
 • IVR (ang. Interactive Voice Response) to nazwa systemu w telekomunikacji, umożliwiającego interaktywną obsługę osoby dzwoniącej.Komputer (z ang. computer od łac. computare – liczyć, sumować; dawne nazwy używane w Polsce: mózg elektronowy, elektroniczna maszyna cyfrowa, maszyna matematyczna) – maszyna elektroniczna przeznaczona do przetwarzania informacji, które da się zapisać w formie ciągu cyfr albo sygnału ciągłego.


  Podstrony: [1] [2] [3] 4 [5] [6]  w oparciu o Wikipedię (licencja GFDL, CC-BY-SA 3.0, autorzy, historia, edycja)

  Warto wiedzieć że... beta

  Apercepcja – termin filozoficzny oznaczający postrzeganie samego siebie, świadomość samego siebie, postrzeganie przez umysł jego własnych stanów.
  XML (ang. Extensible Markup Language, w wolnym tłumaczeniu Rozszerzalny Język Znaczników) – uniwersalny język formalny przeznaczony do reprezentowania różnych danych w strukturalizowany sposób.
  Projektowanie interakcji (ang. Interaction Design, w skrócie IxD lub IaD) – dziedzina zajmująca się projektowaniem funkcjonalnym systemów, przede wszystkim informatycznych (oprogramowanie oraz interfejsy fizycznych urządzeń elektronicznych), choć może dotyczyć także planowania usług czy procesów w organizacji. W dziedzinach projektowania, interakcji człowieka z komputerem oraz w procesie wytwórczym oprogramowania, dziedzina projektowania interakcji dotyczy „kształtowania rzeczy digitalnych na ludzki użytek”, inaczej określana też jako „praktyka projektowania interaktywnych produktów, środowisk, systemów i usług”. Pojęcie projektowania interakcji zostało po raz pierwszy wprowadzone przez Billa Moggridge’a w latach 80. XX wieku.
  Notacja Backusa-Naura (ang.) Backus-Naur Form, BNF – metoda zapisu reguł gramatyki bezkontekstowej – metoda definiowania języka formalnego.
  Mel − skala wysokości dźwięku mierzona metodą akustyki psychologicznej określającej subiektywny odbiór poziomu dźwięku przez ludzkie ucho względem obiektywnej skali mierzenia dźwięku w hercach.
  Psychoakustyka – dziedzina nauki zajmująca się badaniem i opisywaniem związków zachodzących między falą dźwiękową docierającą do uszu słuchacza (bodźcem) a subiektywnie odczuwanym wrażeniem, które u niego wywołuje. Jest to nauka z pogranicza akustyki i psychologii. Działem akustyki zajmującym się psychoakustyką jest akustyka słuchu, natomiast działem psychologii jest psychologia poznawcza. Dziedzinami, do których stale odwołuje się psychoakustyka są również anatomia, neuropsychologia oraz fizjologia.
  Wydawnictwa Naukowo-Techniczne (WNT) – polskie wydawnictwo założone w 1949 z siedzibą w Warszawie, do 1961 działało pod firmą Państwowe Wydawnictwa Techniczne.

  Reklama

  Czas generowania strony: 0.05 sek.