Automatizované rozpoznávání řeči

Rozpoznávání řeči (v mnoha kontextech také známé jako automatické rozpoznávání řeči, počítačové rozpoznávání řeči nebo chybně jako rozpoznávání hlasu) je proces konverze řečového signálu na posloupnost slov ve formě digitálních dat pomocí algoritmu implementovaného jako počítačový program.

Aplikace pro rozpoznávání řeči, které se objevily v posledních několika letech, zahrnují hlasové vytáčení (např. „Volat domů“), směrování hovorů (např. „Chtěl bych volat na účet volaného“), ovládání domotických spotřebičů a obsahové mluvené zvukové vyhledávání (např. najít podcast, kde byla vyslovena konkrétní slova), jednoduché zadávání dat (např. zadání čísla kreditní karty), přípravu strukturovaných dokumentů (např. radiologická zpráva), zpracování řeči na text (text pro OpenDocument, textové procesory, e-maily…); v kokpitu některých vojenských rychlých trysek (kde se obecně označuje jako Direct Voice Input – DVI -).

Rozpoznávání hlasu, nebo lépe, rozpoznávání mluvčího je související proces, který se pokouší identifikovat mluvící osobu, na rozdíl od toho, co se říká.

Jednou z nejpozoruhodnějších domén pro komerční využití rozpoznávání řeči ve Spojených státech byla zdravotní péče a zejména práce lékařského transkripcionisty (MT). Podle odborníků z oboru bylo rozpoznávání řeči (SR) na svém počátku prodáváno jako způsob, jak zcela eliminovat transkripci, spíše než aby byl proces transkripce efektivnější, a proto nebylo akceptováno. Stávalo se také, že SR v té době byla často technicky nedostatečná. Navíc, aby mohla být efektivně využívána, mění se způsoby, jakými lékaři pracovali a dokumentovali klinická setkání, k čemuž se mnozí, ne-li všichni, zdráhali. Největším omezením rozpoznávání řeči, které automatizuje transkripci, je však software. Povaha diktování řeči je vysoce interpretační a často vyžaduje úsudek, který může poskytnout skutečný člověk, ale nikoli automatizovaný systém. Dalším omezením je rozsáhlé množství času, které uživatel a/nebo poskytovatel systému potřebuje k zaškolení softwaru.

Užitečné rozlišení v ASR je často mezi „umělými syntaktickými systémy“, které jsou obvykle specifické pro doménu a „zpracováním přirozeného jazyka“, které jsou obvykle specifické pro jazyk. Každý z těchto typů aplikací představuje své vlastní konkrétní cíle a výzvy.

V oblasti zdravotní péče se ani v důsledku zlepšování technologií rozpoznávání řeči lékařské transkripce (MT) ještě nestaly zastaralými. Mnoho odborníků v této oblasti předpokládá, že se zvýšeným využíváním technologie rozpoznávání řeči mohou být poskytované služby spíše přerozdělovány než nahrazovány. Rozpoznávání řeči se ještě nestalo zastaralými dovednostmi MT.

Rozpoznávání řeči může být implementováno v front-endu nebo back-endu procesu lékařské dokumentace.

Front-End SR je oblast, kde poskytovatel diktuje do nástroje pro rozpoznávání řeči, rozpoznaná slova se zobrazí hned po jejich vyslovení a diktátor je zodpovědný za úpravu a odhlášení dokumentu. Nikdy to nejde přes MT/editor.

Back-End SR nebo Deferred SR je tam, kde poskytovatel diktuje do digitálního systému diktování, a hlas je směrován přes rozpoznávač řeči a rozpoznaný návrh dokumentu je směrován spolu s původním hlasovým souborem do MT/editoru, který upraví návrh a dokončí zprávu. Deferred SR je široce používán v průmyslu v současné době.

Mnohé aplikace EMR (Emergency Medical Response) mohou být efektivnější a mohou být snadněji předformulovány, pokud jsou nasazeny ve spojení s nástrojem pro rozpoznávání řeči. Vyhledávání, dotazy a vyplňování formulářů může být rychlejší provádět hlasem než pomocí klávesnice.

Vysoce výkonná stíhací letadla

Značné úsilí bylo v posledních deseti letech věnováno testování a vyhodnocování rozpoznávání řeči ve stíhacích letounech. Za zmínku stojí zejména americký program rozpoznávání řeči pro letadla Advanced Fighter Technology Integration (AFTI)/F-16, program ve Francii týkající se instalace systémů rozpoznávání řeči na letadlech Mirage a programy ve Velké Británii zabývající se různými letadlovými platformami. V těchto programech byly rozpoznávače řeči úspěšně provozovány ve stíhacích letounech s aplikacemi zahrnujícími: nastavení rádiových frekvencí, ovládání systému autopilota, nastavení souřadnic bodu řízení a parametrů uvolnění zbraní a ovládání letových displejů. Obecně byly úspěšně používány jen velmi omezené, omezené slovní zásoby a velké úsilí bylo věnováno integraci rozpoznávače řeči se systémem avioniky.

Doporučujeme:  Mánie

Některé důležité závěry z práce jsou následující:
1. Rozpoznávání řeči má jednoznačný potenciál pro snížení pilotní pracovní zátěže, ale tento potenciál nebyl realizován důsledně.
2. Dosažení velmi vysoké přesnosti rozpoznávání (95% a více) bylo nejkritičtějším faktorem pro to, aby byl systém rozpoznávání řeči užitečný – s nižší mírou rozpoznávání by piloti systém nepoužívali.
3. Užitečnější by byla přirozenější slovní zásoba a gramatika a kratší tréninkové časy, ale pouze v případě, že by bylo možné zachovat velmi vysokou míru rozpoznávání.

Laboratorní výzkum v oblasti robustního rozpoznávání řeči pro vojenské prostředí přinesl slibné výsledky, které by v případě rozšíření na kokpit měly zlepšit využitelnost rozpoznávání řeči ve vysoce výkonných letadlech.

Při spolupráci se švédskými piloty létajícími v kokpitu letounu JAS-39 Gripen zjistil Englund (2004) zhoršení rozpoznávání se zvyšujícím se přetížením. Byl také vyvozen závěr, že adaptace výrazně zlepšila výsledky ve všech případech a zavedením modelů dýchání se výrazně zlepšilo skóre rozpoznávání. Oproti tomu, co se dalo očekávat, nebyly zjištěny žádné účinky lámané angličtiny mluvčích. Bylo zřejmé, že spontánní řeč způsobila rozpoznávači problémy, jak se dalo očekávat. Omezená slovní zásoba a především správná syntaxe tak mohla podstatně zlepšit přesnost rozpoznávání.

Problémy s dosažením vysoké přesnosti rozpoznávání při zátěži a hluku se silně týkají prostředí vrtulníku i prostředí stíhačky. Problém s akustickým hlukem je ve skutečnosti závažnější v prostředí vrtulníku, a to nejen kvůli vysoké hladině hluku, ale také proto, že pilot vrtulníku obvykle nenosí masku na obličeji, což by snížilo akustický hluk v mikrofonu. V následujících deseti letech byly provedeny podstatné testovací a vyhodnocovací programy v aplikacích systémů rozpoznávání řeči ve vrtulnících, zejména americkou armádní leteckou výzkumnou a vývojovou činností (AVRADA) a Royal Aerospace Establishment (RAE ve Spojeném království). Práce ve Francii zahrnovala rozpoznávání řeči ve vrtulníku Puma. V Kanadě se také uskutečnila práce užitečná jako mush. Výsledky byly povzbudivé a hlasové aplikace zahrnovaly: ovládání komunikačních rádií, nastavení navigačních systémů a ovládání automatizovaného systému předávání cíle.

Stejně jako u stíhacích aplikací je hlavním problémem pro hlas ve vrtulnících dopad na efektivitu pilotů. Povzbudivé výsledky jsou uváděny u testů AVRADA, i když ty představují pouze ukázku proveditelnosti v testovacím prostředí. Jak v oblasti rozpoznávání řeči, tak v oblasti celkové technologie rozpoznávání řeči zbývá ještě mnoho práce, aby se soustavně dosahovalo zlepšení výkonnosti v provozním nastavení.

Velitelská střediska pro řízení bitvy obecně vyžadují rychlý přístup k rozsáhlým, rychle se měnícím informačním databázím a jejich ovládání. Velitelé a systémoví operátoři potřebují tyto databáze vyhledávat co nejvhodněji, v prostředí, kde je mnoho informací prezentováno ve formátu zobrazení. Interakce lidských strojů hlasem má potenciál být v těchto prostředích velmi užitečná. Byla vynaložena řada úsilí na propojení komerčně dostupných rozpoznávačů izolovaných slov do prostředí pro řízení bitvy. V jedné studii proveditelnosti bylo zařízení pro rozpoznávání řeči testováno ve spojení s integrovaným informačním displejem pro aplikace pro řízení námořní bitvy. Uživatelé byli ohledně potenciálu systému velmi optimističtí, i když možnosti byly omezené.

Školení řídících letového provozu

Výcvik vojenských (nebo civilních) řídících letového provozu (ATC) představuje vynikající aplikaci pro systémy rozpoznávání řeči. Mnoho výcvikových systémů ATC v současné době vyžaduje, aby člověk vystupoval jako „pseudopilot“ a zapojil se do hlasového dialogu s řídícím čekatelem, který simuluje dialog, který by řídící musel vést s piloty v reálné situaci ATC.
Techniky rozpoznávání řeči a syntézy nabízejí potenciál eliminovat potřebu, aby člověk vystupoval jako pseudopilot, čímž se snižuje výcvik a podpůrný personál. Úkoly řídícího letového provozu jsou také charakterizovány vysoce strukturovanou řečí jako primárním výstupem řídícího, čímž se snižuje obtížnost úkolu rozpoznávání řeči.

Doporučujeme:  Pluralismus (filozofie)

Námořní výcvikové středisko U.S. Naval Training Equipment Center sponzorovalo řadu vývoje prototypů trenažérů ATC využívajících rozpoznávání řeči. Obecně platí, že přesnost rozpoznávání není dostatečná k zajištění ladné interakce mezi školeným a systémem. Prototypové výcvikové systémy však prokázaly významný potenciál pro hlasovou interakci v těchto systémech a v dalších výcvikových aplikacích. Námořnictvo U.S. Navy sponzorovalo rozsáhlé úsilí v oblasti výcvikových systémů ATC, kde byla komerční jednotka rozpoznávání řeči integrována s komplexním výcvikovým systémem včetně zobrazování a vytváření scénářů. Ačkoli rozpoznávač byl omezen ve slovní zásobě, jedním z cílů výcvikových programů bylo naučit řídící pracovníky mluvit v omezeném jazyce za použití specifické slovní zásoby speciálně navržené pro úkol ATC. Výzkum ve Francii se zaměřil na aplikaci rozpoznávání řeči ve výcvikových systémech ATC, zaměřené na problémy jak v rozpoznávání řeči, tak v aplikaci omezení gramatiky v doméně úloh.

Telefonie a další domény

ASR v oblasti telefonie je dnes již samozřejmostí a v oblasti počítačových her a simulací je stále rozšířenější. I přes vysokou míru integrace se zpracováním slov v obecné osobní výpočetní technice však ASR v oblasti výroby dokumentů nezaznamenala očekávaný nárůst používání.

Výkon systémů rozpoznávání řeči

Výkon systémů pro rozpoznávání řeči je obvykle specifikován z hlediska přesnosti a rychlosti. Přesnost může být měřena z hlediska přesnosti výkonu, která je obvykle hodnocena mírou chybovosti slov, zatímco rychlost je měřena faktorem reálného času. Mezi další měřítka přesnosti patří míra chybovosti jednoho slova (SWER) a úspěšnost příkazů (CSR).

Většina uživatelů rozpoznávání řeči by spíše souhlasila s tím, že diktafony mohou dosáhnout velmi vysokého výkonu v kontrolovaných podmínkách. Existují však určité nejasnosti ohledně zaměnitelnosti pojmů „rozpoznávání řeči“ a „diktování“.

Komerčně dostupné diktační systémy závislé na mluvčím obvykle vyžadují pouze krátkou dobu tréninku (někdy také nazývanou „zápis“) a mohou úspěšně zachytit souvislou řeč s velkou slovní zásobou v normálním tempu s velmi vysokou přesností. Většina komerčních společností tvrdí, že rozpoznávací software může dosáhnout mezi 98% až 99% přesnosti, pokud je provozován za optimálních podmínek. „Optimální podmínky“ obvykle předpokládají, že uživatelé:

To vysvětluje, proč někteří uživatelé, zejména ti, jejichž řeč je silně akcentována, mohou dosáhnout mnohem nižší míry rozpoznávání, než se očekávalo. Rozpoznávání řeči ve videu se stalo populární vyhledávací technologií, kterou používá několik společností zabývajících se vyhledáváním videí.

Omezené slovní systémy, které nevyžadují žádný trénink, dokážou rozpoznat malý počet slov (například deset číslic) tak, jak je vyslovuje většina řečníků. Takové systémy jsou ve velkých organizacích oblíbené pro směrování příchozích telefonních hovorů do cílových míst.

Akustické modelování i jazykové modelování jsou důležitou součástí moderních statisticky založených algoritmů rozpoznávání řeči. Hidden Markov Models (HMM) jsou široce používány v mnoha systémech. Jazykové modelování má mnoho dalších aplikací, jako je inteligentní klávesnice a klasifikace dokumentů

Carnegie Mellon University učinila velký pokrok ve zvyšování rychlosti řečových čipů pomocí ASIC (aplikačně specifické integrované obvody) a rekonfigurovatelných čipů nazývaných FPGA (pole programovatelných hradlových polí).

Hidden Markov model (HMM) založený na rozpoznávání řeči

Moderní systémy rozpoznávání řeči pro obecné účely jsou obecně založeny na HMM. Jedná se o statistické modely, které produkují posloupnost symbolů nebo veličin.
Jedním z možných důvodů, proč se HMM používají v rozpoznávání řeči, je to, že řečový signál by mohl být vnímán jako kousek stacionární signál nebo krátký stacionární signál. To znamená, že by se dalo předpokládat, že v krátkém čase v rozmezí 10 milisekund by řeč mohla být aproximována jako stacionární proces. Řeč by tak mohla být považována za Markovův model pro mnoho stochastických procesů.

Doporučujeme:  Instruktážní simulace

Dalším důvodem, proč jsou HMM populární, je to, že mohou být trénovány automaticky a jejich použití je jednoduché a výpočetně proveditelné. V rozpoznávání řeči by skrytý Markovův model produkoval posloupnost n-rozměrných reálných vektorů (přičemž n je malé celé číslo, například 10), které by každých 10 milisekund produkovaly jeden z nich. Vektory by se skládaly z cepstralových koeficientů, které se získávají Fourierovou transformací krátkého časového okna řeči a dekódováním spektra pomocí kosinové transformace, poté by se braly první (nejvýznamnější) koeficienty. Skrytý Markovův model bude mít tendenci mít v každém stavu statistické rozdělení, které je směsí diagonální kovariance Gaussových, která bude dávat pravděpodobnost pro každý pozorovaný vektor. Každé slovo nebo (pro obecnější systémy rozpoznávání řeči) každý foném bude mít jiné výstupní rozdělení; skrytý Markovův model pro posloupnost slov nebo fonémů se vytvoří zřetězením jednotlivých trénovaných skrytých Markovových modelů pro oddělená slova a fonémy.

Výše popsané jsou základní prvky nejběžnějšího, na HMM založeného přístupu k rozpoznávání řeči. Moderní systémy rozpoznávání řeči používají různé kombinace řady standardních technik s cílem zlepšit výsledky oproti základnímu přístupu popsanému výše. Typický systém s velkou slovní zásobou by potřeboval kontextovou závislost pro fonémy (fonémy s odlišným levým a pravým kontextem mají tedy odlišné realizace jako stavy HMM); používal by cepstral normalizaci k normalizaci pro různé mluvčí a podmínky nahrávání; pro další normalizaci mluvčího by mohl používat normalizaci délky hlasového traktu (VTLN) pro normalizaci mužsko-ženského a maximální pravděpodobnost lineární regrese (MLLR) pro obecnější adaptaci mluvčího. Funkce by měly tzv. delta a delta-delta koeficienty pro zachycení dynamiky řeči a navíc by mohly použít heteroscedastickou lineární diskriminační analýzu (HLDA); nebo by mohly vynechat delta a delta-delta koeficienty a použít splicing a projekci založenou na LDA následovanou třeba heteroscedastickou lineární diskriminační analýzou nebo globální semitiedovou kovarianční transformací (také známou jako maximální pravděpodobnost lineární transformace, nebo MLLT). Mnoho systémů používá tzv. diskriminační tréninkové techniky, které se zbavují čistě statistického přístupu k odhadu HMM parametrů a místo toho optimalizují některé klasifikační míry tréninkových dat. Příkladem jsou maximální vzájemná informace (MMI), minimální klasifikační chyba (MCE) a minimální telefonní chyba (MPE). Někdy používají bivariantní antidiskriminant Markov redundantní inkluzivní skupinově orientovaný skrytý výpočetní komutační řetězový regresní model s cílem indukčně předpovědět polokruhové lineární předkomprimované nesourodé výpočetní modely.

Dynamic time warping (DTW) založené na rozpoznávání řeči

Dynamická časová deformace je přístup, který byl historicky používán pro rozpoznávání řeči, ale nyní byl z velké části vytlačen
úspěšnějším přístupem založeným na HMM.
Dynamická časová deformace je algoritmus pro měření podobnosti mezi dvěma sekvencemi, které se mohou lišit v čase nebo rychlosti. Například podobnosti ve vzorcích chůze by byly detekovány, i když v jednom videu osoba kráčela pomalu a v jiném rychleji, nebo i když v průběhu jednoho pozorování došlo ke zrychlení a zpomalení. DTW byla aplikována na video, audio a grafiku — skutečně, jakákoliv data, která mohou být přeměněna na lineární reprezentaci, mohou být analyzována pomocí DTW.

Známou aplikací je automatické rozpoznávání řeči, které si poradí s různými rychlostmi mluvení. Obecně se jedná o metodu, která umožňuje počítači najít optimální shodu mezi dvěma danými sekvencemi (např. časovými řadami) s určitými omezeními, tj. sekvence jsou „deformované“ nelineárně, aby si vzájemně odpovídaly. Tato metoda zarovnávání sekvencí se často používá v kontextu skrytých Markovových modelů.

Užitečnou recenzi oblasti robustnosti v ASR přináší Junqua a Haton (1995).

Aplikace rozpoznávání řeči