Míra chyb ve slovech – Dobrá psychoterapie

Word error rate (WER) je běžná metrika výkonu systému rozpoznávání řeči.

Obecná obtížnost měření výkonu spočívá v tom, že rozpoznaná slovní sekvence může mít jinou délku než referenční slovní sekvence (údajně správnou). WER je odvozen z Levenshteinovy vzdálenosti, pracuje na úrovni slova místo fonémové úrovně.

Tento problém je vyřešen prvním zarovnáním rozpoznané slovní sekvence s referenční (mluvenou) slovní sekvencí pomocí dynamického zarovnání řetězců.

Míra chyb ve slovech pak může být vypočtena jako:

Při hlášení výkonu systému rozpoznávání řeči se někdy místo toho používá rychlost rozpoznávání slov (WRR):

Jedním z problémů s použitím obecného vzorce, jako je výše uvedený, však je, že se nebere v úvahu vliv, který mohou mít různé typy chyb na pravděpodobnost úspěšného výsledku, např. některé chyby mohou být rušivější než jiné a některé mohou být opraveny snadněji než jiné. Tyto faktory jsou pravděpodobně specifické pro testovanou syntaxi. Dalším problémem je, že ani při nejlepším zarovnání vzorec nedokáže rozlišit substituční chybu od kombinované chyby mazání plus vložení.

Hunt (1990) navrhl použití vážené míry přesnosti výkonu, kde chyby substituce jsou váženy jednotkou, ale chyby nebo vypuštění a vložení jsou obě váženy pouze 0,5, tedy:

Diskutuje se však o tom, zda lze Huntův vzorec správně použít k posouzení výkonnosti jediného systému, neboť byl vyvinut jako prostředek k porovnání spravedlivěji si konkurujících kandidátských systémů. Další komplikace se přidává tím, zda daná syntaxe umožňuje opravu chyb, a pokud ano, jak je tento proces pro uživatele snadný. Argument, že by měly být vyvinuty výkonnostní metriky tak, aby vyhovovaly konkrétnímu měřenému systému, má tedy určité opodstatnění.

Bez ohledu na použitou metriku je však jedním z hlavních teoretických problémů při posuzování výkonnosti systému rozhodování o tom, zda bylo slovo „špatně vyslovováno“, tj. je chyba na straně uživatele nebo rozpoznávače. To může být důležité zejména v systému, který je navržen tak, aby si poradil s nerodilými mluvčími daného jazyka nebo se silným regionálním přízvukem.

Obecně panuje shoda, že přesnost výkonu při rychlosti pod 95% není přijatelná, ale opět to může být syntaktické a/nebo doménově specifické, např. zda existuje časový tlak na uživatele, aby úkol dokončili, zda existují alternativní metody dokončení a tak dále.

Termín „Single Word Error Rate“ se někdy používá k označení procenta nesprávných rozpoznání každého jednotlivého slova v systémovém slovníku.