Chybovost slov (WER) je běžným měřítkem výkonnosti systému rozpoznávání řeči.
Obecná obtížnost měření výkonu spočívá v tom, že rozpoznaná posloupnost slov může mít jinou délku než referenční posloupnost slov (údajně správná). WER se odvozuje z Levenštejnovy vzdálenosti, přičemž se pracuje na úrovni slova místo na úrovni fonémů.
Tento problém se řeší tak, že se rozpoznaná sekvence slov nejprve zarovná s referenční (mluvenou) sekvencí slov pomocí dynamického zarovnání řetězců.
Chybovost slov pak lze vypočítat jako:
Při vykazování výkonnosti systému rozpoznávání řeči se někdy místo toho používá rychlost rozpoznávání slov (WRR):
Jedním z problémů při použití obecného vzorce, jako je výše uvedený, je však to, že se nebere v úvahu vliv, který mohou mít různé typy chyb na pravděpodobnost úspěšného výsledku, např. některé chyby mohou být více rušivé než jiné a některé mohou být opraveny snadněji než jiné. Tyto faktory budou pravděpodobně specifické pro testovanou syntax. Dalším problémem je, že ani při nejlepším zarovnání vzorec nedokáže rozlišit chybu substituce od kombinované chyby delece plus inserce.
Hunt (1990) navrhl použití vážené míry přesnosti výkonu, kde chyby substituce mají váhu jedné jednotky, ale chyby vymazání a vložení mají váhu pouze 0,5, tedy:
Existuje však určitá diskuse o tom, zda lze Huntův vzorec správně použít k hodnocení výkonnosti jediného systému, neboť byl vyvinut jako prostředek pro spravedlivé porovnání více konkurenčních systémů. Další komplikace přináší skutečnost, zda daná syntaxe umožňuje opravu chyb, a pokud ano, jak snadný je tento proces pro uživatele. Je tedy do jisté míry opodstatněný argument, že metriky výkonnosti by měly být vyvinuty tak, aby vyhovovaly konkrétnímu měřenému systému.
Ať už se však použije jakákoli metrika, jedním z hlavních teoretických problémů při hodnocení výkonnosti systému je rozhodnutí, zda bylo slovo „špatně vysloveno“, tj. zda je chyba na straně uživatele, nebo na straně rozpoznávače. To může být zvláště důležité u systému, který je navržen tak, aby si poradil s nerodilými mluvčími daného jazyka nebo se silným regionálním přízvukem.
Obecně se uznává, že přesnost výkonu nižší než 95 % je nepřijatelná, ale to může být opět závislé na syntaxi a/nebo doméně, např. na tom, zda je na uživatele vyvíjen časový tlak na dokončení úkolu, zda existují alternativní metody dokončení apod.
Termín „chybovost jednotlivých slov“ se někdy používá pro označení procenta nesprávných rozpoznání pro každé slovo ve slovníku systému.