Statistická sémantika se zabývá tím, „jak lze pomocí statistických vzorců lidského používání slov zjistit, co lidé myslí, alespoň na úrovni dostatečné pro přístup k informacím“ (Furnas, 2006). Jak můžeme zjistit, co slova znamenají, pouhým pohledem na vzorce slov v obrovských sbírkách textů? Jaké jsou limity tohoto přístupu k porozumění slovům?
Termín statistická sémantika poprvé použil Weaver (1955) ve svém známém článku o strojovém překladu. Tvrdil, že disambiguace slovních významů pro strojový překlad by měla být založena na frekvenci společného výskytu kontextových slov v blízkosti daného cílového slova. Základní předpoklad, že „slovo je charakterizováno společností, kterou drží“, zastával J. R. Firth (1957). Tento předpoklad je v lingvistice znám jako distribuční hypotéza. Delavenay (1960) definoval statistickou sémantiku jako „statistické studium významů slov a jejich frekvence a pořadí opakování“. Jako základní příspěvek ke statistické sémantice je často citována práce Furnase a kol. z roku 1983. Prvním úspěchem v této oblasti byla latentní sémantická analýza.
Aplikace statistické sémantiky
Výzkum v oblasti statistické sémantiky vyústil v širokou škálu algoritmů, které využívají distribuční hypotézu k odhalování mnoha aspektů sémantiky pomocí statistických technik na rozsáhlé korpusy:
Statistická sémantika se zaměřuje na významy běžných slov a vztahy mezi běžnými slovy, na rozdíl od textového dolování, které se zaměřuje na celé dokumenty, kolekce dokumentů nebo pojmenované entity (jména osob, míst a organizací). Statistická sémantika je podoborem počítačové sémantiky, která je zase podoborem počítačové lingvistiky a zpracování přirozeného jazyka.
Mnoho aplikací statistické sémantiky (uvedených výše) lze také řešit pomocí algoritmů založených na lexikonu namísto algoritmů statistické sémantiky založených na korpusu. Jednou z výhod algoritmů založených na korpusu je, že obvykle nejsou tak pracné jako algoritmy založené na lexikonu. Další výhodou je, že se obvykle snáze přizpůsobují novým jazykům než algoritmy založené na lexikonu. Nejlepšího výkonu v aplikaci se však často dosáhne kombinací obou přístupů (Turney et al., 2003).