Úplné textové vyhledávání

Při vyhledávání textu se fulltextové vyhledávání vztahuje k technice vyhledávání v počítačem uloženém dokumentu nebo databázi. Při fulltextovém vyhledávání vyhledávač zkoumá všechna slova v každém uloženém dokumentu a snaží se najít shodu s hledanými slovy, která mu uživatel poskytl. Techniky fulltextového vyhledávání se staly běžnými v on-line bibliografických databázích v 70. letech 20. století. Většina webových stránek a aplikačních programů (například software pro zpracování slov) poskytuje možnosti fulltextového vyhledávání. Některé webové vyhledávače, jako například AltaVista, používají techniky fulltextového vyhledávání, zatímco jiné indexují pouze část webových stránek zkoumaných jeho indexovacím systémem.

Při práci s malým počtem dokumentů je možné, aby fulltextový vyhledávač přímo skenoval obsah dokumentů s každým dotazem, což je strategie zvaná sériové skenování. To dělají některé základní nástroje, například grep, při vyhledávání.

Je-li však počet dokumentů k vyhledávání potenciálně velký nebo je-li množství dotazů k vyhledávání podstatné, je problém fulltextového vyhledávání často rozdělen na dva úkoly: indexování a vyhledávání. Fáze indexování naskenuje text všech dokumentů a vytvoří seznam hledaných výrazů, často nazývaných index, ale správněji nazývaných konkordance. Ve fázi vyhledávání, při provádění konkrétního dotazu, se odkazuje pouze na index, nikoli na text původních dokumentů.

Indexer vytvoří záznam v indexu pro každý termín nebo slovo nalezené v dokumentu a případně jeho relativní pozici v dokumentu. Obvykle bude indexer ignorovat stop slova, jako je anglické „the“, která jsou příliš běžná a mají příliš malý význam na to, aby byla užitečná pro vyhledávání. Některé indexery také používají pro indexovaná slova specifická pro jazyk, takže například jakákoliv slova „drives“, „drove“ nebo „driven“ budou zaznamenána v indexu pod jedním pojmovým slovem „drive“.

Přesnost vs. odvolání kompromis

Vzhledem k nejednoznačnosti přirozeného jazyka se při fulltextovém vyhledávání obvykle vytvoří seznam pro vyhledávání, který má nízkou přesnost: většina získaných položek je irelevantní. Kontrolované vyhledávání slovní zásoby tento problém vyřeší tím, že označí dokumenty tak, aby byly nejednoznačnosti odstraněny. Kontrolované vyhledávání slovní zásoby však může mít nízkou paměť: nemusí se mu podařit získat některé dokumenty, které jsou skutečně relevantní pro vyhledávací otázku. Navzdory přítomnosti mnoha irelevantních dokumentů v seznamu pro vyhledávání volného textu může být vyhledávání volného textu schopno najít dokument, který se kontrolovanému vyhledávání slovní zásoby nepodařilo získat.

Falešně pozitivní problém

Volné textové vyhledávání pravděpodobně získá mnoho dokumentů, které nejsou relevantní pro zamýšlenou vyhledávací otázku. Takovým dokumentům se říká falešné pozitivy. Získávání irelevantních dokumentů je často způsobeno vrozenou nejednoznačností přirozeného jazyka.

Určité techniky shlukování založené na bayesovských algoritmech (podobné spamovému filtru v Googlu[How to reference and link to summary or text]) mohou pomoci snížit falešné pozitivní chyby. Pokud je tedy ve vyhledávaném výrazu „fotbal“, mohou tyto techniky rozdělit dokument/datový vesmír na řekněme „americký fotbal“, „firemní fotbal“ atd. V závislosti na výskytu slov v dokumentu může spadat do jedné z kategorií nebo i více. Tyto techniky jsou rozsáhle nasazeny v doméně e-discovery.

Zlepšení výkonu fulltextového vyhledávání

Nedostatky volného textového vyhledávání byly řešeny dvěma způsoby: Poskytnutím nástrojů uživatelům, které jim umožní přesněji vyjádřit své vyhledávací otázky, a vývojem nových vyhledávacích algoritmů, které zlepšují přesnost vyhledávání.

Vylepšené vyhledávací algoritmy

Technologický pokrok výrazně zlepšil výkon vyhledávání ve volném textu. Algoritmus PageRank společnosti Google například dává větší význam dokumentům, na které odkazují jiné webové stránky. Tento algoritmus dramaticky zlepšuje vnímání přesnosti vyhledávání uživateli, což vysvětluje jeho popularitu mezi uživateli internetu. Další příklady najdete ve vyhledávači.

Následuje částečný seznam dostupných softwarových produktů, jejichž hlavním účelem je provádět indexování a vyhledávání v plném textu. Některé z nich jsou doplněny podrobným popisem jejich teorie fungování nebo interních algoritmů, které mohou poskytnout další vhled do toho, jak může být vyhledávání v plném textu prováděno.