Vyhledávání dokumentů

Vyhledávání dokumentů je definováno jako porovnávání některého zadaného uživatelského dotazu se souborem záznamů ve volném textu. Těmito záznamy může být jakýkoli typ převážně nestrukturovaného textu, jako jsou novinové články, záznamy o nemovitostech nebo odstavce v příručce. Uživatelské dotazy mohou sahat od vícevětného úplného popisu informační potřeby až po několik slov.

Vyhledávání dokumentů je někdy označováno jako, nebo jako větev, Textového vyhledávání. Vyhledávání textů je větev informačního vyhledávání, kde jsou informace uloženy primárně ve formě textu. Nástup fulltextového vyhledávání učinil práci indexeru během 80. let nadbytečnou. Textové databáze se staly decentralizovanými díky osobnímu počítači a CD-ROM. Vyhledávání textů je dnes kritickou oblastí studia, protože je základním základem všech internetových vyhledávačů.

Systémy pro vyhledávání dokumentů zjišťují informace podle daných kritérií porovnáním textových záznamů (dokumentů) s uživatelskými dotazy, na rozdíl od expertních systémů, které odpovídají na otázky odvozováním z databáze logických znalostí. Systém pro vyhledávání dokumentů se skládá z databáze dokumentů, klasifikačního algoritmu pro vytvoření plnotextového indexu a uživatelského rozhraní pro přístup k databázi.

Systém vyhledávání dokumentů má dva hlavní úkoly:

Internetové vyhledávače jsou klasickými aplikacemi vyhledávání dokumentů. Drtivá většina aktuálně používaných vyhledávacích systémů sahá od jednoduchých booleovských systémů až po systémy využívající statistické techniky nebo techniky zpracování přirozeného jazyka.

Existují dvě hlavní třídy indexovacích schémat pro systémy načítání dokumentů: na bázi formulářů (nebo na bázi slov) a na bázi obsahu. Schéma klasifikace dokumentů (nebo algoritmus indexování) v použití určuje povahu systému načítání dokumentů.

Vyhledávání dokumentů na základě formuláře řeší přesné syntaktické vlastnosti textu, srovnatelné s porovnáváním podřetězců při vyhledávání řetězců. Text je obecně nestrukturovaný a nemusí být nutně v přirozeném jazyce, systém by mohl být například použit pro zpracování velkých množin chemických reprezentací v molekulární biologii. Algoritmus stromu přípon je příkladem pro indexování na základě formuláře.

Přístup založený na obsahu využívá sémantických spojení mezi dokumenty a jejich částmi a sémantických spojení mezi dotazy a dokumenty. Většina systémů vyhledávání dokumentů založených na obsahu používá algoritmus invertovaného indexu.

Formulářové rozhraní PubMed obsahuje vyhledávání „souvisejících článků“, které pracuje s porovnáním slov z názvu dokumentů, abstraktních a MeSH termínů pomocí algoritmu váženého slovem.