Automatizované získávání informací

Automatizované systémy vyhledávání informací se používají ke snížení toho, čemu se říká „informační přetížení“. Mnoho univerzit a veřejných knihoven používá IR systémy k poskytování přístupu ke knihám, časopisům a dalším dokumentům. Nejviditelnější IR aplikace jsou webové vyhledávače.

—Dr. Seward, Drákula Brama Stokera,
1897

Myšlenka využití počítačů k vyhledávání relevantních informací byla popularizována v článku As We May Think od Vannevara Bushe v roce 1945. První automatizované systémy získávání informací byly zavedeny v 50. a 60. letech. Do roku 1970 bylo prokázáno, že několik různých technik funguje dobře na malých textových korpusech, jako je Cranfieldova sbírka (několik tisíc dokumentů). Rozsáhlé systémy získávání informací, jako je Lockheed Dialog systém, se začaly používat počátkem 70. let.

V roce 1992 americké ministerstvo obrany spolu s Národním institutem standardů a technologií (NIST) spolusponzorovalo konferenci o načítání textu (TREC) v rámci textového programu TIPSTER. Cílem bylo nahlédnout do komunity načítání informací tím, že byla dodána infrastruktura, která byla potřebná pro vyhodnocení metodik načítání textu na velmi rozsáhlé textové kolekci. To katalyzovalo výzkum metod, které se rozšiřují na obrovské korpusy. Zavedení webových vyhledávačů ještě více zvýšilo potřebu velmi rozsáhlých načítacích systémů.

Proces načítání informací začíná, když uživatel zadá dotaz do systému. Dotazy jsou formální prohlášení o informačních potřebách, například vyhledávací řetězce ve webových vyhledávačích. Při načítání informací dotaz neidentifikuje jednoznačně jeden objekt v kolekci. Místo toho se může dotazu shodovat několik objektů, třeba s různým stupněm relevance.

Objekt je entita, která je reprezentována informacemi v databázi. Uživatelské dotazy jsou porovnávány s databázovými informacemi. V závislosti na aplikaci mohou být datovými objekty například textové dokumenty, obrázky, zvuk, myšlenkové mapy nebo videa. Samotné dokumenty často nejsou uchovávány nebo ukládány přímo v IR systému, ale místo toho jsou v systému reprezentovány náhradami dokumentů nebo metadaty.

Většina IR systémů vypočítá číselné skóre podle toho, jak se jednotlivé objekty v databázi shodují s dotazem, a podle této hodnoty objekty seřadí. Objekty s nejvyšším hodnocením se pak zobrazí uživateli. Proces se pak může opakovat, pokud si uživatel přeje dotaz zpřesnit.

Opatření týkající se výkonnosti a správnosti

Bylo navrženo mnoho různých opatření pro hodnocení výkonnosti systémů vyhledávání informací. Opatření vyžadují soubor dokumentů a dotaz. Všechna zde popisovaná běžná opatření předpokládají základní pravdivostní pojem relevance: je známo, že každý dokument je buď relevantní, nebo irelevantní pro konkrétní dotaz. V praxi mohou být dotazy špatně položené a mohou existovat různé odstíny relevance.

Přesnost je zlomek získaných dokumentů, které jsou relevantní pro informační potřeby uživatele.

V binární klasifikaci je přesnost analogická s kladnou prediktivní hodnotou. Přesnost bere v úvahu všechny načtené dokumenty. Lze ji také vyhodnotit v daném mezním pořadí, přičemž se berou v úvahu pouze nejvyšší výsledky vrácené systémem. Tato míra se nazývá přesnost v n nebo P@n.

Všimněte si, že význam a použití „přesnosti“ v oblasti získávání informací se liší od definice přesnosti a přesnosti v rámci jiných oborů vědy a techniky.

Recall je zlomek dokumentů, které jsou relevantní pro dotaz a které jsou úspěšně načteny.

V binární klasifikaci se vyvolání často nazývá citlivost. Lze na něj tedy pohlížet jako na pravděpodobnost, že dotaz načte relevantní dokument.

Je triviální dosáhnout vyvolání 100% vrácením všech dokumentů v odpovědi na jakýkoliv dotaz. Proto vyvolání samo o sobě nestačí, ale je třeba také změřit počet nerelevantních dokumentů, například výpočtem přesnosti.

Podíl získaných nesouvisejících dokumentů ze všech dostupných nesouvisejících dokumentů:

V binární klasifikaci je fall-out úzce spjat se specificitou a je roven . Lze se na něj dívat jako na pravděpodobnost, že dotaz načte nerelevantní dokument.

Je triviální dosáhnout vypadnutí 0% vrácením nulových dokumentů v odpovědi na jakýkoliv dotaz.

Vážený harmonický průměr přesnosti a připomenutí, tradiční F-takt nebo vyvážený F-skóre je:

To je také známo jako míra, protože odvolání a přesnost jsou rovnoměrně váženy.

Obecný vzorec pro nezáporný real je:

Dvě další běžně používané F míry jsou míra, kterou si váhy vybaví dvakrát více než přesnost, a míra, která váží přesnost dvakrát více než odvolání.

Měřítko F bylo odvozeno van Rijsbergenem (1979) tak, že „měří účinnost vyhledávání s ohledem na uživatele, který přikládá časům stejnou důležitost jako přesnosti“. Je založeno na van Rijsbergenově měření účinnosti . Jejich vztah je kde .

Přesnost a vybavování jsou metriky s jednou hodnotou založené na celém seznamu dokumentů vrácených systémem. U systémů, které vracejí seřazenou sekvenci dokumentů, je žádoucí vzít v úvahu také pořadí, v jakém jsou vrácené dokumenty prezentovány. Počítáním přesnosti a vybavování na každé pozici v seřazené sekvenci dokumentů lze vykreslit křivku preciznosti a vybavování, vykreslování přesnosti jako funkce vybavování . Průměrná přesnost vypočítává průměrnou hodnotu v intervalu od do :

To je oblast pod křivkou precision-recall.
Tento integrál je v praxi nahrazen konečným součtem nad každou pozicí v seřazené posloupnosti dokumentů:

kde je pořadí v pořadí načtených dokumentů, je počet načtených dokumentů, je přesnost při uzávěrce v seznamu, a je změna v odvolání z položek do .

Tento konečný součet se rovná:

kde je indikační funkce rovna 1, je-li položka v pořadí relevantním dokumentem, jinak nula. Všimněte si, že průměr je nad všemi relevantními dokumenty a příslušné dokumenty nezískané získat přesné skóre nula.

Někteří autoři se rozhodli funkci interpolovat, aby snížili dopad „vrtění“ v křivce. Například výzva PASCAL Visual Object Classes (měřítko pro detekci objektů počítačového vidění) počítá průměrnou přesnost tak, že zprůměruje přesnost na sadu rovnoměrně rozložených úrovní vyvolání {0, 0.1, 0.2, … 1.0}:

kde je interpolovaná přesnost, která bere maximální přesnost přes všechny připomíná větší než :

Alternativou je odvození analytické funkce za předpokladu konkrétního parametrického rozdělení pro základní rozhodovací hodnoty. Například binormální křivku precizně-recall lze získat za předpokladu rozhodovacích hodnot v obou třídách podle Gaussova rozdělení.

Přesnost na R-té pozici v pořadí výsledků pro dotaz, který má R relevantní dokumenty. Tato míra je vysoce korelovaná s Průměrnou přesností. Také Přesnost se rovná Odvolání na R-té pozici.

Průměrná průměrná přesnost pro sadu dotazů je průměr skóre průměrné přesnosti pro každý dotaz.

kde Q je počet dotazů.

Diskontovaný kumulativní zisk

DCG používá odstupňovanou stupnici relevance dokumentů z výsledné sady k vyhodnocení užitečnosti nebo zisku dokumentu na základě jeho pozice v seznamu výsledků. Předpokladem DCG je, že vysoce relevantní dokumenty, které se objevují níže v seznamu výsledků vyhledávání, by měly být penalizovány, protože odstupňovaná hodnota relevance je logaritmicky snížena úměrně k pozici výsledku.

DCG kumulovaná na určité hodnostní pozici je definována jako:

Vzhledem k tomu, že množina výsledků se může lišit velikostí mezi různými dotazy nebo systémy, pro porovnání výkonů používá normalizovaná verze DCG ideální DCG. Za tímto účelem třídí dokumenty výsledkového seznamu podle relevance, čímž vytváří ideální DCG na pozici p (), která normalizuje skóre:

Hodnoty nDCG pro všechny dotazy lze zprůměrovat a získat tak měřítko průměrného výkonu algoritmu řazení. Všimněte si, že v dokonalém algoritmu řazení budou hodnoty stejné jako při vytváření nDCG 1.0. Všechny výpočty nDCG jsou pak relativními hodnotami v intervalu 0.0 až 1.0, a tak jsou křížové dotazy srovnatelné.

Pro efektivní načítání relevantních dokumentů pomocí IR strategií jsou dokumenty obvykle transformovány do vhodné reprezentace. Každá strategie načítání obsahuje specifický model pro účely reprezentace dokumentu. Obrázek vpravo ilustruje vztah některých běžných modelů. Na obrázku jsou modely rozděleny podle dvou rozměrů: matematického základu a vlastností modelu.

Automatizované získávání informací

Opatření týkající se výkonnosti a správnosti

Diskontovaný kumulativní zisk

První rozměr: matematický základ

Druhý rozměr: vlastnosti modelu