Získávání informací

Získávání informací (anglicky Information retrieval, IR) je umění a věda v oblasti vyhledávání informací v dokumentech, vyhledávání dokumentů samotných, vyhledávání metadat, která popisují dokumenty, nebo vyhledávání v databázích, ať už jde o relační samostatné databáze nebo hypertextové síťové databáze, jako je internet nebo intranety, pro text, zvuk, obrázky nebo data. Existuje však běžná záměna mezi vyhledáváním dat, vyhledáváním dokumentů, vyhledáváním informací a vyhledáváním textů, a každá z nich má vlastní těla literatury, teorie, praxe a technologií.

Termín „získávání informací“ zavedl Calvin Mooers v letech 1948-50.

IR je široký interdisciplinární obor, který čerpá z mnoha dalších oborů. Protože je tak široký, je obvykle špatně srozumitelný, protože se k němu přistupuje typicky jen z té či oné perspektivy. Stojí na rozhraní mnoha zavedených oborů a čerpá z kognitivní psychologie, informační architektury, informačního designu, lidského informačního chování, lingvistiky, sémiotiky, informační vědy, informatiky a knihovnictví.

Systémy automatizovaného získávání informací (IR) byly původně používány k řízení informační exploze ve vědecké literatuře v posledních několika desetiletích. Mnoho univerzit a veřejných knihoven používá IR systémy k poskytování přístupu ke knihám, časopisům a dalším dokumentům. IR systémy jsou často spojeny s objektem a dotazem. Dotazy jsou formální prohlášení o informačních potřebách, které uživatel vkládá do IR systému. Objekt je entita, která uchovává nebo ukládá informace v databázi. Uživatelské dotazy jsou spárovány s dokumenty uloženými v databázi. Dokument je tedy datový objekt. Často samotné dokumenty nejsou uchovávány nebo ukládány přímo v IR systému, ale jsou místo toho zastoupeny v systému náhradními dokumenty.

V roce 1992 Ministerstvo obrany spolu s Národním institutem standardů a technologií (NIST) spolusponzorovalo konferenci o načítání textů (TREC) v rámci textového programu TIPSTER. Cílem bylo nahlédnout do komunity načítání informací tím, že poskytne infrastrukturu potřebnou pro tak obrovské vyhodnocení metodik načítání textů.

Webové vyhledávače jako Google a Lycos patří mezi nejviditelnější aplikace výzkumu získávání informací.

Existují různé způsoby, jak změřit, jak dobře získaná informace odpovídá zamýšlené informaci:

Podíl relevantních dokumentů na všech získaných dokumentech:

V binární klasifikaci je přesnost analogická s kladnou prediktivní hodnotou.
Přesnost lze také hodnotit v dané mezní hodnotě, označené P@n, namísto všech načtených dokumentů.

Podíl získaných relevantních dokumentů ze všech dostupných relevantních dokumentů:

V binární klasifikaci se vyvolání nazývá citlivost.

Vážený harmonický průměr přesnosti a připomenutí, tradiční F-míra je:

To je také známo jako míra, protože odvolání a přesnost jsou rovnoměrně váženy.

Dvě další běžně používané F míry jsou míra, která váží přesnost dvakrát více než odvolání, a míra, která váží odvolání dvakrát více než přesnost.

Nad sadou dotazů najděte průměr průměrných přesností, kde Průměrná přesnost je průměr přesnosti po načtení každého příslušného dokumentu.

Kde r je hodnost, N načtené číslo, rel() binární funkce na relevanci dané hodnosti a přesnost P() na dané mezní hodnosti:

Tato metoda klade důraz na dřívější vracení relevantnějších dokumentů.

klasifikace IR-modelů

Pro úspěšné IR je nutné dokumenty nějakým způsobem reprezentovat. Pro tento účel existuje řada modelů, které lze zhruba rozdělit do tří hlavních skupin:

Set-teoretické / booleovské modely

Algebraické / vektorové prostorové modely

Hlavní výzkumné skupiny pro získávání informací

Hlavní údaje při získávání informací

ACM SIGIR Gerard Salton Award