Získávání informací (anglicky Information retrieval, IR) je umění a věda v oblasti vyhledávání informací v dokumentech, vyhledávání dokumentů samotných, vyhledávání metadat, která popisují dokumenty, nebo vyhledávání v databázích, ať už jde o relační samostatné databáze nebo hypertextové síťové databáze, jako je internet nebo intranety, pro text, zvuk, obrázky nebo data. Existuje však běžná záměna mezi vyhledáváním dat, vyhledáváním dokumentů, vyhledáváním informací a vyhledáváním textů, a každá z nich má vlastní těla literatury, teorie, praxe a technologií.
Termín „získávání informací“ zavedl Calvin Mooers v letech 1948-50.
IR je široký interdisciplinární obor, který čerpá z mnoha dalších oborů. Protože je tak široký, je obvykle špatně srozumitelný, protože se k němu přistupuje typicky jen z té či oné perspektivy. Stojí na rozhraní mnoha zavedených oborů a čerpá z kognitivní psychologie, informační architektury, informačního designu, lidského informačního chování, lingvistiky, sémiotiky, informační vědy, informatiky a knihovnictví.
Systémy automatizovaného získávání informací (IR) byly původně používány k řízení informační exploze ve vědecké literatuře v posledních několika desetiletích. Mnoho univerzit a veřejných knihoven používá IR systémy k poskytování přístupu ke knihám, časopisům a dalším dokumentům. IR systémy jsou často spojeny s objektem a dotazem. Dotazy jsou formální prohlášení o informačních potřebách, které uživatel vkládá do IR systému. Objekt je entita, která uchovává nebo ukládá informace v databázi. Uživatelské dotazy jsou spárovány s dokumenty uloženými v databázi. Dokument je tedy datový objekt. Často samotné dokumenty nejsou uchovávány nebo ukládány přímo v IR systému, ale jsou místo toho zastoupeny v systému náhradními dokumenty.
V roce 1992 Ministerstvo obrany spolu s Národním institutem standardů a technologií (NIST) spolusponzorovalo konferenci o načítání textů (TREC) v rámci textového programu TIPSTER. Cílem bylo nahlédnout do komunity načítání informací tím, že poskytne infrastrukturu potřebnou pro tak obrovské vyhodnocení metodik načítání textů.
Webové vyhledávače jako Google a Lycos patří mezi nejviditelnější aplikace výzkumu získávání informací.
Existují různé způsoby, jak změřit, jak dobře získaná informace odpovídá zamýšlené informaci:
Podíl relevantních dokumentů na všech získaných dokumentech:
V binární klasifikaci je přesnost analogická s kladnou prediktivní hodnotou.
Přesnost lze také hodnotit v dané mezní hodnotě, označené P@n, namísto všech načtených dokumentů.
Podíl získaných relevantních dokumentů ze všech dostupných relevantních dokumentů:
V binární klasifikaci se vyvolání nazývá citlivost.
Vážený harmonický průměr přesnosti a připomenutí, tradiční F-míra je:
To je také známo jako míra, protože odvolání a přesnost jsou rovnoměrně váženy.
Dvě další běžně používané F míry jsou míra, která váží přesnost dvakrát více než odvolání, a míra, která váží odvolání dvakrát více než přesnost.
Nad sadou dotazů najděte průměr průměrných přesností, kde Průměrná přesnost je průměr přesnosti po načtení každého příslušného dokumentu.
Kde r je hodnost, N načtené číslo, rel() binární funkce na relevanci dané hodnosti a přesnost P() na dané mezní hodnosti:
Tato metoda klade důraz na dřívější vracení relevantnějších dokumentů.
klasifikace IR-modelů
Pro úspěšné IR je nutné dokumenty nějakým způsobem reprezentovat. Pro tento účel existuje řada modelů, které lze zhruba rozdělit do tří hlavních skupin:
Set-teoretické / booleovské modely
Algebraické / vektorové prostorové modely
Hlavní výzkumné skupiny pro získávání informací
Hlavní údaje při získávání informací
Ocenění v tomto oboru: Tony Kent Strix award