Klasifikace dokumentů

Klasifikace dokumentů nebo jejich kategorizace je problémem v oblasti knihovnictví, informatiky a informatiky. Úkolem je přiřadit dokument do jedné nebo více tříd nebo kategorií. To může být provedeno „manuálně“ (nebo „intelektuálně“) nebo algoritmicky. Intelektuální klasifikace dokumentů byla většinou doménou knihovnictví, zatímco algoritmická klasifikace dokumentů se používá hlavně v oblasti informatiky a informatiky. Problémy se však překrývají, a proto také probíhá mezioborový výzkum v oblasti klasifikace dokumentů.

Každý druh dokumentu má své zvláštní problémy s klasifikací. Není-li uvedeno jinak, předpokládá se klasifikace textu.

Dokumenty mohou být klasifikovány podle předmětu nebo podle jiných atributů (jako je typ dokumentu, autor, rok tisku atd.). Ve zbytku tohoto článku se uvažuje pouze o klasifikaci předmětů. Existují dvě hlavní filozofie klasifikace předmětů dokumentů: Přístup založený na obsahu a přístup založený na požadavku.

Klasifikace „na základě obsahu“ versus klasifikace „na základě požadavku“

Klasifikace založená na obsahu je klasifikace, ve které váha daná konkrétním tématům v dokumentu určuje třídu, do které je dokument přiřazen. V mnoha knihovních klasifikacích je například pravidlem, že nejméně 20% obsahu knihy by se mělo týkat třídy, do které je kniha přiřazena. V automatické klasifikaci by to mohlo být, kolikrát se daná slova objeví v dokumentu.

Klasifikace orientovaná na požadavky (nebo -indexování) je klasifikace, při níž očekávaný požadavek uživatelů ovlivňuje způsob utajování dokumentů. Klasifikátor se ptá sám sebe: „Pod jakými deskriptory by se měl tento subjekt nacházet?“ a „promýšlí všechny možné dotazy a rozhoduje, pro které z nich je daný subjekt relevantní“ (Soergel, 1985, s. 230).

Klasifikace orientovaná na požadavek může být klasifikace, která je zaměřena na konkrétní publikum nebo skupinu uživatelů. Například knihovna nebo databáze pro feministická studia může klasifikovat/indexovat dokumenty odlišné ve srovnání s historickou knihovnou. Pravděpodobně je však lepší chápat klasifikaci orientovanou na požadavek jako klasifikaci založenou na zásadách: Klasifikace se provádí podle určitých ideálů a odráží účel knihovny nebo databáze, která klasifikaci provádí. Tímto způsobem se nemusí nutně jednat o druh klasifikace nebo indexace založené na uživatelských studiích. Pouze pokud se použijí empirické údaje o použití nebo uživatelích, měla by být klasifikace orientovaná na požadavek považována za přístup založený na uživateli.

Klasifikace versus indexace

Někdy se rozlišuje mezi přiřazováním dokumentů do tříd („klasifikace“) a přiřazováním předmětů k dokumentům („indexace předmětů“), ale jak tvrdil Frederick Wilfrid Lancaster, toto rozlišování není plodné. „Tyto terminologické odlišnosti,“ píše, „jsou zcela bezvýznamné a slouží pouze k vyvolání zmatku“ (Lancaster, 2003, s. 21). Názor, že toto rozlišení je čistě povrchní, podporuje také skutečnost, že klasifikační systém může být transformován do tezauru a naopak (srov. Aitchison, 1986, 2004; Broughton, 2008; Riesthuis & Bliedung, 1991). Proto je aktem označení dokumentu (řekněme přiřazením termínu z řízeného slovníku k dokumentu) současně přiřazení tohoto dokumentu do třídy dokumentů indexovaných tímto termínem (všechny dokumenty indexované nebo klasifikované jako X patří do stejné třídy dokumentů).

Automatická klasifikace dokumentů

Úkoly automatické klasifikace dokumentů lze rozdělit na tři druhy: kontrolovaná klasifikace dokumentů, kdy nějaký externí mechanismus (například zpětná vazba od člověka) poskytuje informace o správné klasifikaci dokumentů, nekontrolovaná klasifikace dokumentů (také známá jako shlukování dokumentů), kdy klasifikace musí být provedena zcela bez odkazu na externí informace, a polokontrolovaná klasifikace dokumentů, kdy jsou části dokumentů označeny externím mechanismem.

Klasifikační techniky byly použity na