Vytěžování pojmů je činnost, jejímž výsledkem je extrakce pojmů z artefaktů. Řešení tohoto úkolu obvykle zahrnuje aspekty umělé inteligence a statistiky, jako je dolování dat a dolování textu. Vzhledem k tomu, že artefakty jsou obvykle volně strukturovaným sledem slov a jiných symbolů (spíše než pojmů), je tento problém netriviální, ale může poskytnout silný vhled do významu, původu a podobnosti dokumentů.
Tradičně se převod slov na pojmy provádí pomocí tezauru a u výpočetních technik je tendence postupovat stejně. Používají se buď tezaury speciálně vytvořené pro tuto úlohu, nebo již existující jazykový model, obvykle příbuzný Princetonskému WordNetu.
Přiřazení slov k pojmům je často nejednoznačné. Obvykle se každé slovo v daném jazyce vztahuje k několika možným pojmům. Lidé používají kontext k rozklíčování různých významů daného textu, pokud je k dispozici. Systémy strojového překladu nemohou kontext snadno odvodit.
Pro účely vytěžování pojmů však tyto nejednoznačnosti nebývají tak důležité jako u strojového překladu, protože v rozsáhlých dokumentech se nejednoznačnosti obvykle vyrovnávají, podobně jako je tomu u vytěžování textů.
Existuje řada technik, které lze použít pro disambiguaci. Příkladem je lingvistická analýza textu a využití informací o frekvenci slov a asociací pojmů, které lze odvodit z rozsáhlých textových korpusů. V poslední době se objevily techniky, které jsou založeny na sémantické podobnosti mezi možnými pojmy a kontextem a získaly si zájem vědecké komunity.
Detekce a indexace podobných dokumentů ve velkých korpusech
Jedním z vedlejších důsledků výpočtu statistik dokumentů v doméně pojmů, nikoli v doméně slov, je to, že pojmy tvoří přirozené stromové struktury založené na hypernymii a meronymii. Tyto struktury lze použít k vytvoření jednoduché stromové statistiky příslušnosti, kterou lze použít k vyhledání libovolného dokumentu v euklidovském pojmovém prostoru. Pokud se za další dimenzi tohoto prostoru považuje také velikost dokumentu, pak lze vytvořit mimořádně účinný indexovací systém. Tato technika se v současné době komerčně využívá při vyhledávání podobných právních dokumentů v korpusu 2,5 milionu dokumentů.
Shlukování dokumentů podle tématu
K vyhledávání a indexování dokumentů podle odvozeného tématu lze použít standardní techniky numerického shlukování v „prostoru pojmů“, jak je popsáno výše. Tyto metody jsou numericky mnohem účinnější než jejich příbuzní z oblasti textového dolování a mají tendenci chovat se intuitivněji v tom smyslu, že lépe odpovídají mírám podobnosti, které by vytvořil člověk.