Těžba pojmů je činnost, jejímž výsledkem je extrakce pojmů z artefaktů. Řešení tohoto úkolu obvykle zahrnují aspekty umělé inteligence a statistiky, jako je například dolování dat a dolování textu. Vzhledem k tomu, že artefakty jsou typicky volně strukturovanou sekvencí slov a dalších symbolů (spíše než pojmů), problém není triviální, ale může poskytnout silný vhled do významu, provenience a podobnosti dokumentů.
Tradičně se převod slov na pojmy provádí pomocí tezauru a u výpočetních technik je tendence dělat totéž. Použitý tezauru je buď speciálně vytvořený pro daný úkol, nebo již existující jazykový model, obvykle související s Princetonským WordNetem.
Mapování slov k pojmům je často nejednoznačné. Obvykle se každé slovo v daném jazyce vztahuje k několika možným pojmům. Lidé používají kontext k rozcestníkování různých významů daného kusu textu, pokud jsou k dispozici. Strojové překladové systémy nemohou snadno odvodit kontext.
Pro účely vytěžování pojmů však bývají tyto nejasnosti méně důležité než u strojového překladu, neboť ve velkých dokumentech mají nejasnosti tendenci se vyrovnávat, podobně jako je tomu u vytěžování textů.
Existuje mnoho technik pro rozcestníky, které mohou být použity. Příkladem je lingvistická analýza textu a použití slov a asociace pojmů informace o frekvenci, které mohou být odvozeny z velkých textových korpusů. V poslední době se objevily techniky, které jsou založeny na sémantické podobnosti mezi možnými pojmy a kontextem a získaly zájem ve vědecké komunitě.
Detekce a indexace podobných dokumentů ve velkých korpusech
Jedním z vedlejších efektů výpočtu statistiky dokumentů v konceptuální doméně, spíše než ve slovní doméně, je to, že koncepty tvoří přirozené stromové struktury založené na hypernymii a meronymii. Tyto struktury mohou být použity k vytvoření jednoduchých statistik členství ve stromech, které mohou být použity k nalezení jakéhokoliv dokumentu v euklidovském konceptuálním prostoru. Pokud je velikost dokumentu také považována za další rozměr tohoto prostoru, pak může být vytvořen extrémně efektivní indexovací systém. Tato technika je v současné době v komerčním použití a lokalizuje podobné právní dokumenty v 2,5 milionu dokumentových korpusů.
Seskupování dokumentů podle témat
Standardní numerické techniky shlukování mohou být použity v „konceptuálním prostoru“, jak je popsáno výše, k vyhledání a indexování dokumentů podle odvozeného tématu. Ty jsou numericky mnohem efektivnější než jejich bratranci, kteří dolují text, a mají tendenci chovat se intuitivněji v tom smyslu, že lépe mapují míry podobnosti, které by generoval člověk.