Dolování textu, také označované jako dolování textových dat, zhruba ekvivalentní textové analytiky, je proces odvozování vysoce kvalitních informací z textu. Kvalitní informace jsou obvykle odvozovány prostřednictvím vymýšlení vzorů a trendů pomocí prostředků, jako je statistické učení vzorů. Dolování textu obvykle zahrnuje proces strukturování vstupního textu (obvykle parsování, spolu s přidáním některých odvozených jazykových vlastností a odstraněním dalších a následným vložením do databáze), odvozování vzorů v rámci strukturovaných dat a nakonec vyhodnocení a interpretaci výstupu. ‚Vysoká kvalita‘ v dolování textu obvykle odkazuje na nějakou kombinaci relevance, novosti a zajímavosti. Typické úkoly dolování textu zahrnují kategorizaci textu, shlukování textu, extrakci konceptu/entity, produkci granulárních taxonomií, sentimentovou analýzu, shrnutí dokumentu a modelování vztahů mezi entitami (tj. učení vztahů mezi pojmenovanými entitami).
Analýza textu zahrnuje vyhledávání informací, lexikální analýzu ke studiu distribuce frekvencí slov, rozpoznávání vzorů, tagování/anotace, extrakci informací, techniky dolování dat včetně analýzy odkazů a asociací, vizualizace a prediktivní analytiky. Zastřešujícím cílem je v podstatě přeměnit text na data pro analýzu pomocí aplikace zpracování přirozeného jazyka (NLP) a analytických metod.
Typickou aplikací je skenování sady dokumentů napsaných v přirozeném jazyce a buď modelování sady dokumentů pro účely prediktivní klasifikace nebo naplnění databáze nebo vyhledávacího indexu získanými informacemi.
Dolování textů a analytika textu
Výzva využívat velké množství podnikových informací, které mají původ v „nestrukturované“ podobě, je uznávána již desítky let. Je uznávána v nejranější definici business intelligence (BI), v říjnu 1958 v IBM Journal článek H.P. Luhna, A Business Intelligence System, který popisuje systém, který:
„…využívat zařízení pro zpracování dat pro automatické odebírání a automatické kódování dokumentů a pro vytváření zájmových profilů pro každý z ‚akčních bodů‘ v organizaci. Jak příchozí, tak interně generované dokumenty jsou automaticky odebírány, charakterizovány slovním vzorem a automaticky odesílány do příslušných akčních bodů.“
Přesto, jak se od 60. let vyvíjely manažerské informační systémy a jak se BI v 80. a 90. letech objevovalo jako softwarová kategorie a obor praxe, kladl se důraz na numerická data uložená v relačních databázích. Není se čemu divit: text v „nestrukturovaných“ dokumentech se těžko zpracovává. Vznik textové analytiky v její současné podobě pramení z přeorientování výzkumu na konci 90. let z vývoje algoritmů na aplikace, jak popsala prof. Marti A. Hearstová v článku Rozplétání textových dat Těžba:
Hearstovo prohlášení o potřebě z roku 1999 poměrně dobře popisuje stav technologie a praxe textové analytiky o deset let později.
V biomedicínské literatuře byla popsána řada aplikací v oblasti dolování textu.
Jednou z online aplikací pro dolování textu v biomedicínské literatuře je PubGene, která kombinuje biomedicínské dolování textu se síťovou vizualizací jako internetovou službu. TPX je konceptem podporovaný vyhledávací a navigační nástroj pro analýzy biomedicínské literatury – běží na PubMed/PMC a na požádání může být nastaven tak, aby běžel i na lokálních úložištích literatury.
Metody a software pro vytěžování textů také zkoumají a vyvíjejí velké firmy, včetně IBM a Microsoftu, za účelem další automatizace těžebních a analytických procesů, a různé firmy, které pracují v oblasti vyhledávání a indexování obecně jako způsobu, jak zlepšit své výsledky.
V rámci veřejného sektoru se velké úsilí soustředilo na tvorbu softwaru pro sledování a sledování teroristických aktivit.
Těžbu textů využívají velké mediální společnosti, jako je Tribune Company, k objasnění informací a k poskytnutí čtenářům větších zkušeností s vyhledáváním, což zase zvyšuje „přilnavost“ stránek a příjmy. Na zadní straně navíc redaktoři těží z toho, že mohou sdílet, sdružovat a balíčkovat novinky napříč nemovitostmi, což výrazně zvyšuje možnosti zpeněžit obsah.
Těžba textů se začíná používat i v marketingu, konkrétněji v analytickém řízení vztahů se zákazníky. Coussement a Van den Poel (2008) ji aplikují na zlepšení prediktivních analytických modelů pro zákaznickou churn (customer attrition).
Text byl použit k detekci emocí v související oblasti afektivního počítání. Textové přístupy k afektivnímu počítání byly použity na více korpusech, jako jsou hodnocení studentů, dětské příběhy a zpravodajské příběhy.
Problematika vytěžování textů je důležitá pro vydavatele, kteří disponují rozsáhlými databázemi informací, které potřebují indexovat pro vyhledávání. To platí zejména ve vědeckých disciplínách, v nichž jsou vysoce specifické informace často obsaženy v psaném textu. Proto byly podniknuty iniciativy, jako je například návrh Nature na Open Text Mining Interface (OTMI) a společný Journal Publishing Document Type Definition (DTD) Národního institutu zdraví, které by poskytovaly sémantické podněty strojům k odpovědím na specifické dotazy obsažené v textu, aniž by byly odstraněny bariéry vydavatelů pro přístup veřejnosti.
Do iniciativy pro těžbu textu se zapojily i akademické instituce:
Soukromé iniciativy dále nabízejí nástroje pro akademické dolování textu:
Až donedávna webové stránky nejčastěji používaly textové vyhledávání, které nacházelo pouze dokumenty obsahující specifická slova nebo fráze definované uživatelem. Nyní pomocí sémantického webu může textové dolování najít obsah na základě významu a kontextu (spíše než jen podle konkrétního slova).
Kromě toho může být software pro dolování textu použit k sestavení velkých souborů informací o konkrétních osobách a událostech. Například velké soubory dat založené na datech získaných ze zpravodajských zpráv mohou být sestaveny tak, aby usnadňovaly analýzu sociálních sítí nebo kontrarozvědku. Ve skutečnosti může software pro dolování textu fungovat v podobné funkci jako zpravodajský analytik nebo výzkumný knihovník, i když s omezenějším rozsahem analýzy.
Text mining se také používá v některých e-mailových spamových filtrech jako způsob určení charakteristik zpráv, které budou pravděpodobně reklamou nebo jiným nežádoucím materiálem.