Data mining – Dobrá psychoterapie

Data mining (DM), také známý jako Knowledge-Discovery in Databases (KDD) nebo Knowledge-Discovery and Data Mining (KDD), je proces automatického vyhledávání velkých objemů dat pro vzory. Data mining je poměrně nedávné a současné téma v informatice. Data mining však používá mnoho starších výpočetních technik ze statistiky, vyhledávání informací, strojového učení a rozpoznávání vzorů.

Data mining lze definovat jako „netriviální extrakci implicitních, dříve neznámých a potenciálně užitečných informací z dat“ a „vědu o extrakci užitečných informací z rozsáhlých datových souborů nebo databází“ . Ačkoli se obvykle používá ve vztahu k analýze dat, data mining, stejně jako umělá inteligence, je zastřešující pojem a používá se s různým významem v široké škále kontextů. Obvykle je spojován s potřebou podniku nebo jiné organizace identifikovat trendy.

Datové dolování zahrnuje proces analýzy dat pro zobrazení vzorců nebo vztahů; třídění přes velké množství dat; a vybírání kusů relativních informací nebo vzorců, které se vyskytují, např. vybírání statistických informací z některých dat.

Jednoduchým příkladem vytěžování dat je jeho využití v maloobchodním prodejním oddělení. Pokud obchod sleduje nákupy zákazníka a všimne si, že zákazník nakupuje hodně hedvábných košil, systém vytěžování dat vytvoří korelaci mezi tímto zákazníkem a hedvábnými košilemi. Prodejní oddělení se na tyto informace podívá a může začít s přímým poštovním marketingem hedvábných košil tomuto zákazníkovi, nebo se může alternativně pokusit přimět zákazníka, aby si koupil širší sortiment výrobků. V tomto případě systém vytěžování dat používaný maloobchodním obchodem objevil nové informace o zákazníkovi, které předtím společnost neznala. Dalším široce používaným (i když hypotetickým) příkladem je velmi rozsáhlý severoamerický řetězec supermarketů. Intenzivní analýzou transakcí a zboží nakoupeného za určité období analytici zjistili, že pivo a plenky se často kupují společně. Vysvětlit tuto vzájemnou souvislost by sice mohlo být obtížné, ale využít toho by na druhou stranu nemělo být těžké (např. umístit vysoce ziskové plenky vedle vysoce ziskových piv). Tato technika je často označována jako Market Basket Analysis.

Ve statistických analýzách, ve kterých neexistuje žádný základní teoretický model, se vytěžování dat často aproximuje pomocí postupných regresních metod, kde se šikovně hledá prostor 2k možných vztahů mezi jednou výslednou proměnnou a k potenciálními vysvětlujícími proměnnými. S příchodem paralelních výpočtů je možné (když k je menší než přibližně 40) zkoumat všechny 2k modely. Tento postup se nazývá všechny podskupiny nebo vyčerpávající regrese. Některé z prvních aplikací vyčerpávající regrese zahrnovaly studium rostlinných dat.

Data mining (také nazývaný data nebo knowledge discovery) je obecně proces analýzy dat z různých úhlů pohledu a jejich shrnutí do užitečných informací – informací, které mohou být použity ke zvýšení příjmů, snížení nákladů nebo obojího. Data mining software je jedním z řady analytických nástrojů pro analýzu dat. Umožňuje uživatelům analyzovat data z mnoha různých dimenzí nebo úhlů, kategorizovat je a shrnout zjištěné vztahy. Technicky vzato, data mining je proces hledání korelací nebo vzorů mezi desítkami polí ve velkých relačních databázích.

Ačkoliv je vytěžování dat relativně nový termín, technologie jím není. Firmy používají výkonné počítače k tomu, aby se dlouho probíraly objemy dat ze skenerů supermarketů a analyzovaly zprávy z průzkumu trhu. Nicméně nepřetržité inovace v oblasti výpočetního výkonu, diskového úložiště a statistického softwaru dramaticky zvyšují přesnost analýzy a zároveň snižují náklady.

Například jeden mýtický řetězec obchodů s potravinami na Středozápadě využil kapacity softwaru Oracle pro vyhledávání dat k analýze místních nákupních vzorců. Zjistili, že když si muži kupují plenky ve čtvrtek a v sobotu, mají také tendenci kupovat pivo. Další analýza ukázala, že tito zákazníci obvykle nakupují potraviny každý týden v sobotu. Ve čtvrtek však nakoupili jen několik položek. Prodejce došel k závěru, že pivo kupují proto, aby ho měli k dispozici na nadcházející víkend. Potravinářský řetězec mohl tyto nově zjištěné informace využít různými způsoby ke zvýšení příjmů. Například mohli posunout pivní displej blíže k displeji plenek. A mohli zajistit, aby se pivo a plenky prodávaly ve čtvrtek za plnou cenu.

Pojem „vytěžování dat“ používaný v technickém kontextu datového skladu a analýzy je neutrální. Někdy má však pejorativnější použití, které implikuje vnucování vzorců (a zejména kauzálních vztahů) datům tam, kde žádné neexistují. Toto vnucování irelevantní, zavádějící nebo triviální atributové korelace je ve statistické literatuře správněji kritizováno jako „vytěžování dat“. Dalším pojmem pro toto zneužití statistiky je datový rybolov.

Používá-li se v tomto druhém smyslu, bagrování dat znamená skenování dat pro jakékoli vztahy, a pak, když je zjištěno, že přichází se zajímavým vysvětlením. Problém je v tom, že velké soubory dat mají vždy nějaké vzrušující vztahy, které jsou pro tato data specifické. Proto jakékoli závěry, ke kterým se dospěje, budou pravděpodobně velmi podezřelé. Navzdory tomu je v každé aplikované statistické analýze vždy vyžadována nějaká průzkumná práce s daty, aby se člověk dostal k datům, takže někdy je hranice mezi správnou statistickou praxí a bagrováním dat méně než jasná.

Jeden společný přístup k hodnocení vhodnosti modelu generovaného pomocí technik vytěžování dat se nazývá křížová validace. Křížová validace je technika, která vytváří odhad generalizační chyby na základě převzorkování. Zjednodušeně řečeno, obecná myšlenka křížové validace je, že rozdělení dat do dvou nebo více samostatných datových podskupin umožňuje použít jednu podskupinu k vyhodnocení zobecnitelnosti modelu získaného z ostatních datových podskupin. Datová podskupina používaná k sestavení modelu se nazývá tréninková sada; vyhodnocovací datová podskupina se nazývá testovací sada. Běžné techniky křížové validace zahrnují metodu zdržující, křížovou validaci k-fold a metodu vynechávající-one-out.

Dalším úskalím využívání vytěžování dat je, že může vést k odhalení korelací, které existují spíše díky náhodě než díky základnímu vztahu. „Vždy existoval značný počet lidí, kteří se zabývali zkoumáním posledních tisíc čísel, která se objevila na ruletě, ve snaze najít nějaký opakující se vzorec. Je smutné, že ho obvykle našli.“ Nicméně, když se korelace v investiční analýze správně provedou, ukáže se, že jsou velmi ziskové pro statistické arbitrážní operace (jako jsou strategie obchodování párů), a navíc se korelační analýza ukázala být velmi užitečná při řízení rizik. Nalezení korelací na finančních trzích, když se provede správně, není totéž jako nalezení falešných vzorců v ruletě.

Většina snah o vytěžení dat je zaměřena na vývoj velmi podrobných modelů některých rozsáhlých datových souborů. Jiní výzkumníci popsali alternativní metodu, která zahrnuje hledání minimálních rozdílů mezi prvky v datových souborech s cílem vyvinout jednodušší modely, které představují relevantní data.

Obavy o ochranu soukromí vyvolaly také vládní nebo komerční datové soubory pro účely národní bezpečnosti nebo vymáhání práva.

Existuje mnoho legitimních způsobů využití vytěžování dat. Například databáze léků na předpis, které užívá skupina lidí, by mohla být využita k nalezení kombinací léků vykazujících škodlivé interakce. Vzhledem k tomu, že jakákoli konkrétní kombinace se může vyskytnout pouze u 1 z 1000 lidí, bylo by třeba prozkoumat velké množství dat, aby se taková interakce objevila. Projekt zahrnující lékárny by mohl snížit počet reakcí na léky a potenciálně zachránit životy. Bohužel existuje také obrovský potenciál pro zneužití takové databáze.

V podstatě vytěžování dat poskytuje informace, které by jinak nebyly dostupné. Aby byly užitečné, musí být správně interpretovány. Pokud se shromážděná data týkají jednotlivých lidí, vyvstává mnoho otázek týkajících se soukromí, zákonnosti a etiky.

Kombinátorové dolování dat ze hry

Od počátku devadesátých let, s dostupností věštců pro určité kombinatorické hry, také nazývané tablebases (např. pro 3×3-šachy) s jakoukoliv počáteční konfigurací, malé-deskové tečky-a-boxy, malé-deskové-hex, a některé koncovky v šachu, tečky-a-boxy, a hex; byla otevřena nová oblast pro dolování dat. Jedná se o extrakci lidsky využitelných strategií z těchto věštců. Jedná se o rozpoznávání vzorů v příliš vysoké abstrakci pro známé algoritmy rozpoznávání statistických vzorů nebo jiné algoritmické přístupy, které mají být použity: alespoň, nikdo neví, jak to udělat ještě (od ledna 2005). Použitá metoda je plnou silou vědecké metody: rozsáhlé experimentování s tablebases kombinované s intenzivním studiem tablebase-odpovědi na dobře navržené problémy, kombinované se znalostí předchozího umění, tj. pre-tablebase znalosti, vedoucí k zábleskům poznání. Berlekamp v tečky-a-boxy atd. a John Nunn v šachových koncovkách jsou pozoruhodné příklady lidí, kteří dělají tuto práci, i když nebyli a nejsou zapojeni do tablebase generace.

Významné využití vytěžování dat

odpovídající online tutoriál)