Průzkumná analýza dat

Průzkumná analýza dat (EDA) je ve statistice přístup k analýze datových souborů za účelem shrnutí jejich hlavních charakteristik, často pomocí vizuálních metod. Statistický model může být použit nebo ne, ale primárně EDA slouží k tomu, abychom viděli, co nám data mohou sdělit nad rámec formálního modelování nebo testování hypotéz. Průzkumná analýza dat byla prosazována Johnem Tukeym, aby povzbudil statistiky k prozkoumání dat a případně k formulaci hypotéz, které by mohly vést k novému sběru dat a experimentům. EDA se liší od počáteční analýzy dat (IDA), která se úžeji zaměřuje na kontrolu předpokladů požadovaných pro modelování a testování hypotéz a na zpracování chybějících hodnot a provádění transformací proměnných podle potřeby. EDA zahrnuje IDA.

Tukeyho prosazení EDA podpořilo vývoj statistických výpočetních balíčků, zejména S v Bellových laboratořích. Programovací jazyk S inspiroval systémy ‚S‘-PLUS a R. Tato rodina statisticko-výpočetních prostředí se vyznačovala značně vylepšenými dynamickými vizualizačními schopnostmi, což statistikům umožnilo identifikovat odlehlé hodnoty, trendy a vzory v datech, které si zasloužily další studium.

Průzkumná analýza dat, robustní statistika, neparametrická statistika a rozvoj statistických programovacích jazyků usnadnily statistikům práci na vědeckých a inženýrských problémech. Tyto problémy zahrnovaly výrobu polovodičů a pochopení komunikačních sítí, což se týkalo Bellových laboratoří. Tyto statistické vývojové trendy, všechny prosazované Tukeym, byly navrženy tak, aby doplňovaly analytickou teorii testování statistických hypotéz, zejména Laplaceova tradice klade důraz na exponenciální rodiny.

Tukey zastával názor, že přílišný důraz je ve statistikách kladen na testování statistických hypotéz (konfirmační analýza dat); větší důraz je třeba klást na používání dat k navrhování hypotéz k testování. Zejména zastával názor, že zaměňování obou typů analýz a jejich použití na stejném souboru dat může vést k systematickému zkreslení vzhledem k problémům spojeným s testováním hypotéz navržených daty.

Doporučujeme:  Inhibitory zpětného vychytávání serotoninu-noradrenalinu-dopaminu

Cílem EDA je:

Mnohé EDA techniky byly přijaty do data mining a jsou vyučovány mladým studentům jako způsob, jak je seznámit se statistickým myšlením.

Existuje řada nástrojů, které jsou pro EDA užitečné, ale EDA se vyznačuje spíše postojem než konkrétními technikami.

Typické grafické techniky používané v EDA jsou:

Typické kvantitativní techniky jsou:

Mnoho nápadů EDA lze vysledovat až k dřívějším autorům, například:

Otevřený univerzitní kurz Statistika ve společnosti (MDST 242) převzal výše uvedené myšlenky a sloučil je s prací Gottfrieda Noethera, která zavedla statistickou inferenci prostřednictvím házení mincí a mediánového testu.

Zjištění z EDA jsou často ortogonální k primárnímu analytickému úkolu. Toto je příklad, který je podrobněji popsán v. Analytický úkol spočívá v nalezení proměnných, které nejlépe předpovídají spropitné, které jídelní party dá číšníkovi. Dostupné proměnné jsou spropitné, celkový účet, pohlaví, kuřácký status, denní doba, den v týdnu a velikost party. Analytický úkol vyžaduje, aby regresní model byl vhodný buď se spropitným, nebo se spropitným jako proměnnou odezvy. Vybavený model je

který říká, že jak se velikost jídelního večírku zvýší o jednu osobu, spropitné se sníží o 1%. Tvorba grafů dat odhaluje další zajímavé vlastnosti, které tento model nepopisuje.

To, co se naučíte z grafiky, se liší od toho, co by se dalo naučit z modelování. Dá se říci, že tyto obrázky nám pomáhají s daty vyprávět příběh, že jsme objevili některé rysy tipování, které jsme možná předem nepředpokládali.