Analýza dat

Analýza dat je proces kontroly, čištění, transformace a modelování dat s cílem objevit užitečné informace, navrhnout závěry a podpořit rozhodování. Analýza dat má více aspektů a přístupů, zahrnuje různé techniky pod různými názvy, v různých oblastech podnikání, vědy a společenských věd.

Datová integrace je předchůdcem datové analýzy a datová analýza je úzce spojena s datovou vizualizací a šířením dat. Termín datová analýza se někdy používá jako synonymum pro datové modelování.

Proces analýzy dat

Analýza dat je proces, v jehož rámci lze rozlišit několik fází:

Potřeba čištění dat vyplývá z problémů ve způsobu zadávání a ukládání dat. Čištění dat je proces prevence a opravy těchto chyb. Běžné úkoly zahrnují porovnávání záznamů, deduplikaci a segmentaci sloupců. Existuje několik typů čištění dat, které závisí na typu dat. Pro kvantitativní data lze použít metody pro detekci odlehlých hodnot, aby se zbavily pravděpodobně nesprávně zadaných dat. Pro textová data lze použít kontroly pravopisu, aby se snížilo množství chybně napsaných slov, ale je těžší poznat, zda slovo samo o sobě je správné.

Nejdůležitější rozdíl mezi fází počáteční analýzy dat a fází hlavní analýzy spočívá v tom, že během počáteční analýzy dat se člověk zdrží jakékoli analýzy, jejímž cílem je odpovědět na původní výzkumnou otázku. Fáze počáteční analýzy dat se řídí těmito čtyřmi otázkami:

Výběr analýz pro posouzení kvality dat během počáteční fáze analýzy dat závisí na analýzách, které budou provedeny v hlavní fázi analýzy.

Kvalita měřicích přístrojů by měla být kontrolována pouze během počáteční fáze analýzy údajů, pokud to není předmětem zájmu nebo výzkumné otázky studie. Mělo by se kontrolovat, zda struktura měřicích přístrojů odpovídá struktuře uvedené v literatuře.
Existují dva způsoby, jak posoudit kvalitu měření:

Po vyhodnocení kvality dat a měření lze rozhodnout o imputaci chybějících dat, nebo o provedení počátečních transformací jedné nebo více proměnných, i když to lze provést i během hlavní fáze analýzy.
Možné transformace proměnných jsou:

Splnila realizace studie záměry výzkumného záměru?

Měla by se kontrolovat úspěšnost postupu randomizace, například kontrolou, zda jsou proměnné pozadí a věcné proměnné rovnoměrně rozloženy v rámci skupin i mezi nimi.
Pokud studie nevyžadovala a/nebo nepoužila postup randomizace, měla by se kontrolovat úspěšnost namátkového výběru, například kontrolou, zda jsou ve vzorku zastoupeny všechny podskupiny sledovaného souboru.
Další možná zkreslení údajů, která by se měla kontrolovat, jsou:

Charakteristika datového vzorku

V každé zprávě nebo článku musí být přesně popsána struktura vzorku. Zvláště důležité je přesně určit strukturu vzorku (a konkrétně velikost podskupin), kdy budou během hlavní fáze analýzy prováděny analýzy podskupin.
Charakteristiky vzorku údajů lze posoudit na základě:

Závěrečná fáze počáteční analýzy dat

Během počáteční fáze analýzy dat lze použít několik analýz:

Je důležité vzít při analýzách v úvahu úrovně měření proměnných, protože pro každou úroveň jsou k dispozici speciální statistické techniky:

Nelineární analýza bude nezbytná, pokud jsou data zaznamenána z nelineárního systému. Nelineární systémy mohou vykazovat komplexní dynamické efekty včetně bifurkací, chaosu, harmonických a subharmonických, které nelze analyzovat pomocí jednoduchých lineárních metod. Nelineární analýza dat úzce souvisí s nelineární identifikací systému.

V hlavní analytické fázi jsou prováděny analýzy zaměřené na zodpovězení výzkumné otázky, jakož i další relevantní analýzy potřebné k sepsání prvního návrhu výzkumné zprávy.

Průzkumné a konfirmační přístupy

V hlavní fázi analýzy lze zvolit buď průzkumný, nebo konfirmační přístup. Obvykle se o přístupu rozhoduje před sběrem dat. V průzkumné analýze se před analýzou dat neuvádí žádná jasná hypotéza a v datech se hledají modely, které data dobře popisují. V konfirmační analýze se testují jasné hypotézy o datech.

Průzkumná analýza dat by měla být interpretována opatrně. Při testování více modelů najednou je vysoká pravděpodobnost, že alespoň jeden z nich bude významný, ale to může být způsobeno chybou typu 1. Je důležité vždy upravit úroveň významnosti při testování více modelů například pomocí bonferroniho korekce. Také by se nemělo navazovat na průzkumnou analýzu potvrzující analýzou ve stejném datovém souboru. Průzkumná analýza se používá k hledání myšlenek pro teorii, ale ne k testování této teorie. Když je model nalezen v datovém souboru jako průzkumný, pak by mohlo navazování na tuto analýzu komfirmatorní analýzou ve stejném datovém souboru jednoduše znamenat, že výsledky komfirmatorní analýzy jsou způsobeny stejnou chybou typu 1, která v první řadě vyústila v průzkumný model. Komfirmatorní analýza proto nebude více informativní než původní průzkumná analýza.

Je důležité získat nějakou informaci o tom, jak jsou výsledky zobecnitelné. I když je to těžké ověřit, lze se podívat na stabilitu výsledků. Jsou výsledky spolehlivé a reprodukovatelné? Existují dva hlavní způsoby, jak toho dosáhnout:

Pro statistické analýzy bylo použito mnoho statistických metod. Velmi stručný seznam čtyř populárnějších metod je:

Svobodný software pro analýzu dat

Komerční software pro analýzu dat

Ve školství má většina pedagogů přístup k datovému systému za účelem analýzy dat studentů. Tyto datové systémy předkládají data pedagogům v mimoburzovním datovém formátu (vkládání popisků, doplňující dokumentace a systém nápovědy a rozhodování o klíčových balíčcích/zobrazeních a obsahu), aby se zlepšila přesnost analýz dat pedagogů.