Transformace dat – Dobrá psychoterapie

Scatterplot, ve kterém jsou na svislé ose znázorněny oblasti suverénních států a závislých území na světě proti jejich obyvatelům na vodorovné ose. Horní graf využívá surová data. Ve spodním grafu byly údaje o ploše i obyvatelstvu transformovány pomocí logaritmické funkce.

Ve statistice je transformace dat aspektem zpracování dat a odkazuje na aplikaci deterministické matematické funkce na každý bod v datové sadě – to znamená, že každý datový bod zi je nahrazen transformovanou hodnotou yi = f(zi), kde f je funkce. Transformace se obvykle používají tak, aby se zdálo, že data více odpovídají předpokladům statistické inferenční procedury, která má být použita, nebo aby se zlepšila interpretace nebo vzhled grafů.

Téměř vždy je funkce, která se používá k transformaci dat, invertibilní a obecně je spojitá. Transformace se obvykle aplikuje na kolekci srovnatelných měření. Pokud například pracujeme s daty o příjmech národů v nějaké měnové jednotce, bylo by běžné transformovat příjmovou hodnotu každého člověka pomocí logaritmické funkce.

Důvody pro transformaci dat

Pokyny pro to, jak by měla být data transformována, nebo zda by měla být transformace vůbec použita, by měly vycházet z konkrétní statistické analýzy, která má být provedena. Například jednoduchý způsob, jak sestrojit přibližný 95% interval spolehlivosti pro populační průměr, je vzít výběrový průměr plus nebo minus dvě standardní chybové jednotky. Konstantní faktor 2, který se zde používá, je však specifický pro normální rozdělení a je použitelný pouze v případě, že výběrový průměr kolísá přibližně normálně. Centrální limitní věta říká, že v mnoha situacích se výběrový průměr kolísá normálně, pokud je velikost výběrového souboru přiměřeně velká. Pokud je však základní soubor podstatně vychýlený a velikost výběrového souboru je nanejvýš mírná, může být aproximace poskytovaná centrální limitní větou špatná a výsledný interval spolehlivosti bude mít pravděpodobně nesprávnou pravděpodobnost pokrytí. Pokud tedy existuje důkaz o podstatném vychýlení dat, je běžné převést data na symetrické rozdělení před vytvořením intervalu spolehlivosti. Pokud je to žádoucí, interval spolehlivosti pak může být převeden zpět na původní měřítko pomocí inverze transformace, která byla aplikována na data.

Data lze také transformovat, aby bylo snazší si je představit. Například předpokládejme, že máme scatterplot, ve kterém body jsou země světa a hodnoty dat, které se zakreslují, jsou rozloha a počet obyvatel každé země. Pokud se zakreslí pomocí nepřeložených dat (např. čtvereční kilometry pro rozlohu a počet obyvatel pro počet obyvatel), většina zemí by byla zakreslena v těsném shluku bodů v levém dolním rohu grafu. Těch několik málo zemí s velmi velkými plochami a/nebo populacemi by bylo roztroušeno řídce kolem většiny plochy grafu. Pouhé přehodnocení jednotek (např. na tisíc čtverečních kilometrů nebo na miliony lidí) to nezmění. Po logaritmických transformacích plochy i populace však budou body v grafu rozloženy rovnoměrněji.

Posledním důvodem, proč mohou být data transformována, je zlepšení interpretability, i když nemá být provedena žádná formální statistická analýza nebo vizualizace. Předpokládejme například, že porovnáváme automobily z hlediska jejich spotřeby paliva. Tato data jsou obvykle prezentována jako „kilometry na litr“ nebo „kilometry na galon“. Pokud je však cílem posoudit, kolik paliva navíc by člověk spotřeboval za jeden rok při řízení jednoho automobilu ve srovnání s jiným, je přirozenější pracovat s daty transformovanými vzájemnou funkcí, která dává litry na kilometr nebo galony na míli.

Transformace dat v regresi

Lineární regrese je statistická technika pro vztah závislé proměnné Y k jedné nebo více nezávislým proměnným X. Nejjednodušší regresní modely zachycují lineární vztah mezi očekávanou hodnotou Y a každou nezávislou proměnnou (když jsou ostatní nezávislé proměnné drženy pevně). Pokud se nedaří udržet linearitu, a to ani přibližně, je někdy možné transformovat buď nezávislé, nebo závislé proměnné v regresním modelu pro zlepšení linearity.

Dalším předpokladem lineární regrese je, že rozptyl je stejný pro každou možnou očekávanou hodnotu (to je známo jako homoskedasticita). Univerzální normalita není nutná k tomu, aby odhady regresních parametrů nejmenších čtverců byly smysluplné (viz Gaussova-Markovova věta). Nicméně intervaly spolehlivosti a testy hypotéz budou mít lepší statistické vlastnosti, pokud proměnné vykazují multivariační normalitu. To lze empiricky posoudit vynesením naměřených hodnot proti reziduím a kontrolou normálního kvantilového grafu reziduí. Všimněte si, že není důležité, zda závislá proměnná Y je marginálně normálně rozložena.

Příklady logaritmických transformací

Význam:
Jednotkové zvýšení X je spojeno s průměrným zvýšením b jednotek v Y.

Rovnice:
(Z pořizování logaritmu obou stran rovnice: )

Význam:
Jednotkové zvýšení hodnoty X je spojeno s průměrným zvýšením hodnoty Y o 100b%.

Význam:
Zvýšení X o 1% je spojeno s průměrným zvýšením b/100 jednotek v Y.

Rovnice:
(Z pořizování logaritmu obou stran rovnice: )

Význam:
Zvýšení X o 1% je spojeno se zvýšením Y o b%.

Transformace logaritmu a druhé odmocniny se běžně používají pro kladná data a multiplikativní inverzní (reciproční) transformaci lze použít pro nenulová data. Mocninná transformace je rodina transformací parametrizovaná nezápornou hodnotou λ, která zahrnuje logaritmus, druhou odmocninu a multiplikativní inverzní hodnotu jako zvláštní případy. Pro systematický přístup k transformaci dat je možné použít techniky statistického odhadu k odhadu parametru λ v mocninové transformaci, a tím určit transformaci, která je přibližně nejvhodnější v daném nastavení. Vzhledem k tomu, že rodina mocninových transformací zahrnuje také transformaci identity, může tento přístup také naznačit, zda by bylo nejlepší analyzovat data bez transformace. V regresní analýze je tento přístup znám jako Box-Coxova technika.

Reciproční a některé mocninné transformace mohou být smysluplně aplikovány na data, která obsahují kladné i záporné hodnoty (mocninná transformace je invertibilní nad všemi reálnými čísly, pokud λ je liché celé číslo). Když jsou však pozorovány záporné i kladné hodnoty, je běžnější začít přidáním konstanty ke všem hodnotám, čímž vznikne množina nezáporných dat, na která lze aplikovat libovolnou mocninnou transformaci.

Běžná situace, kdy se použije transformace dat, je, když se hodnota zájmu pohybuje v řádech několika řádů. Takové chování vykazuje mnoho fyzikálních a sociálních jevů – příjmy, populace druhů, velikost galaxií a objem srážek, abychom jmenovali alespoň některé. Výkonové transformace, a zejména logaritmus, mohou být často použity k navození symetrie v takových datech. Logaritmus je často upřednostňován, protože je snadné interpretovat jeho výsledek ve smyslu „násobných změn“.

Logaritmus má také užitečný vliv na poměry. Pokud porovnáváme kladné veličiny X a Y pomocí poměru X / Y, pak pokud X < Y, poměr je v jednotkovém intervalu (0,1), zatímco pokud X > Y, poměr je v polopřímce (1,∞), kde poměr 1 odpovídá rovnosti. V analýze, kde X a Y jsou zpracovány symetricky, log-ratio log(X / Y) je v případě rovnosti nula a má tu vlastnost, že pokud X je K krát větší než Y, log-ratio je rovnoměrná vzdálenost od nuly jako v situaci, kdy Y je K krát větší než X (log-ratios jsou log(K) a −log(K) v těchto dvou situacích).

Pokud jsou hodnoty přirozeně omezeny na rozsah 0 až 1, bez zahrnutí koncových bodů, pak může být vhodná transformace logitu: tím se získají hodnoty v rozsahu (−∞,∞).

Ne vždy je nutné nebo žádoucí transformovat datový soubor tak, aby se podobal normálnímu rozdělení. Pokud je však žádoucí symetrie nebo normalita, mohou být často vyvolány jednou z mocninných transformací.

K posouzení, zda bylo dosaženo normality, je obvykle grafický přístup informativnější než formální statistický test. Běžný kvantilový graf se běžně používá k posouzení vhodnosti datového souboru pro běžnou populaci. Alternativně byla navržena také pravidla palečky založená na skrovnosti vzorku a kurtóze, jako je například zkreslenost v rozmezí −0,8 až 0,8 a kurtóza v rozmezí −3,0 až 3,0.[citace nutná]

Přechod na rovnoměrné rozdělení

Pokud pozorujeme množinu n hodnot X1, …, Xn bez vazeb (tj. existuje n odlišných hodnot), můžeme Xi nahradit transformovanou hodnotou Yi = k, kde k je definováno tak, že Xi je kth největší mezi všemi X hodnotami. Tomu se říká rank transform[citation needed], a vytváří data s perfektním uspořádáním do rovnoměrného rozdělení. Tento přístup má populační analogii. Pokud X je libovolná náhodná proměnná a F je kumulativní distribuční funkce X, pak dokud je F invertibilní, náhodná proměnná U = F(X) sleduje rovnoměrné rozdělení v jednotkovém intervalu [0,1].

Z rovnoměrného rozdělení se můžeme transformovat na libovolné rozdělení s invertibilní distribuční funkcí. Pokud G je invertibilní distribuční funkce a U je rovnoměrně distribuovaná náhodná veličina, pak náhodná veličina G−1(U) má G jako svou distribuční funkci.

Variance stabilizující transformace

Mnohé typy statistických dat vykazují „vztah průměr/rozptyl“, což znamená, že variabilita je odlišná pro hodnoty dat s různými očekávanými hodnotami. Například v mnoha částech světa se příjmy řídí rostoucím vztahem průměr/rozptyl. Pokud vezmeme v úvahu počet jednotek malých ploch (např. hrabství ve Spojených státech) a získáme průměr a rozptyl příjmů v rámci každého hrabství, je běžné, že hrabství s vyšším průměrným příjmem mají také vyšší rozptyl.

Transformace stabilizující rozptyl má za cíl odstranit vztah mezi průměrem a rozptylem tak, aby se rozptyl stal konstantním vzhledem k průměru. Příklady transformací stabilizujících rozptyl jsou Fisherova transformace pro korelační koeficient vzorku, transformace druhé odmocniny nebo Anscombeho transformace pro Poissonova data (data počítání), Box-Coxova transformace pro regresní analýzu a transformace druhé odmocniny arcsinu nebo úhlová transformace pro proporce (binomická data).

Transformace pro vícerozměrná data

Jednorozměrné funkce lze bodově aplikovat na vícerozměrná data za účelem modifikace jejich mezních rozdělení. Je také možné modifikovat některé atributy vícerozměrného rozdělení pomocí vhodně konstruované transformace. Například při práci s časovými řadami a dalšími typy sekvenčních dat je běžné odlišovat data za účelem zlepšení stacionarity. Jsou-li data pozorována jako náhodné vektory Xi s kovarianční maticí Σ, lze k dekódování dat použít lineární transformaci. K tomu použijte Choleského rozklad pro vyjádření Σ = A‘. Pak má transformovaný vektor Yi = A−1Xi matrici identity jako svou kovarianční matici.