Několik sad bodů (x, y) s korelačním koeficientem x a y pro každou sadu. Všimněte si, že korelace odráží šum a směr lineárního vztahu (horní řádek), ale ne sklon tohoto vztahu (uprostřed), ani mnoho aspektů nelineárních vztahů (dole). Poznámka: Obrázek uprostřed má sklon 0, ale v takovém případě je korelační koeficient neurčitý, protože rozptyl Y je nulový.
V teorii pravděpodobnosti a statistice udává korelace (často měřená jako korelační koeficient) sílu a směr lineárního vztahu mezi dvěma náhodnými veličinami. To je v rozporu s použitím tohoto termínu v hovorové řeči, kde označuje jakýkoli vztah, ne nutně lineární. V obecném statistickém užití se korelace nebo korelace vztahuje k odchylce dvou náhodných veličin od nezávislosti. V tomto širokém smyslu existuje několik koeficientů, které měří míru korelace, přizpůsobených povaze dat.
Pro různé situace se používá řada různých koeficientů. Nejznámější je Pearsonův součinový korelační koeficient, který se získá vydělením kovariance dvou proměnných součinem jejich směrodatných odchylek. Navzdory svému názvu byl poprvé zaveden Francisem Galtonem.
Pearsonův součinový koeficient
Korelační koeficient ρX, Y mezi dvěma náhodnými veličinami X a Y s očekávanými hodnotami μX a μY a směrodatnými odchylkami σX a σY je definován jako:
kde E je operátor očekávané hodnoty a cov znamená kovariance. Široce používaný alternativní zápis je
Protože μX = E(X),
σX2 = E[(X – E(X))2] = E(X2) – E2(X) a
podobně pro Y, můžeme také zapsat
Korelace je definována pouze tehdy, pokud jsou obě směrodatné odchylky konečné a obě nenulové. Z Cauchyho-Schwarzovy nerovnosti vyplývá, že korelace nemůže v absolutní hodnotě překročit hodnotu 1.
Korelace je 1 v případě rostoucího lineárního vztahu, -1 v případě klesajícího lineárního vztahu a nějaká hodnota mezi nimi ve všech ostatních případech, což udává stupeň lineární závislosti mezi proměnnými. Čím více se koeficient blíží hodnotě -1 nebo 1, tím silnější je korelace mezi proměnnými.
Pokud jsou proměnné nezávislé, pak je korelace rovna 0, ale naopak to neplatí, protože korelační koeficient zjišťuje pouze lineární závislosti mezi dvěma proměnnými. Zde je příklad: Předpokládejme, že náhodná veličina X je rovnoměrně rozdělena na intervalu od -1 do 1 a Y = X2. Pak je Y zcela určena X, takže X a Y jsou závislé, ale jejich korelace je nulová; jsou nekorelované. Ve speciálním případě, kdy jsou X a Y společně normální, je však nekorelovanost ekvivalentní nezávislosti.
Korelace mezi dvěma proměnnými se rozmělňuje v případě přítomnosti chyby měření kolem odhadů jedné nebo obou proměnných, v takovém případě disatenuace poskytuje přesnější koeficient.
kde a jsou výběrové střední hodnoty X a Y , sx a sy jsou výběrové směrodatné odchylky X a Y a součet je od i = 1 do n. Stejně jako u populační korelace můžeme tuto hodnotu přepsat jako
Stejně jako v případě populační korelace musí být absolutní hodnota výběrové korelace menší nebo rovna 1. Ačkoli výše uvedený vzorec vhodně navrhuje jednoprůchodový algoritmus pro výpočet výběrových korelací, je známý svou číselnou nestabilitou (viz níže, kde je uvedeno něco přesnějšího).
Čtverec výběrového korelačního koeficientu, který se také nazývá koeficient determinace, je podíl rozptylu v yi, který je zohledněn lineárním přizpůsobením xi na yi . Zapisuje se takto
a sy2 je pouze rozptyl y:
Všimněte si, že vzhledem k tomu, že výběrový korelační koeficient je symetrický v xi a yi , dostaneme stejnou hodnotu pro přiřazení yi k xi :
Tato rovnice také poskytuje intuitivní představu o korelačním koeficientu pro vyšší dimenze. Stejně jako výše popsaný výběrový korelační koeficient je podíl rozptylu, který připadá na přiřazení jednorozměrného lineárního podružného tvaru k souboru dvourozměrných vektorů (xi , yi ), tak můžeme definovat korelační koeficient pro přiřazení m-rozměrného lineárního podružného tvaru k souboru n-rozměrných vektorů. Například pokud přizpůsobíme rovinu z = a + bx + cy množině dat (xi , yi , zi ), pak korelační koeficient z k x a y je následující
Rozložení korelačního koeficientu zkoumal R. A. Fisher.
a A. K. Gayen.
Geometrická interpretace korelace
Pro centrovaná data (tj. data, která byla posunuta o průměr vzorku tak, aby jejich průměr byl roven nule) lze korelační koeficient chápat také jako kosinus úhlu mezi dvěma vektory vzorků vybraných z obou náhodných veličin.
Někteří odborníci dávají přednost necentrovanému (ne Pearsonovu) korelačnímu koeficientu. Srovnání naleznete v příkladu níže.
Předpokládejme, že pět zemí má hrubý národní produkt ve výši 1, 2, 3, 5 a 8 miliard dolarů. Předpokládejme, že stejných pět zemí (ve stejném pořadí) vykazuje 11%, 12%, 13%, 15% a 18% chudobu. Pak nechť x a y jsou uspořádané pětiprvkové vektory obsahující výše uvedené údaje: x = (1, 2, 3, 5, 8) a y = (0,11, 0,12, 0,13, 0,15, 0,18).
Obvyklým postupem pro zjištění úhlu mezi dvěma vektory (viz bodový součin) je necentrovaný korelační koeficient:
Všimněte si, že výše uvedená data byla záměrně zvolena tak, aby byla dokonale korelovaná: y = 0,10 + 0,01 x. Pearsonův korelační koeficient tedy musí být přesně roven jedné. Vystředěním dat (posunutím x o E(x) = 3,8 a y o E(y) = 0,138) získáme x = (-2,8, -1,8, -0,8, 1,2, 4,2) a y = (-0,028, -0,018, -0,008, 0,012, 0,042), z čehož vyplývá, že
Odůvodnění tvaru korelačního koeficientu
Další motivace pro korelaci vychází z kontroly metody jednoduché lineární regrese. Stejně jako výše je X vektor nezávislých proměnných , a Y závislých proměnných , a hledá se jednoduchý lineární vztah mezi X a Y, a to prostřednictvím metody nejmenších čtverců na odhadu Y:
Pak lze odvodit rovnici přímky nejmenších čtverců ve tvaru:
které lze přeformulovat do tvaru:
kde r má výše uvedený známý tvar :
Interpretace velikosti korelace
Několik autorů nabídlo pokyny pro interpretaci korelačního koeficientu. Cohen (1988) však poznamenal, že všechna tato kritéria jsou do jisté míry arbitrární a neměla by být dodržována příliš striktně. Je tomu tak proto, že interpretace korelačního koeficientu závisí na kontextu a účelu. Korelace 0,9 může být velmi nízká, pokud se ověřuje fyzikální zákon pomocí kvalitních nástrojů, ale může být považována za velmi vysokou ve společenských vědách, kde může být větší příspěvek komplikujících faktorů.
V tomto duchu je důležité si uvědomit, že „velký“ a „malý“ by neměly být považovány za synonyma pro „dobrý“ a „špatný“, pokud jde o určení, že korelace má určitou velikost. Například korelace 1,0 nebo -1,0 znamená, že obě analyzované proměnné jsou ekvivalentní modulo škálování. Z vědeckého hlediska to častěji znamená triviální výsledek než hluboký výsledek. Uvažujme například zjištění korelace 1,0 mezi tím, kolik stop měří skupina lidí, a počtem palců od spodní části jejich nohou k vrcholu jejich hlavy.
Neparametrické korelační koeficienty
Pearsonův korelační koeficient je parametrická statistika a v případě, že rozdělení nejsou normální, může být méně užitečný než neparametrické korelační metody, jako jsou Chi-kvadrát, Pointova biseriální korelace, Spearmanovo ρ, Kendallovo τ a Goodmanova a Kruskalova lambda. Jsou o něco méně výkonné než parametrické metody, pokud jsou splněny předpoklady, z nichž tyto metody vycházejí, ale je méně pravděpodobné, že poskytnou zkreslené výsledky, pokud předpoklady selžou.
Další míry závislosti mezi náhodnými veličinami
Informace, kterou poskytuje korelační koeficient, nestačí k určení struktury závislosti mezi náhodnými veličinami. Korelační koeficient zcela definuje strukturu závislosti pouze ve velmi zvláštních případech, například když jsou kumulativní distribuční funkce vícerozměrnými normálními rozděleními. (Viz schéma výše.) V případě eliptických rozdělení charakterizuje (hyper-)elipsy stejné hustoty, avšak zcela necharakterizuje strukturu závislosti (například stupně volnosti vícerozměrného t-rozdělení určují míru závislosti na chvostu).
Pro získání míry pro obecnější závislosti v datech (také nelineární) je lepší použít korelační poměr, který je schopen odhalit téměř jakoukoli funkční závislost, nebo vzájemnou informaci založenou na entropii/celkovou korelaci, která je schopna odhalit ještě obecnější závislosti. Posledně jmenované míry se někdy označují jako vícemomentové korelační míry ve srovnání s těmi, které zohledňují pouze 2. moment (párovou nebo kvadratickou) závislost.
Další korelací aplikovanou na ordinální data je polychorická korelace, jejímž cílem je odhadnout korelaci mezi teoreticky stanovenými latentními proměnnými.
Jedním ze způsobů, jak zachytit úplnější pohled na strukturu závislostí, je uvažovat kopulu mezi nimi.
Korelační matice n náhodných veličin X1, …, Xn je matice n × n, jejíž položka i,j je corr(Xi, Xj). Jsou-li použitými mírami korelace součinové koeficienty, je korelační matice stejná jako kovarianční matice standardizovaných náhodných veličin Xi /SD(Xi) pro i = 1, …, n. Je to tedy nutně kladně semidefinitní matice.
Korelační matice je symetrická, protože korelace mezi a je stejná jako korelace mezi a .
Vždy je možné odstranit korelaci mezi náhodnými veličinami s nulovou střední hodnotou pomocí lineární transformace, i když je vztah mezi veličinami nelineární. Předpokládejme, že vektor n náhodných veličin je vzorkován mkrát. Nechť X je matice, kde je j-tá proměnná vzorku i. Nechť je matice r x c s každým prvkem 1. Pak D jsou data transformovaná tak, že každá náhodná proměnná má nulový průměr, a T jsou data transformovaná tak, že všechny proměnné mají nulový průměr, jednotkový rozptyl a nulovou korelaci se všemi ostatními proměnnými. Transformované proměnné budou nekorelované, i když nemusí být nezávislé.
kde exponent -1/2 představuje odmocninu z inverzní matice. Kovarianční matice T bude maticí identity. Je-li nový vzorek dat x řádkovým vektorem o n prvcích, pak lze na x aplikovat stejnou transformaci a získat transformované vektory d a t:
Obvyklé mylné představy o korelaci
Tradiční dictum, že „korelace neznamená příčinu“, znamená, že korelaci nelze platně použít k odvození příčinného vztahu mezi proměnnými. Toto diktum by nemělo být chápáno tak, že korelace nemůže indikovat kauzální vztahy. Příčiny, které jsou základem korelace, pokud existují, však mohou být nepřímé a neznámé. Z toho vyplývá, že zjištění korelace mezi dvěma proměnnými není dostatečnou podmínkou pro zjištění příčinného vztahu (v obou směrech).
Korelace mezi věkem a výškou u dětí je poměrně průhledná, ale korelace mezi náladou a zdravím u lidí je méně průhledná. Vede lepší nálada ke zlepšení zdraví, nebo dobré zdraví k dobré náladě, nebo obojí? Nebo je za obojím nějaký jiný faktor? Nebo je to pouhá náhoda? Jinými slovy, korelaci lze považovat za důkaz možného příčinného vztahu, ale nelze z ní vyvodit, o jaký příčinný vztah se jedná, pokud vůbec nějaký existuje.
Čtyři soubory dat se stejnou korelací 0,816
Pearsonova korelace sice ukazuje sílu lineárního vztahu mezi dvěma proměnnými, ale její samotná hodnota nemusí být pro vyhodnocení tohoto vztahu dostačující, zejména v případě, kdy je předpoklad normality nesprávný.
Obrázek vpravo ukazuje rozptyly Anscombova kvarteta, souboru čtyř různých dvojic proměnných, které vytvořil Francis Anscombe. Tyto čtyři proměnné mají stejný průměr (7,5), směrodatnou odchylku (4,12), korelaci (0,816) a regresní přímku (). Jak je však vidět na grafech, rozložení proměnných je velmi odlišné. První z nich (vlevo nahoře) se zdá být rozložena normálně a odpovídá tomu, co bychom očekávali, pokud bychom uvažovali dvě korelované proměnné a řídili se předpokladem normality. Druhý (vpravo nahoře) není rozložen normálně; mezi oběma proměnnými lze sice pozorovat zřejmý vztah, ale není lineární a Pearsonův korelační koeficient není relevantní. Ve třetím případě (vlevo dole) je lineární vztah dokonalý, až na jednu odlehlou hodnotu, která má dostatečný vliv na to, aby snížila korelační koeficient z 1 na 0,81. V tomto případě je korelační koeficient nižší než 0,81. A konečně čtvrtý příklad (vpravo dole) ukazuje další příklad, kdy jedna odlehlá hodnota stačí k vytvoření vysokého korelačního koeficientu, přestože vztah mezi oběma proměnnými není lineární.
Tyto příklady ukazují, že korelační koeficient jako souhrnná statistika nemůže nahradit individuální zkoumání dat.
Výpočet vážené korelace
Předpokládejme, že pozorování, která mají být korelována, mají různý stupeň důležitosti, který lze vyjádřit váhovým vektorem . Pro výpočet korelace mezi vektory a s váhovým vektorem (všechny délky ),
Vyhledejte tuto stránku na Wikislovníku:
Statistická korelace
Průměr (aritmetický, geometrický) – Medián – Modus – Výkon – Rozptyl – Směrodatná odchylka
Testování hypotéz – Významnost – Nulová hypotéza / Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu
Funkce přežití – Kaplan-Meierův test – Logrankův test – Míra selhání – Modely proporcionálních rizik
Normální (zvonová křivka) – Poissonova – Bernoulliho
Zkreslující proměnná – Pearsonův korelační koeficient součinu a momentu – Korelace pořadí (Spearmanův korelační koeficient pořadí, Kendallův korelační koeficient pořadí tau)
Lineární regrese – Nelineární regrese – Logistická regrese