Korelace a závislost

Ve statistice označuje závislost jakýkoli statistický vztah mezi dvěma náhodnými proměnnými nebo dvěma soubory dat. Korelace označuje jakýkoli ze široké třídy statistických vztahů zahrnujících závislost.

Známé příklady závislých jevů zahrnují korelaci mezi fyzickým stavem rodičů a jejich potomků a korelaci mezi poptávkou po výrobku a jeho cenou. Korelace jsou užitečné, protože mohou naznačovat prediktivní vztah, který může být využit v praxi. Například elektrická energie může produkovat méně energie v mírném dni na základě korelace mezi poptávkou po elektřině a počasím. V tomto příkladu existuje příčinná souvislost, protože extrémní počasí způsobuje, že lidé používají více elektřiny k vytápění nebo chlazení; statistická závislost však není dostatečná k prokázání přítomnosti takové příčinné souvislosti.

Formálně se závislostí rozumí každá situace, ve které náhodné proměnné nesplňují matematickou podmínku pravděpodobnostní nezávislosti. Ve volném použití může korelace odkazovat na jakýkoli odklon dvou nebo více náhodných proměnných od nezávislosti, ale technicky se vztahuje na některý z několika specializovanějších typů vztahu mezi středními hodnotami. Existuje několik korelačních koeficientů, často označovaných jako ρ nebo r, které měří stupeň korelace. Nejčastějším z nich je Pearsonův korelační koeficient, který je citlivý pouze na lineární vztah mezi dvěma proměnnými (které mohou existovat i v případě, že jedna je nelineární funkcí druhé). Ostatní korelační koeficienty byly vyvinuty tak, aby byly robustnější než Pearsonova korelace – tedy citlivější na nelineární vztahy.

Několik sad (x, y) bodů, s Pearsonovým korelačním koeficientem x a y pro každou množinu. Všimněte si, že korelace odráží hlučnost a směr lineárního vztahu (horní řádek), ale ne sklon tohoto vztahu (střední), ani mnoho aspektů nelineárních vztahů (spodní). Pozn.: údaj ve středu má sklon 0, ale v takovém případě korelační koeficient není definován, protože rozptyl Y je nulový.

Pearsonův koeficient součin-moment

Nejznámějším měřítkem závislosti mezi dvěma veličinami je Pearsonův korelační koeficient produktového momentu neboli „Pearsonova korelace“. Získává se vydělením kovariance obou veličin součinem jejich směrodatných odchylek. Karl Pearson vyvinul koeficient z podobné, ale trochu odlišné myšlenky Francise Galtona.

Populační korelační koeficient ρX,Y mezi dvěma náhodnými veličinami X a Y s očekávanými hodnotami μX a μY a směrodatnými odchylkami σX a σY je definován jako:

kde E je operátor očekávané hodnoty, cov znamená kovariance, a, kore široce používané alternativní notace pro Pearsonovu korelaci.

Pearsonova korelace je definována pouze v případě, že obě směrodatné odchylky jsou konečné a obě jsou nenulové. Je důsledkem Cauchyho-Schwarzovy nerovnosti, že korelace nemůže v absolutní hodnotě překročit 1. Korelační koeficient je symetrický: corr(X,Y) = corr(Y,X).

Pearsonova korelace je +1 v případě perfektního kladného (vzrůstajícího) lineárního vztahu (korelace), −1 v případě perfektního klesajícího (záporného) lineárního vztahu (antikorelace) a nějaká hodnota mezi −1 a 1 ve všech ostatních případech, což ukazuje stupeň lineární závislosti mezi proměnnými. Jak se blíží k nule, je menší vztah (blíže nekorelovaný). Čím blíže je koeficient buď k −1 nebo 1, tím silnější je korelace mezi proměnnými.

Pokud jsou proměnné nezávislé, Pearsonův korelační koeficient je 0, ale konverze není pravdivá, protože korelační koeficient detekuje pouze lineární závislosti mezi dvěma proměnnými. Například předpokládejme, že náhodná proměnná X je symetricky rozložena okolo nuly a Y = X2. Pak Y je zcela určeno X, takže X a Y jsou dokonale závislé, ale jejich korelace je nulová; jsou nekorelované. Nicméně ve zvláštním případě, kdy X a Y jsou společně normální, nekorelace je rovnocenná nezávislosti.

Doporučujeme:  6 příznaků, že váš vztah s rodiči není zdravý

Pokud máme řadu n měření X a Y zapsaných jako xi a yi, kde i = 1, 2, …, n, pak korelační koeficient vzorku může být použit k odhadu populace Pearsonova korelační koeficient r mezi X a Y. Korelační koeficient vzorku je zapsán

kde x a y jsou výběrové průměry X a Y a sx a sy jsou výběrové směrodatné odchylky X a Y.

To může být také napsáno jako:

Pokud x a y jsou výsledky měření, které obsahují chybu měření, realistické limity korelačního koeficientu nejsou −1 až +1, ale menší rozsah.

Hodnotové korelační koeficienty

Hodnotové korelační koeficienty, jako je Spearmanův korelační koeficient a Kendallův korelační koeficient (τ), měří, do jaké míry, jak se jedna proměnná zvětšuje, má druhá proměnná tendenci se zvětšovat, aniž by bylo nutné, aby toto zvětšení bylo reprezentováno lineárním vztahem. Pokud, jak se jedna proměnná zvětšuje, druhá se zmenšuje, budou korelační koeficienty záporné. Je běžné považovat tyto korelační koeficienty za alternativy k Pearsonovu koeficientu, který se používá buď ke snížení množství výpočtu, nebo k tomu, aby koeficient byl méně citlivý na nenormalitu v distribucích. Tento názor má však málo matematického základu, protože korelační koeficienty měří jiný typ vztahu než Pearsonův korelační koeficient produktového momentu a je nejlépe vidět jako měřítka jiného typu asociace, spíše než jako alternativní měřítko populačního korelačního koeficientu.

Pro ilustraci povahy hodnostní korelace a jejího rozdílu od lineární korelace vezměte v úvahu následující čtyři páry čísel (x, y):

Jak přecházíme z každého páru do dalšího páru, x se zvyšuje a totéž platí i pro y. Tento vztah je dokonalý v tom smyslu, že zvýšení x je vždy doprovázeno zvýšením y. To znamená, že máme perfektní korelaci hodnosti a korelační koeficienty Spearmana i Kendalla jsou 1, zatímco v tomto příkladu je Pearsonův korelační koeficient součinu momentu součinu 0,7544, což znamená, že body zdaleka neleží na přímce. Stejným způsobem, pokud se y vždy sníží při zvýšení x, korelační koeficienty hodnosti budou −1, zatímco Pearsonův korelační koeficient součinu momentu součinu se může nebo nemusí blížit −1, podle toho, jak blízko jsou body přímce. Ačkoli v extrémních případech perfektní korelace hodnosti jsou oba koeficienty stejné (jsou oba +1 nebo oba −1), není tomu tak obecně a hodnoty obou koeficientů nelze smysluplně porovnávat. Například pro tři dvojice (1, 1) (2, 3) (3, 2) je Spearmanův koeficient 1/2, zatímco Kendallův koeficient je 1/3.

Další měřítka závislosti mezi náhodnými veličinami

Informace poskytnuté korelačním koeficientem nestačí k definování struktury závislosti mezi náhodnými veličinami. Korelační koeficient zcela definuje strukturu závislosti pouze ve velmi specifických případech, například pokud je rozdělení vícerozměrné normální rozdělení. (Viz schéma výše.) V případě eliptických rozdělení charakterizuje (hyper-)elipsy o stejné hustotě, avšak ne zcela charakterizuje strukturu závislosti (například stupeň volnosti vícerozměrného t-rozdělení určuje úroveň závislosti na ocase).

Korelace vzdáleností a Brownova kovariance / Brownova korelace byly zavedeny s cílem řešit nedostatek Pearsonovy korelace, že pro závislé náhodné proměnné může být nulová; nulová korelace vzdáleností a nulová Brownova korelace znamenají nezávislost.

Korelační poměr je schopen detekovat téměř jakoukoliv funkční závislost[citace nutná]

, a vzájemná informace založená na entropii, celková korelace a duální celková korelace jsou schopny odhalit ještě obecnější závislosti. Ty jsou někdy označovány jako multimomentová korelační měřítka[nutná citace], ve srovnání s těmi, které zvažují pouze sekundový moment (párový nebo kvadratický) závislosti.

Doporučujeme:  Demografický profil

Polychorická korelace je další korelace aplikovaná na ordinální data, která si klade za cíl odhadnout korelaci mezi teoretickými latentními proměnnými.

Jedním ze způsobů, jak zachytit ucelenější pohled na strukturu závislosti, je uvažovat o kopuli mezi nimi.

Citlivost na rozložení dat

Stupeň závislosti mezi proměnnými X a Y nezávisí na stupnici, na které jsou proměnné vyjádřeny. To znamená, že pokud analyzujeme vztah mezi X a Y, většina korelačních měr není ovlivněna transformací X na a + bX a Y na c + dY, kde a, b, c a d jsou konstanty. To platí pro některé korelační statistiky i jejich populační analogie. Některé korelační statistiky, jako například korelační koeficient, jsou také invariantní až monotónní transformace okrajových distribucí X a/nebo Y.

Pearsonovy/Spearmanovy korelační koeficienty mezi X a Y jsou uvedeny, když je rozsah obou proměnných neomezený a když je rozsah X omezen na interval (0,1).

Většina korelačních měr je citlivá na způsob, jakým se vzorkují hodnoty X a Y. Závislosti bývají silnější, pokud se na ně pohlíží v širším rozsahu hodnot. Pokud tedy vezmeme v úvahu korelační koeficient mezi výškami otců a jejich synů nad všemi dospělými muži a porovnáme jej se stejným korelačním koeficientem vypočítaným, když jsou otcové vybráni, aby měli výšku mezi 165 cm a 170 cm, bude korelace v druhém případě slabší.

Různá používaná korelační měřítka mohou být nedefinována pro některá společná rozdělení X a Y. Například Pearsonův korelační koeficient je definován z hlediska momentů, a proto bude nedefinován, pokud momenty nejsou definovány. Míry závislosti založené na kvantilech jsou definovány vždy. Statistika založená na vzorcích určená k odhadu populačních měřítek závislosti může nebo nemusí mít žádoucí statistické vlastnosti, jako je nezaujatost nebo asymptotická konzistence založená na prostorové struktuře populace, ze které byla data odebrána.

Citlivost na rozložení dat může být výhodou. Například škálovaná korelace je navržena tak, aby využívala citlivost na rozsah, aby bylo možné určit korelace mezi rychlými součástmi časových řad. Snížením rozsahu hodnot kontrolovaným způsobem jsou korelace na dlouhém časovém měřítku odfiltrovány a jsou odhaleny pouze korelace na krátkých časových škálách.

Korelační matice n náhodných veličin X1, …, Xn je matice n  ×  n, jejíž i,j položka je kore(Xi, Xj). Jsou-li použitá měřítka korelace koeficienty součin-moment, korelační matice je stejná jako kovarianční matice standardizovaných náhodných veličin Xi / σ (Xi) pro i = 1, …, n. To platí jak pro matici populačních korelací (v tomto případě je „σ“ směrodatná odchylka populace), tak pro matici výběrových korelací (v tomto případě „σ“ označuje směrodatnou odchylku vzorku). V důsledku toho je každá z nich nutně pozitivní-semidefinitní maticí.

Korelační matice je symetrická, protože korelace mezi Xi a Xj je stejná jako korelace mezi Xj a Xi.

Konvenční výrok, že „korelace neimplikuje příčinnou souvislost“, znamená, že korelaci nelze použít k vyvození příčinné souvislosti mezi proměnnými. Tento výrok by neměl být chápán tak, že korelace nemohou naznačovat potenciální existenci příčinných souvislostí. Příčiny, které jsou základem korelace, pokud existují, však mohou být nepřímé a neznámé a vysoké korelace se také překrývají se vztahy identity (tautologie), kde neexistuje příčinný proces. V důsledku toho není stanovení korelace mezi dvěma proměnnými dostatečnou podmínkou pro stanovení příčinné souvislosti (v obou směrech). Lze například pozorovat korelaci mezi běžným zvoněním budíku a rozedněním, ačkoli mezi těmito událostmi neexistuje přímá příčinná souvislost.

Doporučujeme:  Komplex méněcennosti

Korelace mezi věkem a výškou u dětí je vcelku kauzálně průhledná, ale korelace mezi náladou a zdravím u lidí je méně průhledná. Vede zlepšení nálady ke zlepšení zdraví, nebo dobré zdraví vede k dobré náladě, případně k obojímu? Nebo je základem obojího nějaký jiný faktor? Jinými slovy, korelaci lze brát jako důkaz možného kauzálního vztahu, ale nemůže naznačovat, jaký by mohl být kauzální vztah, pokud vůbec nějaký.

Čtyři soubory dat se stejnou korelací 0,816

Obrázek vpravo ukazuje scatterplots Anscombeova kvarteta, sadu čtyř různých párů proměnných vytvořených Francisem Anscombem. Čtyři proměnné y mají stejný průměr (7,5), směrodatnou odchylku (4,12), korelaci (0,816) a regresní přímku (y = 3 + 0,5x). Jak je však vidět na grafech, rozdělení proměnných je velmi odlišné. První (vlevo nahoře) se zdá být rozložena normálně a odpovídá tomu, co by člověk očekával, pokud by uvažoval o korelaci dvou proměnných a pokud by vycházel z předpokladu normálnosti. Druhá (vpravo nahoře) není rozložena normálně; i když lze pozorovat zřejmý vztah mezi oběma proměnnými, není lineární. V tomto případě Pearsonův korelační koeficient nenaznačuje, že existuje přesný funkční vztah: pouze rozsah, do kterého může být tento vztah aproximován lineárním vztahem. Ve třetím případě (vlevo dole) je lineární vztah perfektní, s výjimkou jedné odlehlé hodnoty, která má dostatečný vliv na snížení korelačního koeficientu z 1 na 0,816. Konečně čtvrtý příklad (vpravo dole) ukazuje další příklad, kdy jedna odlehlá hodnota stačí k vytvoření vysokého korelačního koeficientu, i když vztah mezi oběma proměnnými není lineární.

Tyto příklady naznačují, že korelační koeficient jako souhrnná statistika nemůže nahradit vizuální zkoumání dat. Všimněte si, že příklady někdy dokazují, že Pearsonova korelace předpokládá, že data sledují normální rozdělení, ale to není správné.

Koeficient determinace zobecňuje korelační koeficient pro vztahy nad rámec jednoduché lineární regrese.

Bivariační normální distribuce

kde EX a EY jsou očekávané hodnoty X a Y a σx a σy jsou směrodatné odchylky X a Y.

Pokud je populace nebo datový soubor charakterizován více než dvěma proměnnými, parciální korelační koeficient měří sílu závislosti mezi dvojicí proměnných, která není započítána způsobem, jakým se obě mění v reakci na změny ve vybrané podmnožině ostatních proměnných.

Najít tuto stránku na Wiktionary:
Korelace a závislost

Průměr (Aritmetika, Geometrie) – Medián – Režim – Výkon – Odchylka – Směrodatná odchylka

Testování hypotéz – Význam – Nullova hypotéza/Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkce přežití – Kaplan-Meier – Logrank test – Četnost selhání – Proporcionální modely nebezpečnosti

Normal (zvonová křivka) – Poisson – Bernoulli

Matoucí veličina – Pearsonův korelační koeficient produktového momentu – Rank korelace (Spearmanův korelační koeficient hodnosti, Kendall tau korelační koeficient hodnosti)

Lineární regrese – Nelineární regrese – Logistická regrese