Parciální korelace

V teorii pravděpodobnosti a statistice se parciální korelace měří mírou asociace mezi dvěma náhodnými proměnnými, přičemž se odstraňuje vliv množiny kontrolujících náhodných proměnných.

Formálně je parciální korelace mezi X a Y dána množinou n řídících proměnných Z = {Z1, Z2, …, Zn}, psáno ρXY·Z, korelací mezi rezidui RX a RY vyplývající z lineární regrese X s Z, respektive Y s Z. Ve skutečnosti parciální korelace prvního řádu (tj. když n=1) není nic jiného než rozdíl mezi korelací a součinem odstranitelných korelací vyděleným součinem koeficientů odcizení odstranitelných korelací. Koeficient odcizení a jeho vztah k rozptylu spoje prostřednictvím korelace jsou dostupné v Guilfordu (1973, s. 344–345).

Jednoduchý způsob, jak vypočítat parciální korelaci pro některá data, je vyřešit dva přidružené problémy lineární regrese, získat zbytky a vypočítat korelaci mezi zbytky. Pokud napíšeme xi, yi a zi pro označení i.i.d. vzorků nějakého společného rozdělení pravděpodobnosti nad X, Y a Z, řešení problému lineární regrese se rovná nalezení n-rozměrných vektorů

s N je počet vzorků a skalární součin mezi vektory v a w. Všimněte si, že v některých implementacích regrese zahrnuje konstantní pojem, takže matice by měla další sloupec jedniček.

a vzorek parciální korelace je

Naivní implementace tohoto výpočtu jako rekurzivního algoritmu přináší exponenciální časovou složitost. Tento výpočet má však vlastnost překrývajících se dílčích problémů, například použití dynamického programování nebo prosté ukládání výsledků rekurzivních volání do mezipaměti přináší složitost .

Poznámka: v případě, kdy Z je jediná proměnná, se to redukuje na:

V čase jiný přístup umožňuje vypočítat všechny parciální korelace mezi libovolnými dvěma proměnnými Xi a Xj množiny V kardinality n, dané všemi ostatními, tj., pokud korelační matice (nebo alternativně matice kovariance) Ω = (ωij), kde ωij = ρXiXj, je invertible[citace nutná] . Pokud definujeme P = Ω−1, máme:

Geometrická interpretace parciální korelace

Nechť tři proměnné X, Y, Z [kde x je nezávislá proměnná (IV), y je závislá proměnná (DV), a Z je „kontrolní“ nebo „extra proměnná“] jsou vybrány ze společného rozdělení pravděpodobnosti nad n proměnných V. Dále nechť vi, 1 ≤ i ≤ N, je N n-rozměrných i.i.d. vzorků odebraných ze společného rozdělení pravděpodobnosti nad V. Poté uvažujeme N-rozměrné vektory x (tvořené postupnými hodnotami X nad vzorky), y (tvořené hodnotami Y) a z (tvořené hodnotami Z).

Doporučujeme:  Přizpůsobení povolání

Lze ukázat, že zbytky RX pocházející z lineární regrese X pomocí Z, pokud jsou také považovány za N-rozměrný vektor rX, mají nulový skalární součin s vektorem z generovaným Z. To znamená, že zbytkový vektor žije v hyperrovině Sz, která je kolmá k z.

Totéž platí i pro zbytky RY generující vektor rY. Požadovanou parciální korelací je pak kosinus úhlu φ mezi průměty rX a rY x, respektive y na hyperrovinu kolmou k z.

Jako podmíněný test nezávislosti

Za předpokladu, že všechny zúčastněné proměnné jsou vícerozměrné Gaussovy, je parciální korelace ρXY·Z nulová tehdy a jen tehdy, když X je podmíněně nezávislé na Y dané Z.
Tato vlastnost neplatí v obecném případě.

Pro test, zda vzorek parciální korelace zmizí, lze použít Fisherovu z-transformaci parciální korelace:

Nulová hypotéza je , Chcete-li být testovány proti dvou-ocas alternativu . Odmítáme H0 s hladinou významnosti α, pokud:

kde Φ(·) je kumulativní distribuční funkce Gaussova rozdělení s nulovým průměrem a jednotkovou směrodatnou odchylkou a N je velikost vzorku. Všimněte si, že tato z-transformace je přibližná a že skutečné rozdělení výběrového (parciálního) korelačního koeficientu není jednoznačné. Je však k dispozici přesný t-test založený na kombinaci parciálního regresního koeficientu, parciálního korelačního koeficientu a parciálních odchylek.

Distribuci částečné korelace vzorku popsal Fisher.

Semiparciální korelace (částečná korelace)

Semiparciální (nebo částečná) korelační statistika je podobná parciální korelační statistice. Obě měří rozptyl po určitých faktorech, ale pro výpočet semiparciální korelace jedna drží třetí proměnnou konstantu buď pro X nebo Y, zatímco pro parciální korelace jedna drží třetí proměnnou konstantu pro obě.[citace nutná] Semiparciální korelace měří unikátní a společný rozptyl, zatímco parciální korelace měří unikátní rozptyl

. Semiparciální (nebo částečnou) korelaci lze považovat za praktičtěji relevantní, „protože je škálována na (tj. relativně) celkovou variabilitu v závislé (odezvové) proměnné“.

Doporučujeme:  Estimator

Naopak je méně teoreticky užitečná, protože je méně přesná, pokud jde o jedinečný přínos nezávislé proměnné. I když se to může zdát paradoxní, semiparciální korelace X s Y je vždy menší nebo rovna parciální korelaci X s Y.

Použití v analýze časových řad

V analýze časových řad je parciální autokorelační funkce (někdy „parciální korelační funkce“) časové řady definována pro lag h jako

Průměr (Aritmetika, Geometrie) – Medián – Režim – Výkon – Odchylka – Směrodatná odchylka

Testování hypotéz – Význam – Nullova hypotéza/Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkce přežití – Kaplan-Meier – Logrank test – Četnost selhání – Proporcionální modely nebezpečnosti

Normal (zvonová křivka) – Poisson – Bernoulli

Matoucí veličina – Pearsonův korelační koeficient produktového momentu – Rank korelace (Spearmanův korelační koeficient hodnosti, Kendall tau korelační koeficient hodnosti)

Lineární regrese – Nelineární regrese – Logistická regrese