Korelace neznamená příčinnou souvislost

„Korelace neimplikuje příčinnou souvislost“ (vztahující se k „ignorování společné příčiny“ a sporné příčiny) je fráze používaná ve vědě a statistice pro zdůraznění, že korelace mezi dvěma proměnnými automaticky neznamená, že jedna způsobuje druhou (ačkoliv korelace je nezbytná pro lineární příčinnou souvislost při absenci jakékoli třetí a vyrovnávací příčinné proměnné, může indikovat možné příčiny nebo oblasti pro další zkoumání; jinými slovy, korelace je náznak).

Opačné přesvědčení, korelace dokazuje příčinnou souvislost, je logický klam, kterým se tvrdí, že dvě události, které se vyskytují společně, mají vztah příčina-následek. Klam je také známý jako cum hoc ergo propter hoc (latinsky „s tím, tedy kvůli tomu“) a falešná příčina. Je to běžný klam, kdy se předpokládá, že protože se dvě věci nebo události vyskytují společně, musí být jedna příčinou druhé. Naproti tomu klam, post hoc ergo propter hoc, vyžaduje, aby se jedna událost vyskytla za druhou, a tak může být považován za související klam.

V široce studovaném příkladu četné epidemiologické studie ukázaly, že ženy, které užívaly kombinovanou hormonální substituční terapii (HRT), měly také nižší než průměrný výskyt ischemické choroby srdeční (CHD), což vedlo lékaře k tomu, že HRT byla ochranná proti CHD. Ale randomizované kontrolované studie ukázaly, že HRT způsobila malý, ale statisticky významný nárůst rizika CHD. Přeanalýza údajů z epidemiologických studií ukázala, že ženy, které užívaly HRT, byly s větší pravděpodobností z vyšších socioekonomických skupin (ABC1), s lepším než průměrným stravovacím a cvičebním režimem. Užívání HRT a snížený výskyt ischemické choroby srdeční byly shodné účinky společné příčiny (tj. přínosy spojené s vyšším socioekonomickým postavením), spíše než příčina a následek, jak se předpokládalo.

V logice technické užití slova „implikuje“ znamená „být dostatečnou okolností“. To je význam zamýšlený statistiky, když říkají, že příčinná souvislost není jistá. Ve skutečnosti p implikuje q má technický význam logické implikace: pokud p pak q symbolizované jako p → q. To znamená „pokud je okolnost p pravdivá, pak q nutně následuje“. V tomto smyslu je vždy správné říci „Korelace neimplikuje příčinnou souvislost“.

Při běžném používání však slovo „implikovat“ volně znamená spíše naznačovat než vyžadovat. Myšlenka, že korelace a příčinná souvislost spolu souvisí, je jistě pravdivá; kde existuje příčinná souvislost, tam pravděpodobně korelace existuje. Korelace se skutečně používá při vyvozování příčinné souvislosti; důležité je, že takové závěry nejsou vždy správné, protože existují i jiné možnosti, jak je vysvětleno dále v tomto článku.

Edward Tufte v kritice stručnosti „korelace neimplikuje příčinnou souvislost“ odsuzuje použití „je“ pro vztah korelace a příčinné souvislosti (jako v „korelace není příčinná souvislost“) a uvádí její nepřesnost jako neúplnou. I když není pravda, že korelace je příčinná souvislost, prosté konstatování jejich nonekvivalence vynechává informace o jejich vztahu. Tufte naznačuje, že nejkratší pravdivé konstatování, které lze učinit o příčinné souvislosti a korelaci, je jedno z následujících:

Logický omyl cum hoc ergo propter hoc lze vyjádřit následovně:

Jinými slovy, pokud jde o existenci nebo směr vztahu příčiny a následku, nelze učinit žádný závěr pouze ze skutečnosti, že A a B spolu korelují. Určení, zda existuje skutečný vztah příčiny a následku, vyžaduje další zkoumání, i když je vztah mezi A a B statisticky významný, je pozorována velká velikost účinku nebo je vysvětlena velká část rozptylu.

Příklady nelogického odvozování příčinné souvislosti z korelace

B způsobuje A (reverzní příčinná souvislost)

V tomto případě korelace mezi počtem hasičů na místě a velikostí požáru neznamená, že požár způsobili hasiči. Hasiči jsou vysláni podle závažnosti požáru a pokud je požár velký, je vyslán větší počet hasičů; proto je to spíše tak, že požár způsobí, že hasiči dorazí na místo. Výše uvedený závěr je tedy nepravdivý.

A způsobuje B a B způsobuje A (obousměrná příčina)

Zákon ideálního plynu, , popisuje přímý vztah mezi tlakem a teplotou (spolu s dalšími faktory), aby ukázal, že existuje přímá korelace mezi oběma vlastnostmi. Pro pevný objem a hmotnost plynu způsobí zvýšení teploty zvýšení tlaku; podobně zvýšený tlak způsobí zvýšení teploty. To ukazuje obousměrnou příčinu. Závěr, že tlak způsobuje teplotu, je pravdivý, ale není logicky zaručen premisou.

Třetí faktor C (proměnná společné příčinné souvislosti) způsobuje A i B

Všechny tyto příklady se zabývají číhající proměnnou, což je jednoduše skrytá třetí proměnná, která ovlivňuje obě příčiny korelace; například skutečnost, že v příkladu 3 je léto. Potíž často vzniká také tam, kde třetí faktor, ačkoliv se zásadně liší od A a B, je tak úzce spjat s A a/nebo B, že je s nimi zaměnitelný nebo je velmi obtížné je od nich vědecky oddělit (viz příklad 4).

Výše uvedený příklad se dopouští bludu korelace-implikuje-příčinná souvislost, protože předčasně dochází k závěru, že spaní v botách způsobuje bolest hlavy. Věrohodnější vysvětlení je, že obojí je způsobeno třetím faktorem, v tomto případě chozením spát opilý, což vede ke korelaci. Závěr je tedy nepravdivý.

Jedná se o vědecký příklad, který vyplynul ze studie na University of Pennsylvania Medical Center. Studie byla publikována v časopise Nature 13. května 1999 a v té době se o ní hodně psalo v populárním tisku. Pozdější studie na Ohio State University však nezjistila, že kojenci spící se zapnutým světlem způsobili rozvoj krátkozrakosti. Zjistila silnou vazbu mezi rodičovskou krátkozrakostí a rozvojem dětské krátkozrakosti, také si všimla, že krátkozrací rodiče častěji nechávali zapnuté světlo v ložnici svých dětí. V tomto případě je příčinou obou onemocnění rodičovská krátkozrakost a výše uvedený závěr je nepravdivý.

Výše uvedený příklad si neuvědomuje důležitost času a teploty ve vztahu k prodeji zmrzliny. Zmrzlina se prodává v horkých letních měsících mnohem častěji než v chladnějších obdobích a právě v těchto horkých letních měsících se lidé častěji věnují aktivitám zahrnujícím vodu, jako je plavání. Zvýšená úmrtí utonulých jsou jednoduše způsobena větší expozicí aktivitám na bázi vody, nikoli zmrzliny. Uvedený závěr je nepravdivý.

Nicméně, jak jsme se setkali v mnoha psychologických studiích, je objevena další proměnná, „skóre sebevědomí“, která má ostřejší korelaci (+.73) s plachostí. To naznačuje možný problém „třetí proměnné“, nicméně, když jsou nalezena tři taková úzce související měřítka, dále to naznačuje, že každé z nich může mít obousměrné tendence (viz „obousměrná proměnná“ výše), což je shluk korelovaných hodnot, které se navzájem do určité míry ovlivňují. Proto může být prostý závěr výše nepravdivý.

Bohatší populace mají tendenci jíst více potravin a spotřebovávat více energie

Další výzkum tento závěr zpochybnil. Místo toho se může stát, že jiné základní faktory, jako geny, strava a cvičení, ovlivňují jak hladinu HDL, tak pravděpodobnost srdečního infarktu; je možné, že léky mohou ovlivnit přímo měřitelný faktor, hladinu HDL, aniž by ovlivnily pravděpodobnost srdečního infarktu.

Tento příklad používá náboženství pastafariánství k ilustraci logického klamu předpokladu, že korelace rovná se příčina.

Vztah k ekologickému klamu

Existuje vztah mezi tímto předmětem a Ekologickým klamem, popsaným v práci Williama S. Robinsona z roku 1950. Robinson ukazuje, že ekologické korelace, kde statistickým objektem je skupina osob (tj. etnická skupina), nevykazují stejné chování jako jednotlivé korelace, kde předměty zkoumání jsou jednotlivci: „Vztah mezi ekologickými a individuálními korelacemi, který je diskutován v této práci, poskytuje jednoznačnou odpověď na to, zda ekologické korelace mohou být platně použity jako náhražky jednotlivých korelací. Nemohou.“ (…) „(a)n Ekologická korelace se téměř jistě nerovná její odpovídající individuální korelaci.“

David Hume tvrdil, že kauzalita je založena na zkušenosti a zkušenost podobně na předpokladu, že budoucnost modeluje minulost, což zase může být založeno pouze na zkušenosti – což vede k kruhové logice. Na závěr tvrdil, že kauzalita není založena na skutečném uvažování: ve skutečnosti lze vnímat pouze korelaci.

Aby mohla být korelace stanovena jako kauzální, musí být příčina a následek spojeny prostřednictvím nárazového mechanismu v souladu se známými přírodními zákony.

Intuitivně se zdá, že příčinná souvislost nevyžaduje jen korelaci, ale i hypotetickou závislost. Předpokládejme, že student si v testu vedl špatně a uhodne, že příčinou bylo jeho nestudování. K prokázání tohoto faktu si člověk vzpomene na hypotetickou – tentýž student píše stejný test za stejných okolností, ale studoval noc předtím. Pokud by člověk mohl přetočit historii a změnit pouze jednu malou věc (udělat studenta studujícím pro zkoušku), pak by bylo možné pozorovat příčinnou souvislost (srovnáním verze 1 s verzí 2). Protože nelze přetočit historii a přehrát události po provedení malých kontrolovaných změn, příčinnou souvislost lze pouze odvodit, nikdy přesně nepoznat. To se označuje jako Základní problém příčinné souvislosti – není možné přímo pozorovat příčinné účinky.

Hlavním cílem vědeckých experimentů a statistických metod je co nejlépe se přiblížit srovnávacímu stavu světa. Například lze provést experiment na jednovaječných dvojčatech, o nichž bylo známo, že ve svých testech dostávají shodné známky. Jedno z dvojčat je posláno na studium na šest hodin, zatímco druhé je posláno do zábavního parku. Pokud by se výsledky jejich testů náhle ve velké míře rozcházely, byl by to silný důkaz, že studium (nebo návštěva zábavního parku) mělo na výsledky testů příčinný vliv. V tomto případě by korelace mezi studiem a výsledky testů téměř jistě znamenala příčinnou souvislost.

Dobře navržené experimentální studie nahrazují rovnost jedinců jako v předchozím příkladu rovností skupin. Toho je dosaženo randomizací jedinců do dvou nebo více skupin. Ačkoli to není dokonalý systém, pravděpodobnost rovnosti ve všech aspektech stoupá s počtem jedinců náhodně zařazených do léčebné/placebové skupiny. Z významnosti rozdílu účinku léčby oproti placebu lze usuzovat na pravděpodobnost, že léčba bude mít kauzální vliv na onemocnění. Tuto pravděpodobnost lze statisticky vyčíslit pomocí P-hodnoty [pochybné – viz diskusní stránka].

Pokud nejsou experimentální studie možné a jsou k dispozici pouze již existující data, jak je tomu obvykle například v ekonomii, lze použít regresní analýzu. Jiné faktory než potenciální příčinná proměnná zájmu jsou kontrolovány tak, že jsou zahrnuty jako regresory vedle regresoru představujícího proměnnou zájmu. Falešným závěrům příčinné souvislosti v důsledku reverzní příčinné souvislosti (nebo nesprávným odhadům velikosti příčinné souvislosti v důsledku přítomnosti obousměrné příčinné souvislosti) se lze vyhnout použitím vysvětlivek (regresorů), které jsou nutně exogenní, jako jsou fyzikální vysvětlivky jako množství srážek (jako determinant například termínových cen), zaostalé proměnné, jejichž hodnoty byly určeny před určením hodnoty závislé proměnné, instrumentální proměnné pro vysvětlivky (vybrané na základě jejich známé exogenity) atd. Viz kausalita#ekonomie. Spuriózní korelace způsobená vzájemným vlivem třetí, běžné, kauzální proměnné, je těžší se vyhnout: model musí být specifikován tak, aby existoval teoretický důvod se domnívat, že žádná taková základní kauzální proměnná nebyla z modelu vynechána; zejména základní časové trendy závislé proměnné i nezávislé (potenciálně kauzální) proměnné musí být kontrolovány zahrnutím času jako další nezávislé proměnné.