Velikost efektu je ve statistice měřítkem síly vztahu mezi dvěma proměnnými. Ve vědeckých experimentech je často užitečné vědět nejen to, zda má experiment statisticky významný efekt, ale také velikost všech pozorovaných efektů. V praktických situacích jsou velikosti efektů užitečné pro rozhodování. Velikost efektu je běžnou měnou studií metaanalýzy, které shrnují poznatky z konkrétní oblasti výzkumu.
Mnoho psychologických časopisů vyžaduje hlášení velikosti efektů. Například jak Britská psychologická společnost (BPS), tak Americká psychologická asociace (APA)
nařizuje toto. Příručka k publikaci latterů, páté i šesté vydání (2001, 2010), uvádí: „Aby čtenář mohl ocenit velikost nebo důležitost závěrů studie, je téměř vždy nutné uvést nějaké měřítko velikosti efektu“ (2010, s. 34).
Koncept velikosti efektu se objevuje v běžném jazyce. Například program hubnutí se může chlubit tím, že vede k průměrnému úbytku hmotnosti o 30 liber. V tomto případě je 30 liber indikátorem udávané velikosti efektu. Jiným příkladem je, že doučovací program může tvrdit, že zvyšuje školní výkonnost o jedno písmeno. Toto zvýšení stupně je udávaná velikost efektu programu.
Velikost efektu je nejlépe vysvětlit na příkladu: pokud jste neměli žádný předchozí kontakt s lidmi a jednoho dne jste navštívili Anglii, kolik lidí byste potřebovali vidět, než si uvědomíte, že v průměru jsou tam muži vyšší než ženy? Odpověď se týká velikosti efektu rozdílu průměrné výšky mezi muži a ženami. Čím větší je velikost efektu, tím snadněji zjistíte, že muži jsou vyšší. Pokud by byl výškový rozdíl malý, pak by bylo potřeba znát výšky mnoha mužů a žen, abyste si všimli, že (v průměru) jsou muži vyšší než ženy. Tento příklad je demonstrován níže.
V inferentní statistice pomáhá velikost efektu určit, zda je statisticky významný rozdíl rozdílem praktického zájmu. Jinými slovy, při dostatečně velké velikosti vzorku je vždy možné ukázat, že existuje rozdíl mezi dvěma průměry, které se porovnávají na nějakou desetinnou pozici. Velikost efektu nám pomáhá zjistit, zda je pozorovaný rozdíl rozdílem, na kterém záleží. Velikost efektu, velikost vzorku, úroveň kritické významnosti () a síla při testování statistických hypotéz spolu souvisí: kteroukoli z těchto hodnot lze určit vzhledem k ostatním. V metaanalýze se velikosti efektů používají jako běžná míra, kterou lze vypočítat pro různé studie a pak ji zkombinovat do celkových analýz.
Termín velikost efektu se nejčastěji používá pro popsané standardizované míry efektu (např. r, Cohenovo d, poměr šancí, atd.). Nicméně nestandardizované míry (např. surový rozdíl mezi skupinovými průměry, nestandardní regresní koeficienty, atd.) mohou být stejně tak měřítky velikosti efektu. Standardizované míry velikosti efektu se obvykle používají tehdy, když metrika zkoumaných proměnných nemá pro čtenáře vnitřní význam (např. skóre v testu osobnosti na libovolné stupnici), nebo když se kombinují výsledky z více studií, když některé nebo všechny studie používají jiné stupnice. Někteří studenti si spletli doporučení Wilkinson & APA Task Force on Statistical Inference (1999, str.599)–Vždy prezentujte velikosti efektu pro primární výsledky—protože vykazování standardizovaných měr efektu jako Cohenovo d je výchozím požadavkem. Ve skutečnosti, jen po větě autoři dodali, že — Pokud jsou jednotky měření smysluplné na praktické úrovni (např. počet vykouřených cigaret za den), pak obvykle dáváme přednost nestandardizovanému měření (regresní koeficient nebo průměrný rozdíl) před standardizovaným měřením (r nebo d).
Dalším často používaným měřítkem síly vztahu mezi dvěma proměnnými je koeficient determinace (druhá mocnina r, označovaná jako „r-kvadrát“). Je to míra podílu rozptylu sdíleného oběma proměnnými a pohybuje se od 0 do 1. R² 0,21 znamená, že 21% z celkového rozptylu je sdíleno oběma proměnnými.
Cohenovo d je vhodné měřítko velikosti účinku, které se použije v souvislosti s testem t na střední hodnoty. d je definován jako rozdíl mezi dvěma středními hodnotami dělený souhrnnou směrodatnou odchylkou pro tyto střední hodnoty.
Různí lidé nabízejí různé rady ohledně toho, jak interpretovat výslednou velikost efektu, ale nejvíce přijímaným názorem je Cohenův (1992), kde 0,2 je indikativní malý efekt, 0,5 střední a 0,8 velká velikost efektu.
Ve výše uvedeném příkladu návštěvy Anglie a pozorování výšky mužů a žen jsou tedy údaje (Aaron,Kromrey,& Ferron, 1998, listopad; z reprezentativního vzorku 2436 mužů a 3311 žen ve Velké Británii z roku 2004) následující:
Velikost efektu (při použití Cohenova d) by se rovnala 1,72 (95% intervaly spolehlivosti: 1,66 – 1,78). To je velmi velké a neměl by být problém zjistit, že mezi muži a ženami je v průměru konzistentní výškový rozdíl.
Za zmínku ovšem stojí, že v některých případech může být moudré použít jen jednu ze směrodatných odchylek (např. směrodatná odchylka před léčbou v terapeutické studii). Ať tak či onak, všimněte si, že velikost vzorku nehraje ve výpočtu roli – body zaznamenal Hedges.
Hedges a Olkin (1985) poznamenali, že lze upravit odhady velikosti efektu zohledněním velikosti vzorku. Problém s Cohenovým d je v tom, že výsledek je silně ovlivněn jmenovatelem v rovnici. Pokud je jedna směrodatná odchylka větší než druhá než jmenovatel je vážena tímto směrem a velikost efektu je konzervativnější. Nicméně, jistě dává větší smysl dát zásobu do větší velikosti vzorku? Hedgesovo ĝ zahrnuje velikost vzorku jak výpočtem jmenovatele, který se podívá na velikosti vzorku příslušných směrodatných odchylek a také provede úpravu celkové velikosti efektu na základě této velikosti vzorku. Vzorec pro Hedgesovo ĝ (používaný softwarem jako je generátor velikosti efektu) je:
Ve výše uvedeném příkladu ‚výšky‘ se velikost efektu Hedges ĝ rovná 1,76 (95% intervaly spolehlivosti: 1,70 – 1,82). Všimněte si, jak velikost velkého vzorku zvětšila velikost efektu z Cohenova d? Pokud by místo toho byla dostupná data pouze od 90 mužů a 80 žen Hedges ĝ by poskytla konzervativnější odhad velikosti efektu: 1,70 (s většími 95% intervaly spolehlivosti: 1,35 – 2,05).
Cohenův jev je vhodná míra velikosti efektu, která se použije v kontextu F-testu pro vícenásobnou korelaci nebo vícenásobnou regresi. Míra velikosti efektu pro vícenásobnou regresi je definována jako:
Míra velikosti efektu pro hierarchickou mnohonásobnou regresi je definována jako:
Podle konvence jsou velikosti účinku 0,02, 0,15 a 0,35 považovány za malé, střední a velké (Cohen, 1988).
φ, Cramerovo φ, nebo Cramerovo V
Nejlepším měřítkem asociace pro test chí-kvadrát je fí (nebo Cramerovo fí nebo V). Fí souvisí s bodově-biseriálním korelačním koeficientem a Cohenovo d a odhaduje rozsah vztahu mezi dvěma proměnnými (2 x 2). Cramerovo fí může být použito s proměnnými, které mají více než dvě úrovně.
Phi lze vypočítat tak, že najdeme druhou odmocninu statistiky chí-kvadrát vydělenou velikostí vzorku.
Podobně lze Cramerovo phi nalézt pomocí trochu složitějšího vzorce, který bere v úvahu počet řádků nebo sloupců (k).
Poměr šancí je další užitečnou velikostí efektu. Je vhodný, pokud jsou obě proměnné binární. Vezměme si například studii o pravopisu. V kontrolní skupině projdou ve třídě dva studenti za každého, kdo propadne, takže pravděpodobnost, že propadne, je dvě ku jedné (nebo stručněji 2/1 = 2). V léčebné skupině projde šest studentů za každého, kdo propadne, takže pravděpodobnost, že propadne, je šest ku jedné (nebo 6/1 = 6). Velikost efektu lze vypočítat tak, že pravděpodobnost, že propadne, je v léčebné skupině třikrát vyšší než v kontrolní skupině (protože 6 děleno 2 je 3). Proto je poměr šancí 3. Statistika poměru šancí je však na jiné stupnici než Cohenovo d. Takže tato ‚3‘ není srovnatelná s Cohenovým d z ‚3‘.