Statistická významnost

Ve statistice se výsledek nazývá statisticky významný, pokud je nepravděpodobné, že by k němu došlo náhodou. „Statisticky významný rozdíl“ jednoduše znamená, že existuje statistický důkaz, že existuje rozdíl; neznamená to, že rozdíl je nutně velký, důležitý nebo významný v běžném významu slova.

Úroveň významnosti testu je tradiční frekvenční koncept testování statistických hypotéz. V jednoduchých případech je definována jako pravděpodobnost rozhodnutí odmítnout nulovou hypotézu, když je nulová hypotéza skutečně pravdivá (rozhodnutí známé jako chyba typu I, nebo „falešné pozitivní určení“). Rozhodnutí se často provádí pomocí p-hodnoty: pokud je hodnota p menší než hladina významnosti, pak je nulová hypotéza odmítnuta. Čím menší je hodnota p, tím významnější je výsledek.

Ve složitějších, ale prakticky důležitých případech je úroveň významnosti testu taková pravděpodobnost, že pravděpodobnost rozhodnutí odmítnout nulovou hypotézu, když je nulová hypotéza skutečně pravdivá, není větší než uvedená pravděpodobnost. To umožňuje takové aplikace, kde pravděpodobnost rozhodnutí odmítnout může být mnohem menší než úroveň významnosti pro některé soubory předpokladů zahrnutých v nulové hypotéze.

Úroveň významnosti je obvykle reprezentována řeckým symbolem α (alfa). Populární úrovně významnosti jsou 5%, 1% a 0,1%. Pokud test významnosti udává hodnotu p nižší než úroveň α, je nulová hypotéza odmítnuta. Takové výsledky jsou neformálně označovány jako ‚statisticky významné‘. Například, pokud někdo tvrdí, že „je jen jedna možnost z tisíce, že by se to mohlo stát náhodou“, je tím naznačena úroveň statistické významnosti 0,1%. Čím nižší je úroveň významnosti, tím silnější je důkaz.

V některých situacích je vhodné vyjádřit statistickou významnost jako 1 − α. Obecně platí, že při interpretaci uvedené významnosti je třeba si pečlivě všímat toho, co přesně se statisticky testuje.

Různé α-úrovně mají různé výhody a nevýhody. Menší α-úrovně dávají větší důvěru v určení významnosti, ale jsou vystaveny většímu riziku neodmítnutí falešné nulové hypotézy (chyba typu II, nebo „falešné negativní určení“), a tak mají menší statistickou sílu. Výběr α-úrovně nevyhnutelně zahrnuje kompromis mezi významností a mocninou, a následně mezi chybou typu I a chybou typu II.

Doporučujeme:  Příslušenství orgánů trávení

V některých oborech, například v jaderné a částicové fyzice, je běžné vyjádřit statistickou významnost v jednotkách „σ“ (sigma), což je směrodatná odchylka Gaussova rozdělení. Statistickou významnost „“ lze převést na hodnotu α pomocí chybové funkce:

Použití σ je motivováno všudypřítomným vznikem Gaussova rozdělení v nejistotách měření. Pokud například teorie předpovídá, že parametr bude mít hodnotu řekněme 100, a jeden měří parametr 109 ± 3, pak by se dalo nahlásit měření jako „odchylku 3σ“ od teoretické předpovědi. Z hlediska α se toto tvrzení rovná tvrzení, že „za předpokladu, že teorie je pravdivá, pravděpodobnost získání experimentálního výsledku shodou okolností je 0,27 %“ (protože 1 − erf(3/√2) = 0,0027).

Pevné úrovně významnosti, jako jsou výše uvedené, mohou být považovány za užitečné v průzkumných analýzách dat. Moderní statistická rada však říká, že pokud je výsledek zkoušky v podstatě konečným výsledkem experimentu nebo jiné studie, měla by být hodnota p výslovně uvedena. A co je důležité, mělo by být uvedeno, zda je hodnota p považována za významnou, či nikoli. To má umožnit přenést maximum informací ze souhrnu studie do metaanalýz.

Častým omylem je, že statisticky významný výsledek má vždy praktický význam nebo vykazuje velký vliv v populaci. S tímto problémem se bohužel běžně setkáváme ve vědeckém psaní. Při dostatečně velkém vzorku lze zjistit, že extrémně malé a nevýrazné rozdíly jsou statisticky významné a statistická významnost nevypovídá nic o praktickém významu rozdílu.

Jedním z častějších problémů při testování významnosti je tendence k vícenásobnému porovnávání, které přináší falešné významné rozdíly i tam, kde je nulová hypotéza pravdivá. Například ve studii dvaceti porovnávání, při použití α-úrovně 5%, jedno porovnání pravděpodobně přinese významný výsledek i přesto, že nulová hypotéza je pravdivá. V těchto případech jsou p-hodnoty upraveny tak, aby kontrolovaly buď míru falešného odhalení, nebo familywise chybovost.

Doporučujeme:  Ulegyria

Dalším problémem je, že frekvenční analýzy p-hodnot jsou některými považovány za přeceňování „statistické významnosti“. Podrobnosti viz Bayesův faktor.

K dalšímu běžnému úskalí často dochází, když výzkumník napíše nejednoznačné prohlášení „nenašli jsme žádný statisticky významný rozdíl“, které je pak ostatními chybně citováno jako „zjistili, že žádný rozdíl neexistuje“. Statistiky vlastně nemohou být použity k prokázání, že mezi dvěma populacemi je přesně nulový rozdíl. Nenalezení důkazů, že existuje rozdíl, neznamená důkaz, že neexistuje žádný rozdíl. Tento princip je někdy popsán zásadou „Absence důkazů není důkazem absence“.

Podle J. Scotta Armstronga měly pokusy vzdělávat výzkumníky v tom, jak se vyhnout nástrahám při používání statistické významnosti jen malý úspěch. V pracích „Significance Tests Harm Progress in Forecasting“ a „Statistical Significance Tests are Unnecessary Even When Properly Done“ Armstrong argumentuje tím, že i když jsou testy statistické významnosti provedeny správně, nemají žádnou hodnotu. Řada pokusů selhala při hledání empirických důkazů podporujících používání testů významnosti. Testy statistické významnosti škodí rozvoji vědeckého poznání, protože odvádějí výzkumníky od používání správných metod. Armstrong navrhuje, aby se autoři vyhýbali testům statistické významnosti; místo toho by měli podávat zprávy o velikostech efektů, intervalech spolehlivosti, replikacích/rozšířeních a metaanalýzách.

Použití testu statistické významnosti označili autoři Deirdre McCloskeyová a Stephen Ziliak za vážně chybné a nevědecké. Poukazují na to, že „nevýznamnost“ neznamená nevýznamnost, a navrhují, aby vědecká obec od použití testu úplně upustila, protože to může způsobit přijetí falešných hypotéz a odmítnutí pravdivých hypotéz.

Konceptualizace významnosti poměru signálu a šumu

Statistickou významnost lze považovat za důvěru, kterou má člověk v daný výsledek. Ve srovnávací studii je závislá na relativním rozdílu mezi srovnávanými skupinami, množství měření a šumu spojeném s měřením. Jinými slovy, jistota, kterou má člověk v tom, že daný výsledek není náhodný (tj. není důsledkem náhody), závisí na poměru signál-šum (SNR) a velikosti vzorku.

Doporučujeme:  Screening s vysokou propustností

Vyjádřeno matematicky, jistota, že výsledek není náhodnou náhodou, je dána následujícím vzorcem podle Sacketta:

Pro přehlednost je výše uvedený vzorec uveden v tabulce níže.

Závislost spolehlivosti na šumu, signálu a velikosti vzorku (tabulková forma)

Jinými slovy, závislost spolehlivosti je vysoká, pokud je šum nízký a/nebo velikost vzorku velká a/nebo velikost efektu (signálu) velká. Důvěra výsledku (a s ním spojeného intervalu spolehlivosti) nezávisí pouze na velikosti efektu. Pokud je velikost vzorku velká a šum nízký, lze malou velikost efektu měřit s velkou spolehlivostí. Zda je malá velikost efektu považována za důležitou, závisí na kontextu porovnávaných událostí.

V medicíně jsou malé velikosti efektů (projevující se malým zvýšením rizika) často považovány za klinicky významné a často se používají jako vodítko pro rozhodování o léčbě (pokud je v ně velká důvěra). To, zda je daná léčba považována za záslužné úsilí, závisí na rizicích, přínosech a nákladech.

Testy statistické významnosti

Průměr (Aritmetika, Geometrie) – Medián – Režim – Výkon – Odchylka – Směrodatná odchylka

Testování hypotéz – Význam – Nullova hypotéza/Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkce přežití – Kaplan-Meier – Logrank test – Četnost selhání – Proporcionální modely nebezpečnosti

Normal (zvonová křivka) – Poisson – Bernoulli

Matoucí veličina – Pearsonův korelační koeficient produktového momentu – Rank korelace (Spearmanův korelační koeficient hodnosti, Kendall tau korelační koeficient hodnosti)

Lineární regrese – Nelineární regrese – Logistická regrese