Statistická síla

Mocnost statistického testu je pravděpodobnost, že test odmítne nulovou hypotézu, když je alternativní hypotéza pravdivá (tj. že neudělá chybu typu II). Jak moc roste, šance na chybu typu II se snižuje. Pravděpodobnost chyby typu II je označována jako falešná záporná míra (β). Proto je moc rovna 1 − β.

Analýza výkonu může být použita k výpočtu minimální velikosti vzorku potřebné k přijetí výsledku statistického testu s určitou úrovní spolehlivosti. Může být také použita k výpočtu minimální velikosti efektu, která bude pravděpodobně zjištěna ve studii za použití dané velikosti vzorku. Kromě toho se pojem výkonu používá k porovnávání mezi různými statistickými testy: například mezi parametrickým a neparametrickým testem stejné hypotézy.

Statistické testy používají data ze vzorků k posouzení nebo vyvození závěrů o populaci. V konkrétním nastavení srovnání dvou vzorků je cílem posoudit, zda se průměrné hodnoty nějakého atributu získané pro jedince ve dvou dílčích populacích liší. Například pro otestování nulové hypotézy, že se průměrné skóre mužů a žen v testu neliší, se odeberou vzorky mužů a žen, test se jim podá a průměrné skóre jedné skupiny se porovná s průměrným skóre druhé skupiny pomocí statistického testu, jako je dvouvýběrový Z-test. Síla testu je pravděpodobnost, že test najde statisticky významný rozdíl mezi muži a ženami v závislosti na velikosti skutečného rozdílu mezi těmito dvěma populacemi. Všimněte si, že síla je pravděpodobnost nalezení rozdílu, který existuje, na rozdíl od pravděpodobnosti deklarování rozdílu, který neexistuje (který je znám jako chyba typu I).

Statistická síla může záviset na řadě faktorů. Některé z těchto faktorů mohou být specifické pro konkrétní testovací situaci, ale minimálně síla téměř vždy závisí na těchto dvou faktorech:

Kritérium významnosti je vyjádření, jak nepravděpodobný musí být výsledek, je-li nulová hypotéza pravdivá, aby byl považován za významný. Nejčastěji používanými kritérii jsou pravděpodobnosti 0,05 (5%, 1:20), 0,01 (1%, 1:100) a 0,001 (0,1%, 1:1000). Je-li kritérium 0,05, pravděpodobnost získání pozorovaného efektu, je-li nulová hypotéza pravdivá, musí být menší než 0,05 a tak dále. Jednoduchým způsobem, jak zvýšit sílu testu, je provést méně konzervativní test pomocí většího kritéria významnosti. To zvyšuje šanci na získání statisticky významného výsledku (odmítnutí nulové hypotézy), je-li nulová hypotéza nepravdivá, to znamená snižuje riziko chyby typu II. Ale také zvyšuje riziko získání statisticky významného výsledku, je-li nulová hypotéza pravdivá; to znamená, že zvyšuje riziko chyby typu I.

Doporučujeme:  Comity

Velikost sledovaného efektu v populaci může být kvantifikována z hlediska velikosti efektu, kde je větší schopnost detekovat větší efekty. Velikost efektu může být přímým odhadem sledovaného množství, nebo může být standardizovaným měřítkem, které také zohledňuje variabilitu v populaci. Například v analýze porovnávající výsledky v léčené a kontrolní populaci, rozdíl výsledku znamená, že Y − X by bylo přímým měřítkem velikosti efektu, zatímco (Y − X)/σ, kde σ je běžná směrodatná odchylka výsledků v léčené a kontrolní skupině, by bylo standardizovaným měřítkem velikosti efektu. Pokud je konstruována správně, standardizovaná velikost efektu spolu s velikostí vzorku zcela určí sílu. Nestandardizovaná (přímá) velikost efektu bude zřídkakdy dostačující ke stanovení síly, protože neobsahuje informace o variabilitě měření.

Přesnost, s jakou jsou data měřena, často ovlivňuje výkon. Výkon lze často zlepšit snížením chyby měření v datech. Souvisejícím konceptem je zlepšení „spolehlivosti“ posuzovaného měření (jako v psychometrické spolehlivosti).

Návrh experimentu nebo pozorovací studie často ovlivňuje výkon. Například v testovací situaci se dvěma vzorky při dané celkové velikosti vzorku n je optimální mít stejný počet pozorování ze dvou srovnávaných populací (pokud jsou rozptyly v obou populacích stejné). V regresní analýze a analýze rozptylu existuje rozsáhlá teorie a praktické strategie pro zlepšení výkonu na základě optimálního nastavení hodnot nezávislých proměnných v modelu.

Ačkoli neexistují žádné formální standardy pro výkon, většina výzkumníků posuzuje výkon svých testů pomocí 0,80 jako standard pro přiměřenost.

Jsou chvíle, kdy doporučení energetické analýzy týkající se velikosti vzorku budou nedostatečná. Energetická analýza je vhodná tehdy, když jde o správné přijetí nebo odmítnutí nulové hypotézy. V mnoha kontextech nejde ani tak o určení toho, zda existuje nebo neexistuje rozdíl, ale spíše o získání přesnějšího odhadu velikosti populačního efektu. Například pokud bychom očekávali populační korelaci mezi inteligencí a pracovním výkonem kolem 0,50, velikost vzorku 20 nám dá přibližně 80% sílu (alfa = .05, dvouocas) odmítnout nulovou hypotézu nulové korelace. Při provádění této studie nás však pravděpodobně více zajímá, zda je korelace 0,30 nebo 0,60 nebo 0,50. V této souvislosti bychom potřebovali mnohem větší velikost vzorku, abychom snížili interval spolehlivosti našeho odhadu na rozsah, který je přijatelný pro naše účely. Techniky podobné těm, které se používají při tradiční energetické analýze, mohou být použity k určení velikosti vzorku požadované pro to, aby šířka intervalu spolehlivosti byla menší než daná hodnota.

Doporučujeme:  1916

Mnoho statistických analýz zahrnuje odhad několika neznámých veličin. V jednoduchých případech jsou všechny tyto veličiny až na jednu „obtěžujícím parametrem“. V tomto nastavení se jediná relevantní mocnina vztahuje k jediné veličině, která projde formální statistickou inferencí. V některých nastaveních, zejména pokud jsou cíle více „průzkumné“, může být v analýze řada veličin, které jsou zajímavé. Například v analýze s násobnou regresí můžeme zahrnout několik proměnných potenciálního zájmu. V situacích, jako je tato, kdy je zvažováno několik hypotéz, je běžné, že se mocniny spojené s různými hypotézami liší. Například v analýze s násobnou regresí se schopnost odhalit účinek dané velikosti souvisí s rozptylem kovariáty. Vzhledem k tomu, že různé kovariáty budou mít různé rozptyly, budou se lišit i jejich mocniny.

Každá statistická analýza zahrnující více hypotéz podléhá inflaci chybovosti typu I, pokud nejsou přijata vhodná opatření. Taková opatření obvykle zahrnují použití vyšší prahové hodnoty přísnosti pro odmítnutí hypotézy s cílem kompenzovat prováděná vícenásobná srovnání (např. jako u Bonferroniho metody). V této situaci by měla analýza výkonu odrážet vícenásobný testovací přístup, který má být použit. Daná studie tak může být například dobře způsobilá ke zjištění určité velikosti účinku, pokud má být provedena pouze jedna zkouška, ale stejná velikost účinku může mít mnohem nižší výkon, pokud má být provedeno několik zkoušek.

A priori vs. post hoc analýza

Analýza výkonu může být provedena buď před (a priori nebo analýza pravděpodobného výkonu), nebo po sběru dat (post hoc nebo retrospektivní analýza výkonu). Analýza pravděpodobného výkonu se provádí před výzkumnou studií a obvykle se používá ke stanovení vhodné velikosti vzorku k dosažení odpovídajícího výkonu. Post-hoc analýza výkonu se provádí po dokončení studie a používá získanou velikost vzorku a velikost účinku k určení, jaký byl výkon ve studii, za předpokladu, že velikost účinku ve vzorku je rovna velikosti účinku v populaci. Zatímco užitečnost analýzy pravděpodobného výkonu v experimentálním designu je všeobecně přijímána, užitečnost retrospektivních technik je kontroverzní .

Finanční agentury, etické komise a komise pro hodnocení výzkumu často požadují, aby výzkumník provedl analýzu síly, například pro určení minimálního počtu pokusných subjektů na zvířatech potřebných pro experiment. Pokud je studie nedostatečně vybavena, pak ve frekvenční statistice nemá dokončení výzkumu velký smysl, protože je nepravděpodobné, že by si člověk mohl vybrat mezi hypotézami na požadované úrovni významnosti. Naproti tomu v bayesovské statistice je každý správně provedený experiment cenný, protože data jsou použita v kontextu všech shromážděných dat a umožňují člověku aktualizovat své přesvědčení prostřednictvím bayesovské inference bez ohledu na to, jak málo je shromážděno. Nicméně i v bayesovské statistice je moc užitečným měřítkem toho, nakolik lze očekávat, že daná velikost experimentu zpřesní jeho přesvědčení.

Doporučujeme:  Konání

Předpokládejme, že plánujeme porovnat výzkumné subjekty z hlediska veličiny, která se měří před a po ošetření, a analyzovat data pomocí párového t-testu. Nechť Bi, Ai označuje opatření před ošetřením a po ošetření na subjektu i. V párovém t-testu necháme Di = Ai −Bi, pak pokračujeme analýzou D jako v t-testu s jedním vzorkem. Začněme výpočtem rozptylu vzorku Di, který odhaduje odpovídající rozptyl populace . Jednostranný test pro alternativní hypotézu ED >0 odmítá nulovou hypotézu, pokud

kde n je velikost vzorku, je průměr Di a 1,64 je přibližná rozhodovací prahová hodnota pro zkoušku úrovně 0,05 založená na normální aproximaci ke statistice zkoušky.

Nyní předpokládejme, že alternativní hypotéza je pravdivá a ED = τ. Pak síla je

Vzhledem k tomu, že přibližně následuje standardní normální rozdělení, když je alternativní hypotéza pravdivá, přibližný výkon lze vypočítat jako

Všimněte si, že podle tohoto vzorce vzroste při n nebo τ výkon, zatímco když vzroste σD (a tedy i jeho odhad založený na vzorku), výkon se sníží.

Průměr (Aritmetika, Geometrie) – Medián – Režim – Výkon – Odchylka – Směrodatná odchylka

Testování hypotéz – Význam – Nullova hypotéza/Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkce přežití – Kaplan-Meier – Logrank test – Četnost selhání – Proporcionální modely nebezpečnosti

Normal (zvonová křivka) – Poisson – Bernoulli

Matoucí veličina – Pearsonův korelační koeficient produktového momentu – Rank korelace (Spearmanův korelační koeficient hodnosti, Kendall tau korelační koeficient hodnosti)

Lineární regrese – Nelineární regrese – Logistická regrese