Testování hypotéz – Dobrá psychoterapie

Test statistické hypotézy je metoda statistického rozhodování na základě experimentálních dat a o experimentálních datech. Testování nulové hypotézy pouze odpovídá na otázku, „nakolik zjištění odpovídají možnosti, že by za ně mohly být zodpovědné pouze náhodné faktory“. To se provádí položením a zodpovězením hypotetické otázky. Jedním z použití je rozhodování o tom, zda experimentální výsledky obsahují dostatek informací, které zpochybňují konvenční moudrost.

Jako příklad uveďme zjištění, zda kufr obsahuje radioaktivní materiál. Pokud jej umístíte pod Geigerův čítač, získáte 10 počtů za minutu. Nulová hypotéza zní, že v kufru není žádný radioaktivní materiál a že všechny naměřené hodnoty jsou způsobeny okolní radioaktivitou typickou pro okolní vzduch a neškodné předměty v kufru. Můžeme tedy vypočítat, jaká je pravděpodobnost, že nulová hypotéza produkuje 10 počtů za minutu. Pokud je to pravděpodobné, například pokud nulová hypotéza předpovídá v průměru 9 počtů za minutu a směrodatnou odchylku 1 počet za minutu, říkáme, že kufr je kompatibilní s nulovou hypotézou (což neznamená, že v něm není žádný radioaktivní materiál, jen to nedokážeme určit!); na druhou stranu, pokud nulová hypotéza předpovídá například 1 počet za minutu a směrodatnou odchylku 1 počet za minutu, pak kufr není kompatibilní s nulovou hypotézou a za vznik měření jsou pravděpodobně zodpovědné jiné faktory.

Zde popsaný test je podrobněji statistickou nulovou hypotézou.
test významnosti. Nulová hypotéza je domněnka, že
existuje pouze proto, aby byla falzifikována výběrovým šetřením.
Statistická významnost je možné zjištění testu –
že je nepravděpodobné, že by se vzorek vyskytl náhodně vzhledem k tomu, že
pravdivosti nulové hypotézy. Název testu popisuje jeho
formulaci a jeho možný výsledek. Jednou z charakteristik testu
je jeho jednoznačné rozhodnutí: zamítnout nebo nezamítnout (což není totéž jako přijmout).
Vypočtená hodnota se porovnává s prahovou hodnotou.

Člověk může být postaven před problém učinit definitivní rozhodnutí s ohledem na nejistou hypotézu, která je známa pouze na základě pozorovatelných důsledků.
Statistický test hypotézy, nebo stručněji test hypotézy, je algoritmus výběru mezi alternativami (pro nebo proti hypotéze), který minimalizuje určitá rizika.

Tento článek popisuje běžně používanou frekvenční metodu testování hypotéz.
Z bayesovského pohledu,
je vhodné považovat testování hypotéz za zvláštní případ normativní teorie rozhodování (konkrétně za problém výběru modelu) a je možné shromažďovat důkazy ve prospěch (nebo proti) hypotéze pomocí pojmů, jako jsou poměry pravděpodobnosti známé jako Bayesovy faktory.

Než začneme pozorovat data, provedeme několik příprav.

Poté, co máme k dispozici data, vypočítáme testovací statistiku a zjistíme, zda se nachází uvnitř kritické oblasti.

Pokud je testovací statistika uvnitř kritické oblasti, pak je náš závěr jeden z následujících:

Výzkumník musí volit mezi těmito logickými alternativami.
V příkladu bychom řekli: Pozorovaná odpověď na léčbu je statisticky významná.

Pokud se testovací statistika nachází mimo kritickou oblast, jediným závěrem je, že neexistuje dostatek důkazů pro zamítnutí nulové hypotézy. To není totéž jako důkaz ve prospěch nulové hypotézy. Tu pomocí těchto argumentů nemůžeme získat, protože nedostatek důkazů proti hypotéze není důkazem pro ni. Na tomto základě statistický výzkum postupuje eliminací chyb, nikoliv hledáním pravdy.

V návaznosti na výklad v Lehmannovi a Romanovi uvedeme několik definic:

Viz legenda definující symboly v dolní části tabulky. Statistiky některých dalších testů mají na Wikipedii vlastní stránku, včetně Waldova testu a testu poměru pravděpodobnosti.

(z je vzdálenost od průměru ve směrodatných odchylkách. Je možné vypočítat minimální podíl populace, který spadá do n směrodatných odchylek (viz: Čebiševova nerovnost).

Testování hypotéz je z velké části dílem Ronalda Fishera,
Jerzyho Neymana, Karla Pearsona a (syna) Egona Pearsona. Fisher
byl zemědělský statistik, který kladl důraz na důslednou statistickou analýzu.
experimentální plán a metody, jak získat výsledek z malého počtu vzorků.
za předpokladu Gaussova rozdělení. Neyman (který se spojil s
mladším Pearsonem) kladl důraz na matematickou přísnost a metody, které umožňovaly získat
více výsledků z mnoha vzorků a širšího rozsahu rozdělení.
Moderní testování hypotéz je
(rozšířeným) hybridem Fisherovy vs. Neymanovy/Pearsonovy formulace, metod a postupů.
a terminologie vyvinuté na počátku 20. století.

Následující příklad je shrnut podle Fishera
Fisher důkladně vysvětlil svou metodu v navrhovaném experimentu k testování
Lady, která tvrdila, že je schopna určit způsob přípravy čaje pomocí
chuti. Článek je méně než
10 stran a je pozoruhodný svou jednoduchostí a úplností.
pokud jde o terminologii, výpočty a návrh experimentu.
Příklad je volně založen na události z Fisherova života.
Dáma mu dokázala, že se mýlil.

Pouze v případě, že 8 pokusů přineslo 8 úspěchů, byl Fisher ochoten
zamítnout nulovou hypotézu – čímž by vlastně uznal, že dáma je úspěšná.
s >98% spolehlivostí (ale bez kvantifikace její schopnosti).
Fisher později diskutoval o výhodách většího počtu pokusů a opakovaných pokusů.
testů.

V úvodu se objevuje jen málo kritiky této techniky.
statistiky. Kritika je zaměřena na použití nebo na
spíše než na metodu.

Kritika testování významnosti nulové hypotézy je k dispozici
v jiných článcích (null-hypothesis a
statistické významnosti) a jejich odkazy.
Útoky a obhajoby testu významnosti nulové hypotézy jsou následující
shromážděny v Harlow et al.

Původní účel Fisherovy formulace, jako nástroje pro
experimentátora bylo naplánovat experiment a snadno vyhodnotit jeho výsledky.
informačního obsahu malého vzorku. Kritiky je málo,
bayesovské povahy, na formulaci v jejím původním kontextu.

V jiných souvislostech se stížnosti zaměřují na chybné výklady právních předpisů.
výsledků a přílišné závislosti na jednom testu.

Četné útoky na formulaci se nepodařilo nahradit ji jako
kritérium pro publikování ve vědeckých časopisech. Nejvíce
nejvytrvalejší útoky pocházely z oblasti psychologie.
Po přezkoumání Americká psychologická asociace výslovně neodsoudila.
testování významnosti nulové hypotézy, ale přijala ji.
rozšířená publikační pravidla, která implicitně snížila relativní
význam takového testování.
Mezinárodní výbor editorů lékařských časopisů uznává.
povinnost publikovat negativní (statisticky nevýznamné) výsledky.
studie za určitých okolností.
Použitelnost testování nulové hypotézy pro publikaci
pozorovacích (na rozdíl od experimentálních) studií je pochybná.

Abyste vyhověli stylovým pravidlům The Psychology Wiki a dodržovali naše zásady týkající se NPOV a ověřitelnosti, uveďte prosím příslušné citace a/nebo poznámky pod čarou.

Někteří statistici poznamenali, že čistě „testování významnosti“ má ve skutečnosti poněkud zvláštní cíl – zjistit existenci „skutečného“ rozdílu mezi dvěma populacemi. V praxi lze při dostatečně velkém vzorku rozdíl nalézt téměř vždy, to, co je obvykle relevantnějším cílem vědy, je určení velikosti kauzálního efektu. Velikost a povaha rozdílu je jinými slovy to, co by se mělo studovat. Mnozí vědci se také domnívají, že testování hypotéz je něco jako nesprávný název. V praxi jeden statistický test v jedné studii nikdy nic „nedokazuje“. [Jak odkazovat a odkazovat na shrnutí nebo text]

„Testování hypotéz“: obecně řečeno, jedná se o nesprávné označení, protože
většina toho, co se označuje jako testování hypotéz, je ve skutečnosti testování hypotéz.
testování nulových hypotéz.“

„Statistiky nic nedokazují.“ „Miliardy podpůrných příkladů
pro absolutní pravdu převáží jediná výjimka.“ „…v
statistice se můžeme pouze snažit vyvrátit nebo falzifikovat.“

I když zamítnete nulovou hypotézu, je třeba vzít v úvahu velikost účinku. Pokud je účinek statisticky významný, ale velikost účinku je velmi malá, pak je na místě považovat účinek za teoreticky významný [Jak odkazovat a odkazovat na shrnutí nebo text].

Filozofická kritika testování hypotéz zahrnuje úvahy o
hraničních případů.

Každý proces, který z nejistoty vytváří jasné rozhodnutí, je
podléhá tvrzení o nespravedlnosti v blízkosti rozhodovacího prahu.
(Vzpomeňme na těsné výsledky voleb.) Předčasná smrt
laboratorní krysy během testování může mít dopad na doktorské práce.
a rozhodování o akademickém titulu.
Clotho, Lachesis a Atropos ještě spřádají, tkají a stříhají
nitky života pod rouškou Pravděpodobnosti [Jak odkazovat a odkazovat na shrnutí nebo text].

„… Bůh jistě miluje 0,06 téměř stejně jako 0,05.“

Statistická významnost požadovaná pro zveřejnění nemá
matematický základ, ale vychází z dlouholeté tradice.

„Pro experimentátory je obvyklé a výhodné brát 5 % jako standard.
hladinu významnosti v tom smyslu, že jsou připraveni ignorovat
všechny výsledky, které této normy nedosahují, a tím se snaží
vyřadit z další diskuse větší část výkyvů.
které do jejich experimentálních výsledků vnesla náhoda.“

Fisher v citovaném článku navrhl experiment, jehož cílem bylo dosáhnout toho.
statisticky významný výsledek na základě odběru 8 šálků čaje.

Ambivalence napadá všechny formy rozhodování. Matematická
rozhodovací proces je atraktivní, protože je objektivní
a transparentní. Je odpudivý, protože umožňuje autoritě, aby
vyhnout se osobní odpovědnosti za rozhodnutí.

Pedagogická kritika testování nulové hypotézy zahrnuje následující.
protiintuitivní formulace, terminologie a zmatek
interpretace výsledků.

„Navzdory tomu, že testování hypotéz má na experimentální
psychologii, je pro mě obtížné představit si méně pronikavý způsob
přechod od dat k závěrům.“

Pro studenty je obtížné pochopit formulaci
statistické testování nulové hypotézy. V rétorice často podporují příklady
argument, ale matematický důkaz „je logický argument, ne
empirický“. Jediný protipříklad vede k tomu, že
zamítnutí domněnky. Karl Popper definoval vědu podle toho, že
zranitelnost vůči vyvrácení důkazu daty. Testování nulové hypotézy sdílí
matematickou a vědeckou perspektivu, spíše než známější
rétorický. Studenti očekávají, že testování hypotéz bude statistickým nástrojem pro
osvětlení výzkumné hypotézy vzorkem; není tomu tak.
Test se nepřímo ptá, zda vzorek může osvětlit hypotézu.
výzkumnou hypotézu.

Studenti také považují terminologii za matoucí. Ačkoli Fisher nesouhlasil s Neymanem a Pearsonem ohledně teorie testování, jejich terminologie se prolínala. Toto prolínání není plynulé ani standardizované. V tomto článku se sice vyučuje čistě Fisherova formulace, ale i v něm je zmíněna Neymanova a Pearsonova terminologie (chyba typu II a alternativní hypotéza). Typický úvodní text statistiky je méně konzistentní. Sage Dictionary of Statistics by nesouhlasil s názvem tohoto článku, který by nazval testováním nulových hypotéz.

„…neexistuje žádná alternativní hypotéza.
ve Fisherově schématu: Vskutku se ostře postavil proti jejímu začlenění do
Neymana a Pearsona.“
Při diskusi o výsledcích testů,
„významnost“ má často v jedné větě dva různé významy;
Jeden je pravděpodobnost, druhý je měření předmětu.
(například měna). Význam (význam) (statistické) významnosti je
významný (důležitý).

V otázce výkladu existuje široká a zásadní neshoda.
výsledků testů.

„Malé zamyšlení odhalí skutečnost, která je mezi statistiky všeobecně známá: Nulová hypotéza, chápaná doslova (a to je jediný způsob, jak ji můžete brát při formálním testování hypotéz), je v reálném světě téměř vždy nepravdivá….. Pokud je nepravdivá, byť jen v nepatrné míře, musí platit, že dostatečně velký vzorek poskytne významný výsledek a povede k jejímu zamítnutí. Pokud je tedy nulová hypotéza vždy nepravdivá, co je na jejím zamítnutí velkého?“ (Výše uvedená kritika se týká pouze bodových testů hypotéz. Pokud bychom například testovali, zda je parametr větší než nula, neplatila by).

„Jak se stalo, že prakticky neplodná technika testování hypotéz získala takový význam v procesu, kterým docházíme k závěrům z našich dat?“

Testování nulové hypotézy pouze odpovídá na otázku, „jak dobře se daří
zjištění odpovídají možnosti, že by náhodné faktory mohly samy o sobě
mohou způsobit náhodné faktory.“

Testování významnosti nulové hypotézy neurčuje pravdivost či nepravdivost.
nepravdivost tvrzení. Určuje, zda je důvěra v tvrzení
založené pouze na odhadu na základě vzorku přesahuje určitou mez. Je to
test zajištění kvality výzkumu, který je široce používán jako jeden z požadavků na
publikace experimentálního výzkumu se statistickými výsledky.
Panuje jednotná shoda, že statistická významnost není jediným
při posuzování významu výsledků výzkumu.
Zamítnutí nulové hypotézy není dostačující podmínkou pro
publikace.

„Statistická významnost nemusí nutně znamenat praktický význam.
význam!“

Praktická kritika testování hypotéz zahrnuje střízlivé závěry.
že publikované výsledky testů jsou často v rozporu.
Matematické modely podporují domněnku, že většina zveřejněných
výsledky testů lékařského výzkumu jsou chybné. Testování nulových hypotéz nemá
dosáhnout cíle nízké pravděpodobnosti chyb v lékařských časopisech.

„Rozpory a zpočátku silnější účinky nejsou v tomto případě neobvyklé.
vysoce citovaných výzkumů klinických intervencí a jejich výsledků.“

„Většina výzkumných zjištění je pro většinu výzkumných designů a pro většinu výzkumných designů nepravdivá
většiny oborů“

Jones a Tukey navrhli mírné zlepšení původního modelu.
formulaci nulové hypotézy, aby se formalizovalo zpracování jednoocasových testů.
Fisher ignoroval případ 8 neúspěchů (stejně nepravděpodobný jako 8 úspěchů).
) v příkladovém čajovém testu, což změnilo deklarovanou významnost.
o faktor 2.

Killeen navrhl alternativní statistiku, která odhaduje.
pravděpodobnost duplikace experimentálního výsledku. Ta „poskytuje všechny
informace, které se nyní používají při hodnocení výzkumu, a přitom se vyhýbá
mnoha úskalím tradiční statistické inference“.

Průměr (aritmetický, geometrický) – Medián – Modus – Výkon – Rozptyl – Směrodatná odchylka

Testování hypotéz – Významnost – Nulová hypotéza / Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkce přežití – Kaplan-Meierův test – Logrankův test – Míra selhání – Modely proporcionálních rizik

Normální (zvonová křivka) – Poissonova – Bernoulliho

Zkreslující proměnná – Pearsonův korelační koeficient součinu a momentu – Korelace pořadí (Spearmanův korelační koeficient pořadí, Kendallův korelační koeficient pořadí tau)

Lineární regrese – Nelineární regrese – Logistická regrese