Chyby typu I (nebo α chyba, nebo falešně pozitivní) a chyby typu II (β chyba, nebo falešně negativní) jsou dva pojmy používané k popisu statistických chyb.
Statistická chyba vs. systematická chyba
Vědci rozeznávají dva různé druhy chyb:
Statistická chyba: Typ I a typ II
Statistici hovoří o dvou významných druzích statistických chyb. Kontext je takový, že existuje „nulová hypotéza“, která odpovídá předpokládanému výchozímu „stavu přírody“, např. že jedinec je prost nemoci, že obviněný je nevinný nebo že potenciální přihlašovací kandidát není oprávněn. S nulovou hypotézou odpovídá „alternativní hypotéza“, která odpovídá opačné situaci, tj. že jedinec má nemoc, že obviněný je vinen nebo že přihlašovací kandidát je oprávněný uživatel. Cílem je přesně určit, zda lze nulovou hypotézu zavrhnout ve prospěch alternativy. Provede se nějaký test (krevní test, soudní proces, pokus o přihlášení) a získají se data. Výsledek testu může být negativní (to znamená, že neukazuje nemoc, vinu nebo oprávněnou identitu). Na druhou stranu může být pozitivní (to znamená, že může ukazovat nemoc, vinu nebo identitu). Pokud výsledek testu neodpovídá skutečnému stavu přírody, pak došlo k chybě, ale pokud výsledek testu odpovídá skutečnému stavu přírody, pak bylo učiněno správné rozhodnutí. Existují dva druhy chyb, klasifikované jako „chyba typu I“ a „chyba typu II“, podle toho, která hypotéza byla nesprávně identifikována jako skutečný stav přírody.
Chyba typu I, známá také jako „chyba prvního druhu“, α chyba nebo „falešně pozitivní“: chyba odmítnutí nulové hypotézy, když je skutečně pravdivá. Zjednodušeně řečeno, nastává, když pozorujeme rozdíl, když ve skutečnosti žádný není.
Falešně pozitivní obvykle znamená, že test tvrdí, že je něco pozitivní, pokud tomu tak není. Například těhotenský test s pozitivním výsledkem (který ukazuje, že osoba, která test provádí, je těhotná) přinesl falešně pozitivní výsledek v případě, že daná osoba není těhotná.
Chyba typu II, také známá jako „chyba druhého druhu“, β chyba, nebo „falešně negativní“: chyba, kdy se nepodaří odmítnout nulovou hypotézu, když alternativní hypotéza je skutečným stavem přírody. Jinými slovy, jedná se o chybu, kdy se nepodaří pozorovat rozdíl, když ve skutečnosti existuje. Tento typ chyby se může objevit pouze tehdy, když statistik neodmítne nulovou hypotézu.
Další terminologie viz níže uvedené Různé návrhy na další rozšíření.
Porozumění chybám typu I a typu II
Testování hypotéz je umění otestovat, zda variace mezi dvěma rozloženími vzorků může být vysvětlena náhodou nebo ne. V mnoha praktických aplikacích jsou chyby typu I choulostivější než chyby typu II. V těchto případech je obvykle pozornost zaměřena na minimalizaci výskytu této statistické chyby. Předpokládejme, že pravděpodobnost chyby typu I je 1% nebo 5%, pak je zde 1% nebo 5% šance, že pozorovaná variace není pravdivá. To se nazývá úroveň významnosti. Zatímco 1% nebo 5% může být přijatelná úroveň významnosti pro jednu aplikaci, jiná aplikace může vyžadovat velmi odlišnou úroveň. Například standardním cílem šesti sigma je dosáhnout přesnosti o 4,5 směrodatné odchylky nad nebo pod průměrem. To znamená, že pro normálně rozložený proces je povoleno mít nedostatek pouze 3,4 částic na milion. Pravděpodobnost chyby typu I je obecně označena řeckým písmenem alfa.
V roce 1928 Jerzy Neyman (1894-1981) a Egon Pearson (1895-1980), oba významní statistici, diskutovali o problémech spojených s „rozhodováním o tom, zda určitý vzorek může nebo nemůže být považován za náhodně vybraný z určité populace“ (1928/1967, str.1): a, jak poznamenal David, „je nutné mít na paměti přídavné jméno „náhodný“ [v pojmu „náhodný vzorek“] by se mělo vztahovat na metodu výběru vzorku a ne na vzorek samotný“ (1949, str.28).
V roce 1933 si všimli, že tyto „problémy jsou zřídka prezentovány v takové formě, že můžeme s jistotou rozlišovat mezi pravdivou a falešnou hypotézou“ (str.187). Poznamenali také, že při rozhodování, zda přijmout či odmítnout určitou hypotézu mezi „souborem alternativních hypotéz“ (str.201), bylo snadné udělat chybu:
Ve všech dokumentech, které napsali Neyman a Pearson, výraz H0 vždy znamená „hypotéza, která má být testována“ (viz např. 1933/1967, str.186).
Tyto příklady ilustrují nejednoznačnost, která je jedním z nebezpečí tohoto širšího použití: Předpokládají, že mluvčí testuje na vinu; mohou být také použity obráceně, jako testování na nevinu; nebo mohou být použity dva testy, jeden na vinu, druhý na nevinu. (Tato nejednoznačnost je jedním z důvodů pro třetí možný verdikt skotského právního systému: neprokázáno.)
Následující tabulky znázorňují podmínky.
Příklad, použití výsledků testů infekčních chorob:
Příklad, testování na vinen/nevinen:
Všimněte si, že při odkazování na výsledky testů se termíny true a false používají dvěma různými způsoby: stavem skutečné podmínky (true=přítomnost versus false=nepřítomnost); a přesností nebo nepřesností výsledku testu (true positive, false positive, true negative, false negative). To je pro některé čtenáře matoucí. Pro objasnění výše uvedených příkladů jsme použili spíše present/absent než true/false pro odkazování na skutečnou testovanou podmínku.
Falešně pozitivní míra je podíl negativních případů, které byly chybně hlášeny jako pozitivní.
Je to rovno 1 minus specifičnost testu. To se rovná tvrzení, že falešně pozitivní míra je rovna hladině významnosti.
Při testování statistických hypotéz je tomuto zlomku dán symbol α a je definován jako specifičnost testu. Zvýšení specifičnosti testu snižuje pravděpodobnost chyb typu I, ale zvyšuje pravděpodobnost chyb typu II (falešné negativy, které odmítají alternativní hypotézu, když je pravdivá).
Falešně negativní míra je podíl pozitivních případů, které byly chybně vykázány jako negativní.
Je to rovno 1 minus „výkon“ zkoušky.
Při testování statistických hypotéz je tato frakce dána symbolem β.
Je běžnou praxí, že statistici provádějí testy, aby určili, zda lze či nelze podpořit „spekulativní hypotézu“ týkající se pozorovaných jevů světa (nebo jeho obyvatel). Výsledky těchto testů určují, zda konkrétní soubor výsledků rozumně souhlasí (nebo nesouhlasí) se spekulativní hypotézou.
Na základě toho, že se vždy na základě statistické konvence předpokládá, že spekulovaná hypotéza je chybná – a že pozorované jevy se prostě vyskytují náhodně (a že v důsledku toho nemá spekulovaný činitel žádný vliv) – test určí, zda je hypotéza správná nebo chybná. To je důvod, proč je testovaná hypotéza často nazývána „nulovou hypotézou“ (nejpravděpodobněji vytvořenou Fisherem (1935, s. 19)), protože právě tato hypotéza má být testem buď anulována nebo anulována.
Důsledné uplatňování Neymanovy a Pearsonovy konvence představující „hypotézu, která má být testována“ (nebo „hypotézu, která má být anulována“) statistiky s výrazem Ho vedlo k okolnostem, kdy mnozí chápou termín „nulová hypotéza“ jako význam „nulová hypotéza“ – tvrzení, že dotyčné výsledky vznikly náhodou. To nemusí být nutně tento případ – klíčové omezení podle Fishera (1966) je, že „nulová hypotéza musí být přesná, která je prostá neurčitosti a nejednoznačnosti, protože musí dodávat základ ‚problému distribuce‘, jehož řešením je test významnosti.“ V důsledku toho je v experimentální vědě nulová hypotéza obecně konstatováním, že určité ošetření nemá žádný účinek; v observační vědě je to, že neexistuje rozdíl mezi hodnotou určité měřené veličiny a hodnotou experimentální předpovědi.
Míra, do jaké dotyčný test ukazuje, že „spekulovaná hypotéza“ byla (nebo nebyla) anulována, se nazývá její hladina významnosti; a čím vyšší je hladina významnosti, tím je méně pravděpodobné, že dotyčný jev mohl vzniknout pouhou náhodou. Britský statistik Sir Ronald Aylmer Fisher (1890–1962) zdůraznil, že „nulová hypotéza“:
Pravděpodobnost, že pozorovaný pozitivní výsledek je falešně pozitivní (v kontrastu s pozorovaným pozitivním výsledkem je pravdivě pozitivní), lze vypočítat pomocí Bayesovy věty.
Klíčovým konceptem Bayesovy věty je, že skutečné míry falešně pozitivních a falešně negativních nejsou funkcí samotné přesnosti testu, ale také skutečné míry nebo frekvence výskytu v testované populaci; a často, silnější otázkou je skutečné míry stavu v testovaném vzorku.
Různé návrhy na další prodloužení
Vzhledem k tomu, že párované pojmy chyb typu I (nebo „falešné pozitivy“) a chyb typu II (nebo „falešné negativy“), které zavedli Neyman a Pearson, jsou nyní široce používány, jejich volba terminologie („chyby prvního druhu“ a „chyby druhého druhu“) vedla ostatní k domněnce, že určité druhy chyb, které identifikovali, mohou být „chybou třetího druhu“, „čtvrtého druhu“ atd.
Žádná z těchto navrhovaných kategorií se nesetkala s jakýmkoli širokým přijetím. Následuje stručný výčet některých těchto návrhů.
V roce 1948 Frederick Mosteller (1916-) tvrdil, že „třetí druh omylu“ byl povinen popsat okolnosti, které pozoroval, a to:
Ve své práci z roku 1966 rozšířil Henry F. Kaiser (1927-1992) Mostellerovu klasifikaci tak, že chyba třetího druhu znamenala nesprávné rozhodnutí směru po odmítnutém dvoustranném testu hypotézy. Ve své diskusi (1966, s. 162-163) Kaiser také hovoří o chybách α, β a γ pro chyby typu I, typu II a typu III.
V roce 1957 Allyn W. Kimball, statistik z Oak Ridge National Laboratory, navrhl jiný druh chyby, která by stála vedle „prvního a druhého typu chyby v teorii testovacích hypotéz“. Kimball definoval tuto novou „chybu třetího druhu“ jako „chybu, které se dopustil tím, že dal správnou odpověď na špatný problém“ (1957, s. 134).
Matematik Richard Hamming (1915-1998) vyjádřil svůj názor, že „je lepší vyřešit správný problém špatným způsobem než vyřešit špatný problém správným způsobem“.
Slavný harvardský ekonom Howard Raiffa popisuje událost, kdy i on „padl do pasti práce na nesprávném problému“ (1968, s. 264-265).
V roce 1974 Ian Mitroff a Tom Featheringham rozšířili Kimballovu kategorii s argumentem, že „jedním z nejdůležitějších determinantů řešení problému je to, jak byl daný problém reprezentován nebo formulován“.
Definovali chyby typu III buď jako „chybu… z toho, že jsme vyřešili nesprávný problém… když jsme měli vyřešit správný problém“ nebo „chybu… [z] výběru nesprávné reprezentace problému… když jsme měli… vybrat správnou reprezentaci problému“ (1974), str.383).
V roce 1969 harvardský ekonom Howard Raiffa žertem navrhl „kandidáta na chybu čtvrtého druhu: řešení správného problému příliš pozdě“ (1968, str.264).
V roce 1970 navrhli Marascuilo a Levin „čtvrtý druh chyby“ – „chybu typu IV“ –, kterou definovali způsobem podobným Mostellerovi jako chybu „nesprávné interpretace správně odmítnuté hypotézy“; která, jak naznačili, byla ekvivalentem „lékařovy správné diagnózy onemocnění následované předpisem nesprávného léku“ (1970, str.398).
Prahovou hodnotu lze měnit tak, aby test byl více omezující nebo citlivější; s více omezujícími testy se zvyšuje riziko odmítnutí skutečných pozitiv a s více citlivými testy se zvyšuje riziko přijetí falešných pozitiv.
Pojmy „falešná pozitiva“ a „falešná negativa“ mají širokou váhu v oblasti počítačů a počítačových aplikací.
Bezpečnostní zranitelnosti jsou důležitým hlediskem při úkolu udržet všechna počítačová data v bezpečí a zároveň zachovat přístup k těmto datům pro příslušné uživatele (viz počítačová bezpečnost, počítačová nejistota). Moulton (1983), zdůrazňuje význam:
Falešně pozitivní nastane, když techniky „filtrování spamu“ nebo „blokování spamu“ nesprávně klasifikují legitimní e-mailovou zprávu jako spam a v důsledku toho narušují její doručení. Zatímco většina antispamových taktik dokáže blokovat nebo filtrovat vysoké procento nežádoucích e-mailů, dělat to bez vytváření významných falešně pozitivních výsledků je mnohem náročnější úkol.
Falešný negativ nastává, když spamový e-mail není detekován jako spam, ale je klasifikován jako „non-spam“. Nízký počet falešných negativů je ukazatelem účinnosti metod „filtrování spamu“.
Termín false positive se používá také tehdy, když antivirový software nesprávně klasifikuje neškodný soubor jako virus. Nesprávná detekce může být způsobena heuristikou nebo nesprávným podpisem viru v databázi. Podobné problémy se mohou objevit u antitrojanského nebo antispywarového softwaru.
Vyhledávání v počítačové databázi
Při vyhledávání v počítačové databázi jsou falešně pozitivní dokumenty, které jsou odmítnuty vyhledáváním navzdory jejich významu pro vyhledávací otázku. Falešně negativní jsou dokumenty, které jsou vyhledáváním získány navzdory jejich nepodstatnosti pro vyhledávací otázku. Falešně negativní jsou běžné při fulltextovém vyhledávání, při kterém vyhledávací algoritmus zkoumá celý text ve všech uložených dokumentech a snaží se najít shodu s jedním nebo více vyhledávacími výrazy, které uživatel zadal. Zvažte, jak to souvisí s filtrováním spamu – je přísnější nenačíst dokument, který chcete, než získat dokument, který nechcete.
Většina falešných pozitiv může být přičítána nedostatkům přirozeného jazyka, který je často nejednoznačný: např. termín „domov“ může znamenat „obydlí osoby“ nebo „hlavní či nejvyšší úroveň stránky na webu“.
Optické rozpoznávání znaků (OCR)
Detekční algoritmy všeho druhu často vytvářejí falešná pozitiva. Software pro optické rozpoznávání znaků (OCR) může detekovat „a“ tam, kde jsou jen některé tečky, které se pro použitý algoritmus jeví jako „a“.
Falešná pozitiva se běžně vyskytují každý den při bezpečnostních prověrkách na letištích. Instalované bezpečnostní alarmy mají zabránit vnášení zbraní do letadel; přesto jsou často nastaveny na tak vysokou citlivost, že mnohokrát denně alarmují kvůli drobnostem, jako jsou klíče, přezky opasků, drobné, mobilní telefony a připínáčky v botách (viz detekce výbušnin, detektor kovů).
Poměr falešných pozitiv (identifikace nevinného cestujícího jako teroristy) ke skutečným pozitivům (odhalení rádoby teroristy) je proto velmi vysoký; a protože téměř každý poplach je falešně pozitivní, je pozitivní prediktivní hodnota těchto screeningových testů velmi nízká.
Biometrické ověřování, například u otisků prstů, rozpoznávání obličeje nebo
rozpoznávání duhovky, je náchylné k chybám typu I a typu II. Standardní
biometrická terminologie pro tyto chyby je:
FAR může být také zkratka pro frekvenci falešných poplachů, podle toho, zda
je biometrický systém navržen tak, aby umožňoval přístup nebo rozpoznával podezřelé. FAR je
považován za měřítko bezpečnosti systému, zatímco FRR měří míru
nepohodlí pro uživatele. U mnoha systémů je FRR z velké části způsoben nízkou kvalitou
snímků, kvůli nesprávnému umístění nebo osvětlení. Termín FMR/FNMR je někdy
preferován před FAR/FRR, protože prvně jmenovaný měří míry pro každé biometrické srovnání, zatímco
druhý měří výkon aplikace (tj. mohou být povoleny tři pokusy).
Pro použití těchto opatření pro biometrické systémy je třeba upozornit na několik omezení:
V lékařské praxi existuje významný rozdíl mezi využitím screeningu a testování:
Například většina států v USA vyžaduje, aby novorozenci byli vyšetřeni na fenylketonurii a hypotyreózu, kromě jiných vrozených poruch. I když vykazují vysokou míru falešně pozitivních výsledků, jsou screeningové testy považovány za cenné, protože značně zvyšují pravděpodobnost odhalení těchto poruch v mnohem ranějším stádiu.
Jednoduché krevní testy, které se používají k vyšetření možných dárců krve na HIV a hepatitidu, mají značnou míru falešných pozitiv; lékaři však používají mnohem dražší a mnohem přesnější testy, aby zjistili, zda je člověk skutečně nakažen některým z těchto virů.
Zřejmě nejvíce diskutovanými falešnými pozitivy v lékařském screeningu jsou mamografické vyšetření rakoviny prsu. Podíl falešně pozitivních mamografických vyšetření v USA je až 15%, což je nejvíce na světě. Nejnižší podíl na světě je v Nizozemsku, 1%.
Pokud se tedy člověk rozhodne použít lékařský test pro účely plošného screeningu, musí být test navržen tak, aby byl levný, snadno proveditelný a pokud možno nevykazoval žádné falešně negativní výsledky. Takové testy obvykle produkují více falešně pozitivních výsledků, které mohou být následně vyřešeny sofistikovanějším (a nákladnějším) testováním.
Falešné negativy a Falešné pozitivy jsou významné otázky v lékařských testech.
Falešně negativní mohou poskytnout falešně uklidňující zprávu pro pacienty a lékaře, že nemoc chybí, když je skutečně přítomen. To někdy vede k nevhodné nebo nedostatečné léčbě jak pacienta, tak jejich onemocnění. Běžným příkladem je spoléhání se na srdeční zátěžové testy pro detekci koronární aterosklerózy, i když srdeční zátěžové testy jsou známy pouze pro detekci omezení průtoku krve koronárních tepen v důsledku pokročilé stenózy.
Falešné negativy vyvolávají vážné a kontraintuitivní problémy, zejména pokud je hledaný stav běžný. Pokud se použije test s falešně negativní mírou pouze 10%, který testuje populaci s pravdivou mírou výskytu 70%, mnoho „negativů“ zjištěných testem bude falešných. (Viz Bayesova věta)
Falešně pozitivní mohou také způsobit vážné a neintuitivní problémy, pokud je hledaný stav vzácný, jako při screeningu. Pokud má test falešně pozitivní poměr jedna ku deseti tisícům, ale pouze jeden z milionu vzorků (nebo lidí) je skutečně pozitivní, většina „pozitivních“ zjištěných tímto testem bude falešná.
Pojem falešně pozitivní přijali ti, kteří zkoumají paranormální nebo duchařské jevy, aby popsali fotografii, záznam nebo jiný důkaz, který se nesprávně jeví jako mající paranormální původ — v tomto použití je falešně pozitivní vyvrácený mediální „důkaz“ (obraz, film, zvukový záznam atd.), který má normální vysvětlení.
Průměr (Aritmetika, Geometrie) – Medián – Režim – Výkon – Odchylka – Směrodatná odchylka
Testování hypotéz – Význam – Nullova hypotéza/Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu
Funkce přežití – Kaplan-Meier – Logrank test – Četnost selhání – Proporcionální modely nebezpečnosti
Normal (zvonová křivka) – Poisson – Bernoulli
Matoucí veličina – Pearsonův korelační koeficient produktového momentu – Rank korelace (Spearmanův korelační koeficient hodnosti, Kendall tau korelační koeficient hodnosti)
Lineární regrese – Nelineární regrese – Logistická regrese