Binární klasifikace

Binární nebo binomická klasifikace je úkol klasifikace členů dané množiny objektů do dvou skupin na základě toho, zda mají nějakou vlastnost nebo ne. Některé typické binární klasifikační úkoly jsou

Statistická klasifikace obecně je jedním z problémů studovaných v informatice, aby se automaticky naučily klasifikační systémy; některé metody vhodné pro učení binárních klasifikátorů zahrnují rozhodovací stromy, bayesovské sítě, podpůrné vektorové stroje, neuronové sítě, probitovou regresi a logitovou regresi.

Klasifikační úlohy jsou někdy triviální. Když člověk s normálním barevným viděním dostane 100 kuliček, z nichž některé jsou červené a jiné modré, může je snadno rozdělit na červené a modré. Nicméně některé úlohy, jako ty v praktické medicíně a ty zajímavé z hlediska informatiky, zdaleka nejsou triviální a mohou vést k chybným výsledkům, pokud jsou prováděny nepřesně.

V tradičním testování statistických hypotéz tester začíná s nulovou hypotézou a alternativní hypotézou, provede experiment a pak se rozhodne, zda nulovou hypotézu odmítne ve prospěch alternativní. Testování hypotéz je proto binární klasifikací zkoumané hypotézy.

Kladný nebo statisticky významný výsledek je takový, který odmítá nulovou hypotézu. Dělat to, když je nulová hypotéza ve skutečnosti pravdivá – falešně pozitivní – je chyba typu I; dělat to, když je nulová hypotéza falešná, znamená pravdivě pozitivní výsledek. Záporný nebo statisticky nevýznamný výsledek je takový, který neodmítá nulovou hypotézu. Dělat to, když je nulová hypotéza ve skutečnosti nepravdivá – falešně negativní – je chyba typu II; dělat to, když je nulová hypotéza pravdivá, znamená pravdivě negativní výsledek.

Vyhodnocení binárních klasifikátorů

Ze zmatené matice můžete odvodit čtyři základní míry

Pro měření výkonu lékařského testu se často používají pojmy citlivost a specifičnost; tyto pojmy jsou snadno použitelné pro hodnocení jakéhokoli binárního klasifikátoru. Řekněme, že testujeme některé lidi na přítomnost nemoci. Někteří z těchto lidí mají nemoc a náš test říká, že jsou pozitivní. Nazývají se pravdivými pozitivy (TP). Někteří mají nemoc, ale test tvrdí, že ne. Nazývají se falešnými negativy (FN). Někteří nemají nemoc a test říká, že ne – pravdivými negativy (TN). Konečně mohou existovat zdraví lidé, kteří mají pozitivní výsledek testu – falešnými pozitivy (FP). Počet pravdivých pozitivů, falešných negativů, pravdivých negativů a falešných pozitivů tedy dohromady tvoří 100% souboru.

Specifičnost (TNR) je podíl osob, které byly testovány negativně (TN) ze všech osob, které jsou skutečně negativní (TN+FP). Stejně jako u citlivosti, lze se na to dívat jako na pravděpodobnost, že výsledek testu je negativní vzhledem k tomu, že pacient není nemocný. S vyšší specificitou, méně zdravých lidí je označeno jako nemocní (nebo, v továrním případě, méně peněz továrna ztrácí vyřazováním dobrých výrobků místo jejich prodeje).

Senzitivita (TPR), také známá jako recall, je podíl lidí, kteří měli pozitivní test (TP) ze všech lidí, kteří jsou skutečně pozitivní (TP+FN). Lze ji chápat jako pravděpodobnost, že je test pozitivní vzhledem k tomu, že pacient je nemocný. S vyšší citlivostí méně skutečných případů onemocnění zůstává neodhaleno (nebo, v případě kontroly kvality v továrně, méně vadných výrobků jde na trh).

Vztah mezi citlivostí a specificitou, stejně jako výkon klasifikátoru, lze vizualizovat a studovat pomocí křivky ROC.

Teoreticky jsou citlivost a specifičnost nezávislé v tom smyslu, že je možné dosáhnout 100% v obou případech (například v příkladu červená/modrá kulička uvedeném výše). V praktičtějších, méně vykonstruovaných případech však obvykle dochází ke kompromisu, který je do určité míry nepřímo úměrný jeden druhému. Je to proto, že málokdy měříme skutečnou věc, kterou bychom chtěli klasifikovat; spíše obecně měříme ukazatel věci, kterou bychom chtěli klasifikovat, označovaný jako náhradní ukazatel. Důvodem, proč je 100% dosažitelných v příkladu s kuličkou, je to, že zarudnutí a modř je určena přímým detekováním zarudnutí a modři. Ukazatele jsou však někdy ohroženy, například když neindimetry napodobují indikátory nebo když jsou indikátory závislé na čase a stávají se zřejmými až po určité prodlevě. Následující příklad těhotenského testu takový indikátor využije.

Moderní těhotenské testy nepoužívají samotné těhotenství ke stanovení stavu těhotenství; spíše se používá lidský choriový gonadotropin, neboli hCG, přítomný v moči gravidních samic, jako náhradní marker indikující, že žena je těhotná. Protože hCG může být také produkován nádorem, specifičnost moderních těhotenských testů nemůže být 100% (v tom, že jsou možné falešně pozitivní). Také proto, že hCG je po oplodnění a časné embryogenezi přítomen v moči v tak malých koncentracích, citlivost moderních těhotenských testů nemůže být 100% (v tom, že jsou možné falešně negativní).

Kromě citlivosti a specifičnosti lze výkon binárního klasifikačního testu měřit pomocí pozitivní prediktivní hodnoty (PPV), také známé jako přesnost, a negativní prediktivní hodnoty (NPV). Kladná predikční hodnota odpovídá na otázku „Pokud je výsledek testu pozitivní, jak dobře to predikuje skutečnou přítomnost nemoci?“. Vypočítá se jako (pravdivé pozitivy) / (pravdivé pozitivy + falešné pozitivy); to znamená, že je to podíl pravdivých pozitiv ze všech pozitivních výsledků. (Záporná predikční hodnota je stejná, ale pro negativy přirozeně.)

Mezi oběma koncepty je jeden zásadní rozdíl: citlivost a specificita jsou nezávislé na populaci v tom smyslu, že se nemění v závislosti na testovaném podílu pozitivních a negativních výsledků. Citlivost testu může být skutečně určena testováním pouze pozitivních případů. Předpovědní hodnoty jsou však závislé na populaci.

Konečně, přesnost měří zlomek všech instancí, které jsou správně kategorizovány; je to poměr počtu správných klasifikací k celkovému počtu správných nebo nesprávných klasifikací.

Jako příklad předpokládejme, že existuje test na onemocnění s 99% citlivostí a 99% specificitou. Pokud je testováno 2000 lidí, 1000 z nich je nemocných a 1000 z nich je zdravých. Asi 990 pravdivých pozitiv 990 pravdivých negativů je pravděpodobných, s 10 falešnými pozitivy a 10 falešnými negativy. Pozitivní a negativní predikční hodnoty by byly 99%, takže může být vysoká důvěra ve výsledek.

Je-li však z 2000 osob pouze 100 skutečně nemocných: pravděpodobným výsledkem je 99 pozitivních, 1 falešně negativní, 1881 pravdivých negativních a 19 falešně pozitivních. Z 19+99 osob, které byly testovány pozitivně, má pouze 99 skutečně tuto nemoc – to intuitivně znamená, že vzhledem k tomu, že výsledek testu pacienta je pozitivní, existuje pouze 84% šance, že pacient má skutečně tuto nemoc. Na druhou stranu, vzhledem k tomu, že výsledek testu pacienta je negativní, existuje pouze 1 šance v roce 1882, neboli 0,05% pravděpodobnost, že pacient má tuto nemoc i přes výsledek testu.

Převod spojitých hodnot na binární

Testy, jejichž výsledky jsou kontinuální hodnoty, například většina krevních hodnot, mohou být uměle binární definováním mezní hodnoty, přičemž výsledky testů jsou označeny jako pozitivní nebo negativní v závislosti na tom, zda je výsledná hodnota vyšší nebo nižší než mezní hodnota.

Taková konverze však způsobuje ztrátu informací, protože výsledná binární klasifikace neříká, jak moc je hodnota nad nebo pod hranicí. V důsledku toho je při převodu spojité hodnoty, která je blízko hranice, na hodnotu binární výsledná kladná nebo záporná prediktivní hodnota obecně vyšší než prediktivní hodnota daná přímo ze spojité hodnoty. V takových případech označení testu buď jako pozitivní nebo negativní vyvolává zdání nepřiměřeně vysoké jistoty, zatímco hodnota je ve skutečnosti v intervalu nejistoty. Například při koncentraci hCG v moči jako spojité hodnotě může těhotenský test v moči, který naměřil 52 mIU/ml hCG, ukázat jako „pozitivní“ s 50 mIU/ml jako hranicí, ale ve skutečnosti je v intervalu nejistoty, který může být patrný pouze při znalosti původní spojité hodnoty. Na druhou stranu výsledek testu velmi daleko od mezní hodnoty má obecně výslednou pozitivní nebo negativní prediktivní hodnotu, která je nižší než prediktivní hodnota daná kontinuální hodnotou. Například hodnota hCG v moči 200 000 mIU/ml dává velmi vysokou pravděpodobnost otěhotnění, ale přepočet na binární hodnoty vede k tomu, že ukazuje stejně „pozitivní“ jako hodnota 52 mIU/ml.