Senzitivita a specifičnost jsou statistická měřítka výkonnosti binárního klasifikačního testu, ve statistice také známá jako klasifikační funkce. Senzitivita (v některých oblastech také nazývaná jako skutečná pozitivní míra nebo míra návratovosti) měří podíl skutečných pozitivních, které jsou správně identifikovány jako takové (např. procento nemocných lidí, kteří jsou správně identifikováni jako nemocní). Specifičnost měří podíl negativních, které jsou správně identifikovány jako takové (např. procento zdravých lidí, kteří jsou správně identifikováni jako nemocní, někdy nazývaná jako skutečná negativní míra). Tato dvě měřítka úzce souvisejí s pojmy chyb typu I a typu II. Perfektní prediktor by byl popsán jako 100% citlivý (tj. predikce všech lidí ze skupiny nemocných jako nemocných) a 100% specifický (tj. nepředpovídání nikoho ze skupiny zdravých jako nemocných); nicméně teoreticky každý prediktor bude mít minimální chybovou hranici známou jako Bayesova chybová míra.
U každého testu obvykle dochází ke kompromisu mezi opatřeními. Například: v bezpečnostním nastavení letiště, ve kterém se testuje potenciální ohrožení bezpečnosti, mohou být skenery nastaveny tak, aby spouštěly nízkorizikové předměty, jako jsou spony a klíče opasků (nízká specifičnost), aby se snížilo riziko chybějících předmětů, které představují ohrožení letadla a osob na palubě (vysoká citlivost). Tento kompromis lze graficky znázornit jako křivku provozních charakteristik přijímače.
Představte si studii hodnotící nový test, který vyšetřuje lidi na nemoc. Každá osoba, která test provádí, buď má, nebo nemá nemoc. Výsledek testu může být pozitivní (předpovídá, že osoba má nemoc) nebo negativní (předpovídá, že osoba nemá nemoc). Výsledky testu pro každý subjekt mohou, ale nemusí odpovídat skutečnému stavu subjektu. V tomto nastavení:
Obecně platí, že pozitivní = identifikovaný a negativní = odmítnutý.
Proto:
Citlivost se týká schopnosti testu identifikovat pozitivní výsledky.
Citlivost testu je podíl lidí, o nichž je známo, že mají tuto nemoc, kteří na ni mají pozitivní test.
Lze to také zapsat jako:
Opět si vezměme příklad lékařského testu, který se používá k identifikaci nemoci.
„Falešná“ testovací souprava, která vždy indikuje pozitivní výsledek bez ohledu na stav nemoci pacienta, dosáhne z teoretického hlediska 100% citlivosti.
Je to proto, že v tomto případě neexistují vůbec žádné negativní výsledky a falešné pozitivní výsledky nejsou započítány do definice citlivosti.
Proto nelze použít citlivost sama o sobě k určení, zda je test užitečný v praxi.
Citlivost není stejná jako přesnost nebo kladná prediktivní hodnota (poměr pravdivých pozitivů ke kombinovaným pravdivým a falešným pozitivům), která je stejně tak výrokem o podílu skutečných pozitivů v testované populaci jako o testu.
Výpočet citlivosti nebere v úvahu neurčité výsledky testu.
Pokud test nelze opakovat, neurčité vzorky by měly být buď vyloučeny z analýzy (počet vyloučení by měl být uveden při citování citlivosti), nebo mohou být považovány za falešně negativní (což dává nejhorší možnou hodnotu citlivosti, a proto ji lze podcenit).
Test s vysokou citlivostí má nízkou chybovost typu II.
V nelékařských podmínkách se citlivost někdy nazývá recall.
Specifičnost se týká schopnosti testu identifikovat negativní výsledky.
Vezměme si příklad lékařského testu použitého k identifikaci nemoci.
Specifičnost testu je definována jako podíl pacientů, o kterých je známo, že nemoc nemají, kteří budou testováni negativně.
To lze také zapsat jako:
Z teoretického hlediska dosáhne „falešná“ testovací souprava, která vždy indikuje negativní výsledek bez ohledu na stav onemocnění pacienta, 100% specifičnosti, protože neexistují žádné pozitivní výsledky a falešné negativní výsledky nejsou z definice započítány.
Vysoce specifické testy však jen zřídka míjejí negativní výsledky, takže je lze považovat za spolehlivé, pokud je jejich výsledek pozitivní.
Proto pozitivní výsledek testu s vysokou specificitou znamená vysokou pravděpodobnost výskytu onemocnění.
Test s vysokou specificitou má nízkou chybovost typu I.
Citlivost testu je v lékařské diagnostice schopnost testu správně identifikovat osoby s onemocněním (true positive rate), zatímco specifičnost testu je schopnost testu správně identifikovat osoby bez onemocnění (true negative rate).
Pokud bylo testováno 100 pacientů s onemocněním a 43 pacientů mělo pozitivní test, pak má test 43% citlivost. Pokud je testováno 100 pacientů bez onemocnění a 96 vrátí negativní výsledek, pak má test 96% specifičnost. Citlivost a specifičnost jsou charakteristiky testu nezávislé na prevalenci, protože jejich hodnoty jsou vlastní testu a nezávisí na prevalenci onemocnění v sledované populaci. Pozitivní a negativní prediktivní hodnoty, ale ne citlivost nebo specifičnost, jsou hodnoty ovlivněné prevalencí onemocnění v testované populaci.
Často se tvrdí, že vysoce specifický test je účinný při rozhodování o nemoci, když je pozitivní, zatímco vysoce citlivý test je považován za účinný při rozhodování o nemoci, když je negativní. To vedlo k široce používané mnemonice SPIN a SNOUT, podle které vysoce SPecifický test, když pozitivní, pravidla IN nemoc (SP-P-IN), a vysoce ‚SeNsitivní‘ test, když negativní pravidla OUT nemoc (SN-N-OUT). Obě pravidla palce jsou, jakkoli, inferentně zavádějící, protože diagnostická síla každého testu je určena citlivostí i specifičností.
Odhad chyb v citované citlivosti nebo specifičnosti
Hodnoty citlivosti a specifičnosti mohou být samy o sobě velmi zavádějící. Citlivost nebo specifičnost v „nejhorším případě“ musí být vypočtena, aby se předešlo spoléhání na experimenty s malými výsledky. Například konkrétní test může snadno ukázat 100% citlivost, pokud je testován proti zlatému standardu čtyřikrát, ale jediný dodatečný test proti zlatému standardu, který by dal špatný výsledek, by znamenal citlivost pouze 80%. Běžným způsobem, jak to udělat, je uvést interval spolehlivosti binomického poměru, často vypočítaný pomocí Wilsonova skórovacího intervalu.
Lze vypočítat intervaly spolehlivosti pro citlivost a specificitu, což udává rozsah hodnot, ve kterých leží správná hodnota na dané úrovni spolehlivosti (např. 95%).
Terminologie v získávání informací
Při získávání informací se kladná prediktivní hodnota nazývá přesnost a citlivost se nazývá vyvolání.
F-skóre může být použito jako jediné měření výkonu testu. F-skóre je harmonický průměr přesnosti a připomenutí:
V tradičním jazyce testování statistických hypotéz se citlivost testu nazývá statistická síla testu, i když slovo moc má v tomto kontextu obecnější použití, které není v daném kontextu použitelné. Citlivý test bude mít méně chyb typu II.