Cohenův koeficient kappa je statistické měřítko shody mezi hodnotiteli pro kvalitativní (kategorické) položky. Obecně se má za to, že je to robustnější měřítko než jednoduchý výpočet procentuální shody, protože κ bere v úvahu shodu, která se vyskytuje náhodou. Někteří výzkumníci (např. Strijbos, Martens, Prins, & Jochems, 2006) vyjádřili znepokojení nad tendencí κ brát frekvence sledovaných kategorií jako dárky, což může mít za následek podcenění shody pro kategorii, která se také běžně používá; z tohoto důvodu je κ považováno za příliš konzervativní měřítko shody.
Jiní (např. Uebersax, 1987) zpochybňují tvrzení, že kappa „bere v úvahu“ dohodu o náhodě. Aby to bylo efektivní, vyžadovalo by to explicitní model toho, jak náhoda ovlivňuje rozhodnutí hodnotitelů. Takzvaná úprava statistik kappy o náhodě předpokládá, že když si hodnotitelé nejsou zcela jisti, jednoduše hádají – velmi nereálný scénář.
Nicméně i přes potenciálně lepší alternativy se Cohenova kappa těší stálé popularitě. Možným důvodem je, že kappa je za určitých podmínek ekvivalentní vnitrotřídnímu korelačnímu koeficientu.
Cohenova kappa měří shodu mezi dvěma hodnotiteli, z nichž každý třídí položky N do kategorií C, které se vzájemně vylučují. První zmínka o statistice podobné kappě je připisována Galtonovi (1892), viz Smeeton (1985).
kde Pr(a) je relativní pozorovaná shoda mezi hodnotiteli a Pr(e) je hypotetická pravděpodobnost náhodné shody s použitím pozorovaných údajů pro výpočet pravděpodobnosti každého pozorovatele náhodně říkajícího každou kategorii. Pokud jsou hodnotitelé v úplné shodě, pak κ = 1. Pokud mezi hodnotiteli není žádná shoda (jiná než ta, která by byla očekávána náhodou), pak κ ≤ 0.
Klíčový článek zavádějící kappu jako novou techniku publikoval Jacob Cohen v časopise Educational and Psychological Measurement v roce 1960.
Podobnou statistiku, zvanou pí, navrhl Scott (1955). Cohenova kappa a Scottova pí se liší v tom, jak se Pr(e) vypočítává.
Všimněte si, že Cohenova kappa měří dohodu pouze mezi dvěma hodnotiteli. Pro podobnou míru dohody (Fleissova kappa) používanou, když jsou více než dva hodnotitelé, viz Fleiss (1971). Fleissova kappa je však multiraterovou generalizací Scottovy pí statistiky, nikoliv Cohenovy kappy.
Předpokládejme, že analyzujete data týkající se lidí žádajících o grant. Každý návrh grantu si přečetli dva lidé a každý čtenář buď řekl „Ano“ nebo „Ne“ návrhu. Předpokládejme, že údaje jsou následující, kde řádky jsou čtenář A a sloupce čtenář B:
Všimněte si, že bylo 20 návrhů, které byly schváleny jak čtenářem A, tak čtenářem B, a 15 návrhů, které byly zamítnuty oběma čtenáři. Zjištěná procentuální shoda je tedy Pr(a)=(20+15)/50 = 0,70.
Pro výpočet Pr (e) (pravděpodobnost náhodné dohody) bereme na vědomí, že:
Pravděpodobnost, že oba řeknou náhodně „Ano“, je tedy 0,50*0,60=0,30 a pravděpodobnost, že oba řeknou „Ne“, je 0,50*0,40=0,20. Celková pravděpodobnost náhodné shody je tedy Pr(„e“) = 0,3+0,2 = 0,5.
Takže teď, když aplikujeme náš vzorec pro Cohenovu Kappu, dostaneme:
zjistíme, že to ukazuje větší podobnost mezi A a B v druhém případě, ve srovnání s prvním.
Landis a Koch uvedli následující tabulku pro interpretaci hodnot. Tato tabulka však není v žádném případě všeobecně přijímána; Landis a Koch nepředložili žádný důkaz na její podporu a místo toho ji založili na osobním názoru. Bylo poznamenáno, že tyto pokyny mohou být spíše škodlivé než užitečné, protože počet kategorií a předmětů ovlivní velikost hodnoty. Kappa bude vyšší, když bude méně kategorií.
Prahová hodnota pro testování spolehlivosti u Kappa je 0,7. K<0,7 je považováno za slabé.