Spolehlivost interferátoru

Spolehlivost mezi hodnotiteli, dohoda mezi hodnotiteli nebo shoda je míra shody mezi hodnotiteli. Udává skóre, kolik homogenity nebo shody je v hodnoceních, která udávají soudci. Je užitečná při zdokonalování nástrojů, které dostávají lidští soudci, například při určování, zda je konkrétní stupnice vhodná pro měření konkrétní proměnné. Pokud se různí hodnotitelé neshodnou, je buď stupnice vadná, nebo je třeba hodnotitele znovu proškolit.

Existuje řada statistik, které mohou být použity ke stanovení spolehlivosti interrateru. Různé statistiky jsou vhodné pro různé typy měření. Některé možnosti jsou: společná pravděpodobnost shody, Cohenova kappa a související Fleissova kappa, korelace mezi ratery, korelační koeficient shody a korelace uvnitř třídy.

Společná pravděpodobnost dohody

Pravděpodobně nejjednodušším a nejméně robustním měřítkem je společná pravděpodobnost dohody. Je to počet, kolikrát je každé hodnocení (např. 1, 2, … 5) přiděleno každým hodnotitelem a toto číslo pak vydělí celkovým počtem hodnocení. Předpokládá, že údaje jsou zcela nominální. Nebere v úvahu, že k dohodě může dojít pouze na základě náhody.

Cohenova kappa, která pracuje pro dva hodnotitele, a Fleissova kappa, adaptace, která pracuje pro jakýkoliv pevný počet hodnotitelů, vylepšují společnou pravděpodobnost v tom, že berou v úvahu množství shody, které by se dalo očekávat, že nastane náhodou. Trpí stejným problémem jako společná pravděpodobnost v tom, že nakládají s daty jako s nominálními a předpokládají, že hodnocení nemají přirozené pořadí. Pokud data mají pořadí, informace v měření nejsou plně využity.

Buď Pearsonova nebo Spearmanova může být použita pro měření párové korelace mezi hodnotiteli pomocí stupnice, která je seřazena. Pearson předpokládá, že ratingová stupnice je spojitá; Spearman předpokládá pouze, že je řadová. Pokud jsou pozorovány více než dva hodnotitelé, průměrná úroveň shody pro skupinu může být vypočtena jako průměr hodnot (nebo ) z každého možného páru hodnotitelů. Nicméně ani jeden z koeficientů nebere v úvahu velikost rozdílů mezi hodnotiteli. Například při hodnocení na stupnici , Soudce A může přiřadit následující skóre čtyřem položkám: a Soudce B může přiřadit . Při použití buď Spearmanovy nebo Pearsonovy metody by korelační koeficient byl 1, což značí dokonalou korelaci; nicméně soudci se neshodnou na žádné z položek!

Doporučujeme:  Cyklothymie

Korelační koeficient v rámci třídy

Dalším způsobem provádění testů spolehlivosti je použití vnitrotřídního korelačního koeficientu (ICC) .
Existuje několik typů tohoto koeficientu a jeden je definován jako „podíl rozptylu pozorování v důsledku mezisubjektové variability v pravdivém skóre“. Rozsah ICC může být mezi 0,0 a 1,0 (raná definice ICC může být mezi -1 a +1). ICC bude vysoký, pokud existuje malá variabilita mezi skóre danými každou položku hodnotiteli, např. pokud všichni hodnotitelé
dávají stejné, nebo podobné skóre každé z položek. ICC je zlepšení oproti Pearsonovu a Spearmanovu ,
protože bere v úvahu rozdíly v hodnocení pro jednotlivé segmenty, spolu s korelací mezi hodnotiteli.

Jiný přístup k dohodě (užitečný v případě, že jsou jen dva hodnotitelé) spočívá ve výpočtu průměru rozdílů mezi oběma hodnotiteli. Meze spolehlivosti kolem průměru poskytují přehled o tom, nakolik mohou náhodné odchylky ovlivňovat hodnocení. Pokud mají hodnotitelé tendenci se shodnout, bude průměr blízko nule. Pokud je jeden hodnotitel obvykle vyšší než druhý o konzistentní hodnotu, bude průměr daleko od nuly, ale interval spolehlivosti bude úzký. Pokud mají hodnotitelé tendenci se neshodnout, ale bez konzistentního vzorce jednoho ratingu vyššího než druhého, bude průměr blízko nule, ale interval spolehlivosti bude široký.

Bland a Altman tuto myšlenku rozšířili grafem rozdílu každého bodu, rozdílu průměru a mezí spolehlivosti na vertikální vůči průměru dvou hodnocení na horizontální. Výsledný graf Bland-Altman ukazuje nejen celkovou míru shody, ale také to, zda dohoda souvisí s výchozí hodnotou položky. Například dva hodnotitelé se mohou úzce shodnout v odhadu velikosti malých položek, ale neshodnou se na větších položkách.