Klasická teorie testů je soubor příbuzných psychometrických teorií, které předpovídají výsledky psychologického testování, jako je obtížnost položek nebo schopnost testovaných. Obecně řečeno, cílem klasické teorie testů je pochopit a zlepšit spolehlivost psychologických testů.
Klasická teorie testů může být považována za zhruba synonymum teorie pravdivého skóre. Termín „klasický“ odkazuje nejen na chronologii těchto modelů, ale také kontrastuje s novějšími psychometrickými teoriemi, obecně označovanými souhrnně jako teorie odezvy položek, které někdy nesou označení „moderní“ jako „moderní teorie latentních rysů“.
Klasická teorie testů je založena na rozkladu pozorovaných skóre (které jsou ordinální, ale analyzované jako interval) na pravdivé a chybové skóre. Teorie nahlíží na pozorované skóre osoby , Označené jako , jako realizaci náhodné proměnné . Osoba je charakterizována rozložením pravděpodobnosti nad možnými realizacemi této náhodné proměnné. Toto rozdělení se nazývá „rozdělení sklonu“. Skutečné skóre osoby , , je axiomaticky definováno jako očekávání tohoto rozdělení sklonu. Tato definice (Novick 1966) je formálně uvedena jako
Za druhé, tzv. chybové skóre pro osobu , , je definován jako rozdíl mezi ‚s pozorované skóre a jeho skutečné skóre:
Všimněte si, že a jsou náhodné proměnné, ale je konstanta. Všimněte si také, že z těchto definic přímo vyplývá, že chybové skóre má očekávání nula:
Výše uvedené rovnice představují předpoklady, které klasická teorie testů vytváří na úrovni jednotlivých osob. Teorie se však nikdy nepoužívá k analýze výsledků jednotlivých testů; spíše se teorie zaměřuje na vlastnosti výsledků testů v poměru k populacím osob. Proto je dalším krokem zavedení schématu výběru populace do struktury klasické teorie testů. Když předpokládáme, že lidé jsou náhodně vybíráni z populace, skutečné skóre se stává také náhodnou proměnnou, takže dostaneme kanonickou rovnici
Klasická teorie testů se zabývá vztahy mezi třemi veličinami , , a v populaci. Tyto vztahy se používají k tomu, aby vypověděly něco o kvalitě výsledků testů. V tomto ohledu je nejdůležitější pojem spolehlivosti. Spolehlivost pozorovaných výsledků testů , která je označena jako , je definována jako poměr skutečného rozptylu skóre k pozorovanému rozptylu skóre :
Vzhledem k tomu, že rozptyl pozorovaných skóre může být prokázáno, že se rovná součtu rozptylu pravdivých skóre a rozptylu chybových skóre, je to ekvivalentní
Tato rovnice, která formuluje poměr signálu a šumu, má intuitivní přitažlivost: Spolehlivost výsledků testů se zvyšuje s tím, jak se snižuje podíl odchylek chyb ve výsledcích testů a naopak. Spolehlivost se rovná podílu odchylek ve výsledcích testů, který bychom mohli vysvětlit, kdybychom znali skutečné výsledky. Druhá odmocnina spolehlivosti je korelace mezi skutečným a pozorovaným skóre.
Všimněte si, že spolehlivost není, jak je často naznačováno v učebnicích, pevnou vlastností testů, ale vlastností výsledků testů, která je vztažena k určité populaci, a počítá se pro tento vzorek. Je to proto, že výsledky testů nebudou stejně spolehlivé v každé populaci nebo dokonce v každém vzorku. Například, jak je tomu v případě jakékoli korelace, spolehlivost výsledků testů bude snížena omezením rozsahu. Tudíž výsledky IQ testů, které jsou vysoce spolehlivé v obecné populaci, budou méně spolehlivé v populaci vysokoškolských studentů a ještě méně spolehlivé ve vzorku druháků. Všimněte si také, že výsledky testů jsou naprosto nespolehlivé pro daného jedince , protože, jak bylo uvedeno výše, skutečné skóre je konstantní na úrovni jedince, což znamená, že má nulový rozptyl, takže poměr skutečného rozptylu skóre k pozorovanému rozptylu skóre, a tedy spolehlivost, je nulový. Důvodem je, že v modelu klasické teorie testů je veškerá pozorovaná variabilita v ‚s skóre náhodnou chybou z definice (viz Eq. 2). Klasická teorie testů je relevantní pouze na úrovni populací a vzorků, nikoli na úrovni jedinců.
Spolehlivost nelze odhadnout přímo, protože to by vyžadovalo znát skutečné skóre, což je podle klasické teorie testů nemožné. Odhady spolehlivosti však lze získat různými prostředky. Jedním ze způsobů odhadu spolehlivosti je konstrukce tzv. paralelního testu. Základní vlastností paralelního testu je, že přináší stejné skutečné skóre a stejný pozorovaný rozptyl skóre jako původní test pro každého jedince. Pokud máme paralelní testy x a x‘, pak to znamená, že
Za těchto předpokladů vyplývá, že korelace mezi výsledky paralelních testů je rovna spolehlivosti (viz Lord & Novick, 1968, Ch. 2, pro důkaz).
Použití paralelních testů k odhadu spolehlivosti je těžkopádné, protože paralelní testy jsou velmi obtížně dostupné. V praxi se metoda používá jen zřídka. Místo toho výzkumníci používají míru vnitřní konzistence známou jako Cronbachova . Vezměme si test skládající se z položek , . Celkové skóre testu je definováno jako součet skóre jednotlivých položek, takže pro individuální
Pak Cronbachova alfa rovná se
Lze prokázat, že Cronbachova metoda poskytuje nižší hranici spolehlivosti za spíše mírných předpokladů. Spolehlivost výsledků testů v populaci je tedy vždy vyšší než hodnota Cronbachovy metody v této populaci. Tato metoda je tedy empiricky proveditelná a v důsledku toho je mezi výzkumníky velmi populární.
Jak bylo uvedeno výše, celé cvičení klasické teorie testů se provádí tak, aby se dospělo k vhodné definici spolehlivosti. Spolehlivost má vypovídat něco o obecné kvalitě výsledků daných testů. Obecná myšlenka je, že čím vyšší spolehlivost je, tím lépe. Klasická teorie testů neříká, jak vysoká má být spolehlivost. Příliš vysoká hodnota pro , řekněme přes 0,9, značí nadbytečnost položek. Kolem 0,8 se doporučuje pro výzkum. Je třeba poznamenat, že tato ‚kritéria‘ nejsou založena na rozumných argumentech, ale na výsledku konvence. Zda mají nějaký smysl nebo ne, není jasné.
Klasická teorie testů je zdaleka nejvlivnější teorie výsledků testů ve společenských vědách. V psychometrii byla teorie nahrazena sofistikovanějšími modely v Item Response Theory (IRT). IRT modely se však v hlavním proudu výzkumu uchycují velmi pomalu. Jedním z hlavních problémů, který to způsobuje, je nedostatek široce dostupného, uživatelsky přívětivého softwaru; také IRT není zahrnuto ve standardních statistických balíčcích jako SPSS, zatímco tyto balíčky běžně poskytují odhady Cronbachovy . Dokud tento problém nebude vyřešen, klasická teorie testů pravděpodobně zůstane pro mnoho výzkumníků teorií volby.
článek Gerianne de Klerkpart napsaný v rámci Orta projektuMezinárodní zkušební komise