Raschovy modely se používají pro analýzu dat z hodnocení k měření věcí, jako jsou schopnosti, postoje a osobnostní rysy. Mohou být například použity k odhadu čtenářské schopnosti studenta z odpovědí na otázky týkající se čtenářského hodnocení, nebo extremity postoje člověka k trestu smrti z odpovědí na dotazník.
Raschovy modely se používají zejména v psychometrii, tedy v oblasti zabývající se teorií a technikou psychologického a vzdělávacího měření. Kromě toho se stále více používají i v jiných oblastech, včetně zdravotnických profesí a průzkumu trhu, a to kvůli jejich všeobecné použitelnosti.
Matematická teorie, z níž vycházejí Raschovy modely, je v některých ohledech stejná jako teorie odezvy položek. Raschovy modely však mají specifickou vlastnost měření, která poskytuje kritérium pro úspěšné měření. Tato formální vlastnost odlišuje Raschovy modely od jiných modelů používaných k modelování odpovědí lidí na položky nebo otázky. Aplikace modelů poskytuje diagnostické informace o tom, jak dobře je kritérium splněno. Aplikace modelů také poskytuje informace o tom, jak dobře položky nebo otázky na hodnocení fungují při měření schopnosti nebo vlastnosti.
Model Rasch pro měření
Obrázek 3: Jako váha poskytuje experimentální kontext, ve kterém lze porovnávat hmotnosti objektů, tak hodnocení poskytují kontext, ve kterém lze porovnávat osoby s ohledem na kvantitativní atributy a znaky. Raschův model poskytuje základ pro odvození měření z takových ‚surových‘ srovnání.
V Raschově modelu je pravděpodobnost zadané odezvy (např. správná/špatná odpověď) modelována jako funkce parametrů osoby a položky. Konkrétně v jednoduchém Raschově modelu je pravděpodobnost správné odezvy modelována jako logistická funkce rozdílu mezi osobou a parametrem položky. Matematická podoba modelu je uvedena níže v tomto článku. Ve většině kontextů se parametry modelu vztahují k úrovni kvantitativního znaku, kterým osoba nebo položka disponuje. Například ve vzdělávacích testech se parametry položky vztahují k obtížnosti položek, zatímco parametry osoby se vztahují ke schopnosti nebo úrovni dosaženého vzdělání lidí, kteří jsou hodnoceni. Čím vyšší je schopnost osoby vzhledem k obtížnosti položky, tím vyšší je pravděpodobnost správné odezvy na tuto položku. Když se umístění osoby na latentním znaku rovná obtížnosti položky, existuje z definice 0,5 pravděpodobnosti správné odezvy v Raschově modelu.
Účelem aplikace modelu je získat měření z dat kategorické odezvy. Metody odhadu se používají k získání odhadů z matic dat odezvy na základě modelu.
Raschový model je model v tom smyslu, že představuje strukturu, kterou by data měla vykazovat, aby z dat získala měření; tj. poskytuje kritérium pro úspěšné měření. Jedná se tedy o model ve smyslu ideálu nebo standardu. Perspektiva nebo paradigma, na němž je založen Raschový model, je výrazně odlišná od perspektivy, na níž je založeno statistické modelování. Modely se nejčastěji používají se záměrem popsat soubor dat. Parametry jsou modifikovány a přijímány nebo odmítány na základě toho, jak dobře odpovídají datům. Oproti tomu při použití Raschova modelu je cílem získat data, která odpovídají modelu (Andrich, 2004). Důvodem pro tuto perspektivu je, že Raschova model ztělesňuje požadavky, které musí být splněny, aby bylo možné získat měření, v tom smyslu, že měření je obecně chápáno ve fyzikálních vědách.
Užitečnou analogií pro pochopení tohoto zdůvodnění je uvažovat o objektech měřených na váhové stupnici. Předpokládejme, že hmotnost objektu A je jednou měřena jako podstatně větší než hmotnost objektu B, pak bezprostředně poté je hmotnost objektu B měřena jako podstatně větší než hmotnost objektu A. Vlastností, kterou požadujeme od měření, je, že výsledné srovnání mezi objekty by mělo být stejné, nebo invariantní, bez ohledu na jiné faktory. Tento klíčový požadavek je vtělen do formální struktury Raschova modelu. V důsledku toho není Raschova model změněn tak, aby vyhovoval údajům. Místo toho by měla být změněna metoda hodnocení tak, aby byl tento požadavek splněn, stejně jako by měla být opravena váhová stupnice, pokud poskytuje rozdílné srovnání mezi objekty při samostatných měřeních objektů.
Data analyzovaná pomocí modelu jsou obvykle odpovědí na konvenční položky testů, jako jsou vzdělávací testy s správnými/špatnými odpověďmi. Model je však obecný a lze jej použít všude tam, kde jsou získána diskrétní data se záměrem změřit kvantitativní atribut nebo rys.
Obrázek 1: Charakteristická křivka zkoušky znázorňující vztah mezi celkovým skóre v testu a odhadem polohy osoby
Když mají všichni účastníci testu možnost vyzkoušet si všechny položky v jednom testu, každý celkový výsledek testu se přiřadí k jedinečnému odhadu schopností a čím větší je celkový výsledek, tím větší je odhad schopností. Celkové skóre nemá lineární vztah k odhadům schopností. Vztah je spíše nelineární, jak ukazuje obrázek 1. Celkové skóre je zobrazeno na svislé ose, zatímco odpovídající odhad polohy osob je zobrazen na vodorovné ose. U konkrétního testu, na kterém je založena charakteristická křivka testu (TCC) znázorněná na obrázku 1, je vztah přibližně lineární v celém rozsahu celkových skóre od přibližně 10 do 33. Tvar TCC je obecně poněkud nelogický jako v tomto příkladu. Přesný vztah mezi celkovým skóre a odhady polohy osob však závisí na rozložení položek v testu. TCC je strmější v rozsazích v kontinuu, ve kterém je řada položek, například v rozsahu na obou stranách 0 na obrázcích 1 a 2.
Při použití Raschova modelu jsou místa položek často nejdříve škálována, a to na základě metod, jako jsou ty, které jsou popsány níže. Tato část procesu škálování je často označována jako kalibrace položek. Ve vzdělávacích testech platí, že čím menší je podíl správných odpovědí, tím vyšší je obtížnost položky, a tím vyšší je umístění položky v měřítku. Jakmile jsou místa položek škálována, jsou na stupnici měřena místa osob. Výsledkem je, že osoby a místa položek jsou odhadovány v jediném měřítku, jak je znázorněno na obrázku 2.
Interpretace umístění stupnice
Obrázek 2: Graf znázorňující histogram rozdělení osob (nahoře) a položek (dole) na stupnici
U dichotomických údajů, jako jsou správné/špatné odpovědi, odpovídá podle definice umístění položky na stupnici místu osoby, na kterém je pravděpodobnost úspěchu 0,5. Obecně platí, že pravděpodobnost, že osoba správně odpoví na otázku s obtížemi nižšími, než je místo této osoby, je větší než 0,5, zatímco pravděpodobnost, že osoba správně odpoví na otázku s obtížemi většími, než je místo této osoby, je menší než 0,5. Jsou-li odpovědi osoby uvedeny podle obtížnosti položky, od nejnižší po nejvyšší, nejpravděpodobnější vzorec je Guttmanův vzorec nebo vektor; tj. {1,1,…,1,0,0,0,…,0}. Avšak zatímco tento vzorec je nejpravděpodobnější vzhledem ke struktuře Raschova modelu, model vyžaduje pouze pravděpodobnostní Guttmanovy vzorce odezvy; tj. vzorce, které směřují ke Guttmanovu vzorci. Je neobvyklé, aby se odezvy přesně shodovaly se vzorem, protože existuje mnoho možných vzorců. Je zbytečné, aby se odezvy přesně shodovaly se vzorem, aby data odpovídala Raschovu modelu.
Obrázek 3: ICC pro řadu položek. ICC jsou barevně označeny, aby upozornily na změnu pravděpodobnosti úspěšné odpovědi u osoby se schopností umístění na svislé čáře. Osoba pravděpodobně správně odpoví na nejsnadnější položky (vlevo) a pravděpodobně správně neodpoví na obtížné položky (vpravo).
Každý odhad schopností má přidruženou standardní chybu měření, která kvantifikuje stupeň nejistoty spojený s odhadem schopností. Odhady položek mají také standardní chyby. Obecně jsou standardní chyby odhadů položek podstatně menší než standardní chyby odhadů osob, protože obvykle existuje více údajů o odezvě pro položku než pro osobu. To znamená, že počet lidí, kteří se o danou položku pokoušejí, je obvykle větší než počet položek, o které se daná osoba pokouší. Standardní chyby odhadů osob jsou menší tam, kde je sklon TCC strmější, což je obvykle přes střední rozsah skóre v testu. V tomto rozsahu je tedy větší přesnost, protože čím je sklon strmější, tím větší je rozdíl mezi jakýmikoli dvěma body na přímce.
Statistické a grafické testy se používají k vyhodnocení shody dat s modelem. Některé testy jsou globální, jiné se zaměřují na konkrétní položky nebo osoby. Některé testy vhodnosti poskytují informace, které mohou být použity ke zvýšení spolehlivosti testu vynecháním nebo opravou problémů s nekvalitními položkami. V moderní teorii testů se místo indexů spolehlivosti používá index separace osob. Index separace osob je však analogický indexu spolehlivosti. Index separace je souhrnem skutečné separace jako poměru k separaci včetně chyby měření. Jak již bylo zmíněno, úroveň chyby měření není jednotná v celém rozsahu testu, ale je obecně větší u extrémnějších skóre (nízké a vysoké).
Vlastnosti modelu Rasch
Třída modelů je pojmenována po Georgu Raschovi, dánském matematikovi a statistikovi, který pro modely rozvinul epistemologický případ založený na jejich shodě se základním požadavkem měření ve fyzice; konkrétně s požadavkem invariantního srovnání. To je definiční rys třídy modelů, jak je rozvedeno v následující části. Raschova metoda pro dichotomozní data má úzký koncepční vztah k zákonu srovnávacího úsudku (LCJ), což je model formulovaný a hojně používaný L. L. Thurstonem (srov. Andrich, 1978b), a tudíž také k Thurstonově stupnici.
Před zavedením měřicího modelu, který je pro něj nejznámější, Rasch aplikoval Poissonovo rozdělení na čtení dat jako měřicí model a předpokládal, že v relevantním empirickém kontextu se počet chyb, kterých se daný jedinec dopustil, řídí poměrem obtížnosti textu a čtenářské schopnosti dané osoby. Rasch tento model označoval jako multiplikativní Poissonův model. Raschovým modelem pro dichotomozní data – tj. kde jsou odpovědi klasifikovatelné do dvou kategorií – je jeho nejznámější a nejpoužívanější model a je zde hlavním zaměřením. Tento model má formu jednoduché logistické funkce.
Stručný nástin výše zdůrazňuje některé charakteristické a vzájemně související rysy Raschova pohledu na sociální měření, které jsou následující:
V souladu s perspektivou formulovanou Thomasem Kuhnem v jeho práci z roku 1961 Funkce měření v moderní fyzikální vědě bylo měření považováno jednak za teoreticky podložené, jednak za pomůcku pro odhalování kvantitativních anomálií neodpovídajících hypotézám vztahujících se k širšímu teoretickému rámci. Tato perspektiva je v kontrastu s perspektivou obecně převažující ve společenských vědách, v nichž jsou údaje jako výsledky testů přímo považovány za měření, aniž by pro měření byl nutný teoretický základ. Ačkoli tento kontrast existuje, Raschova perspektiva je ve skutečnosti doplňková k použití statistické analýzy nebo modelování, které vyžaduje intervalová měření, protože účelem použití Raschova modelu je získání takových měření. Aplikace Raschova modelu jsou popsány v Sivakumar, Durtis & Hungi (2005).
Invariantní srovnání a dostatečnost
Raschový model pro dichotomozní data je často považován za model teorie odezvy položek (IRT) s jedním položkovým parametrem. Avšak spíše než za konkrétní IRT model jej zastánci modelu považují za model, který má vlastnost, která jej odlišuje od IRT modelů. Konkrétně, definující vlastnost Raschových modelů je jejich formální nebo matematické ztělesnění principu invariantního srovnání. Rasch shrnul princip invariantního srovnání následovně:
Raschovy modely ztělesňují tento princip díky tomu, že jejich formální struktura umožňuje algebraické oddělení parametrů osoby a položky v tom smyslu, že parametr osoby může být eliminován během procesu statistického odhadu parametrů položky. Tohoto výsledku je dosaženo použitím podmíněného odhadu maximální pravděpodobnosti, při kterém je prostor odezvy rozdělen podle celkového skóre osoby. Důsledkem je, že surové skóre pro položku nebo osobu je dostatečnou statistikou pro parametr položky nebo osoby. To znamená, že celkové skóre osoby obsahuje všechny informace dostupné v daném kontextu o jednotlivci a celkové skóre položky obsahuje všechny informace týkající se položky s ohledem na příslušný latentní rys. Raschovy model vyžaduje specifickou strukturu v datech odezvy, konkrétně pravděpodobnostní Guttmanovu strukturu.
Raschovy modely poskytují základ a zdůvodnění pro získání míst osob v kontinuu z celkového skóre při hodnocení. Ačkoli není neobvyklé považovat celkové skóre přímo za měření, jedná se ve skutečnosti spíše o počty diskrétních pozorování než měření. Každé pozorování představuje pozorovatelný výsledek srovnání mezi osobou a položkou. Takové výsledky jsou přímo analogické pozorování rotace váhové stupnice v tom či onom směru. Toto pozorování by naznačovalo, že ten či onen objekt má větší hmotnost, ale počty takových pozorování nelze považovat přímo za měření.
Rasch poukázal na to, že princip invariantního porovnávání je charakteristický pro měření ve fyzice za použití, jako příklad, obousměrného experimentálního referenčního rámce, ve kterém každý přístroj působí mechanickou silou na pevná tělesa, aby se dosáhlo zrychlení. Rasch (1960/1980, s. 112-3) o této souvislosti prohlásil: „Obecně: Jestliže u jakýchkoli dvou objektů najdeme určitý poměr jejich zrychlení vyvolaného jedním přístrojem, pak stejný poměr bude nalezen u jakéhokoli jiného z přístrojů“. Je snadno ukázáno, že Newtonův druhý zákon znamená, že takové poměry jsou přímo úměrné poměrům hmotností těles.
Matematická podoba Raschova modelu pro dichotomická data
Dovolit je dichotomous náhodná proměnná, kde například označuje správnou odpověď a nesprávnou odpověď na danou hodnocenou položku. V Raschově modelu pro dichotomous data je pravděpodobnost výsledku dána:
kde je schopnost osoby a je obtížnost položky . Tedy, v případě dichotomous dosažení položky, je pravděpodobnost úspěchu při interakci mezi příslušnou osobou a hodnocené položky. Je snadno prokázáno, že log šance, nebo logit, správné odpovědi osoby na položku, na základě modelu, je rovna . Může být prokázáno, že log šance správné odpovědi osoby na jednu položku, podmíněné správnou odpovědí na jednu ze dvou položek, je rovna rozdílu mezi položkami umístění. Například,
kde je celkové skóre osoby n nad oběma položkami, z čehož vyplývá správná odezva na jednu nebo druhou z položek. Podmíněný log odds se tedy netýká parametru osoby , který lze tedy eliminovat podmiňováním celkového skóre . To znamená, že rozdělením odpovědí podle nezpracovaného skóre a výpočtem log odds správné odezvy je získán odhad bez zapojení . Obecněji lze počet parametrů položky odhadnout iterativně použitím procesu, jako je Podmíněný odhad maximální pravděpodobnosti (viz odhad podle Raschova modelu). Při větším zapojení platí v takových odhadech stejný základní princip.
Obrázek 4: ICC pro model Rasch ukazující srovnání mezi pozorovanými a očekávanými podíly správné pro pět třídních intervalů osob
Podobu Raschova modelu pro dichotomozní data lze vidět na obrázku 3. Šedá čára mapuje polohu osoby na latentním kontinuu k pravděpodobnosti diskrétního výsledku pro položku s polohou přibližně 0,2 na latentním kontinuu. Umístění položky je z definice to místo, na kterém je pravděpodobnost rovna 0,5. Černé kruhy představují skutečné nebo pozorované podíly osob v rámci třídních intervalů, pro které byl výsledek pozorován. Například v případě hodnotící položky používané v kontextu pedagogické psychologie by mohly představovat podíly osob, které odpověděly na položku správně. Osoby jsou seřazeny podle odhadů jejich umístění na latentním kontinuu a klasifikovány do třídních intervalů na tomto základě, aby bylo možné graficky zkontrolovat shodu pozorování s modelem. Na obrázku 1 je úzká shoda dat s modelem. Kromě grafické kontroly dat se používá řada statistických zkoušek vhodnosti, aby bylo možné vyhodnotit, zda lze odchylky pozorování od modelu přisoudit pouze náhodným efektům, jak je požadováno, nebo zda dochází k systematickým odchylkám od modelu.
Polytomní forma modelu Rasch
Polytomní Raschův model, který je zobecněním dichotomozního modelu, lze použít v kontextech, v nichž po sobě jdoucí celočíselné skóre představují kategorie zvyšující se úrovně nebo velikosti latentního rysu, jako je zvyšující se schopnost, motorická funkce, potvrzení výroku a tak dále. Model polytomní odezvy je například použitelný pro použití Likertových stupnic, třídění ve vzdělávacím hodnocení a bodování výkonů soudců.
Kritika Raschova modelu spočívá v tom, že je příliš restriktivní nebo preskriptivní, protože neumožňuje, aby každá položka měla jinou diskriminaci. Kritika specifická pro použití položek s více možnostmi ve vzdělávacím hodnocení spočívá v tom, že v modelu není žádné ustanovení pro odhad, protože levá asymptota se v Raschově modelu vždy blíží nulové pravděpodobnosti. Tyto varianty jsou dostupné v modelech, jako jsou logistické modely dvou a tří parametrů (Birnbaum, 1968). Specifikace jednotné diskriminace a nulové levé asymptoty jsou však nezbytnými vlastnostmi modelu pro udržení dostatečnosti jednoduchého, neváženého surového skóre.
V dvouparametrovém logistickém modelu (2PL-IRT; Lord & Novick, 1968) je vážené surové skóre teoreticky dostačující pro parametry osoby, kde váhy jsou dány parametry modelu označovanými jako diskriminační parametry. Jednoparametrový logistický model společnosti Lord & Novick, 1PL, se zdá být podobný Raschovu modelu v tom, že nemá diskriminační parametry, ale 1PL má odlišnou motivaci a jemně odlišnou parametrizaci. 1PL je popisný model, který shrnuje vzorek jako normální rozdělení. Dvojrozměrný Raschovův model je měřicí model, který parametrizuje každého člena vzorku individuálně. Jsou zde další technické rozdíly.[Jak odkazovat a odkaz na shrnutí nebo text]
Verhelst & Glas (1995) odvozují Podmíněné rovnice maximální pravděpodobnosti (CML) pro model, který označují jako One Parameter Logistic Model (OPLM). V algebraické podobě se zdá být shodný s 2PL modelem, ale OPLM obsahuje přednastavené indexy diskriminace spíše než 2PL odhadované diskriminační parametry. Jak však poznamenávají tito autoři, problém, kterému člověk čelí při odhadu s odhadovanými diskriminačními parametry, je, že diskriminace není známá, což znamená, že vážené surové skóre „není pouhou statistikou, a tudíž není možné použít CML jako metodu odhadu“ (Verhelst & Glas, 1995, str. 217). To znamená, že dostatečnost váženého „skóre“ v 2PL nemůže být použita podle způsobu, jakým je definována dostatečná statistika. Pokud jsou váhy imputovány místo toho, aby byly odhadnuty, jako v OPLM, je možný podmíněný odhad a jsou zachovány vlastnosti Raschova modelu (Verhelst, Glas & Verstralen, 1995; Verhelst & Glas, 1995). V OPLM jsou hodnoty indexu diskriminace omezeny na hodnoty mezi 1 a 15. Omezení tohoto přístupu spočívá v tom, že v praxi musí být hodnoty indexů diskriminace přednastaveny jako výchozí bod. To znamená, že se jedná o určitý typ odhadu diskriminace, pokud je účelem se tomu vyhnout.
Raschovým modelem pro dichotomozní data je ve své podstatě obsažen jediný diskriminační parametr, který, jak poznamenává Rasch (1960/1980, str. 121), představuje svévolnou volbu jednotky z hlediska toho, jaké velikosti latentního znaku jsou vyjádřeny nebo odhadnuty. Raschový model však vyžaduje, aby diskriminace byla jednotná napříč interakcemi mezi osobami a položkami v rámci specifikovaného referenčního rámce (tj. kontextu posouzení dané podmínkami pro posouzení).