Teorie odpovědí položek

Teorie odpovědi na položku (anglicky item response theory, IRT) je v psychometrice soubor teorie popisující aplikaci matematických modelů na data z dotazníků a testů jako základ pro měření schopností, postojů nebo jiných proměnných.

IRT modely používají matematické funkce, které specifikují pravděpodobnost diskrétního výsledku, jako je správná odpověď na položku, pokud jde o osobu a parametry položky. Parametry osoby mohou například reprezentovat schopnost studenta nebo sílu postoje osoby. Parametry položky zahrnují obtížnost (umístění), diskriminaci (sklon nebo korelaci) a pseudohádání (nižší asymptota). Položky mohou být otázky, které mají nesprávné a správné odpovědi, prohlášení v dotaznících, které umožňují respondentům uvést úroveň shody, nebo symptomy pacienta hodnocené jako přítomné/chybějící.

Teorie IRT mimo jiné poskytuje základ pro hodnocení, jak dobře funguje hodnocení a jak dobře fungují jednotlivé otázky týkající se hodnocení. Psychometrikové používají IRT ve vzdělávání, aby dosáhli úkolů, jako je vývoj a zdokonalování zkoušek, udržování bank položek pro zkoušky a vyrovnání pro obtíže po sobě jdoucích verzí zkoušek (například aby umožnili srovnání výsledků v čase).

IRT je často označována jako teorie latentních rysů, teorie silného pravdivého skóre nebo moderní teorie mentálních testů a je odlišována od klasické teorie testů.

IRT modely se používají jako základ pro statistický odhad parametrů, které představují „místa“ osob a položek v latentním kontinuu, nebo přesněji velikost latentního znaku, který lze přičíst osobám a položkám. Například při testování dosaženého vzdělání mohou být odhady velikosti schopností osoby v určité oblasti, například porozumění čtení. Jakmile jsou získány odhady relevantních parametrů, obvykle se provádějí statistické testy, aby se zjistilo, do jaké míry parametry předpovídají odezvy položek vzhledem k použitému modelu. Řečeno poněkud odlišně, takové testy se používají ke zjištění, do jaké míry mohou odhady modelu a parametrů zohlednit strukturu a statistické vzorce v datech o odezvě, a to buď jako celek, nebo zvážením konkrétních podskupin dat, jako jsou vektory odezvy vztahující se k jednotlivým položkám nebo osobám. Tento přístup umožňuje podrobit empirickému testování centrální hypotézu představovanou konkrétním modelem, jakož i poskytnout informace o psychometrických vlastnostech daného hodnocení, a tedy i o kvalitě odhadů.

Z pohledu tradičnějších přístupů, jako je klasická teorie testů, je výhodou IRT to, že potenciálně poskytuje informace, které umožňují výzkumníkovi zlepšit spolehlivost hodnocení. Toho je dosaženo extrakcí sofistikovanějších informací týkajících se psychometrických vlastností jednotlivých položek hodnocení. IRT je někdy označován za použití slova strong jako v silné teorii pravdivého skóre nebo moderní jako v moderní teorii mentálního testu, protože IRT je novější těleso teorie a konkretizuje hypotézy, které jsou implicitní v klasické teorii testů.

IRT modely jsou často označovány jako modely latentních znaků. Termín latentní se používá pro zdůraznění, že diskrétní položkové odezvy jsou považovány za pozorovatelné projevy hypotetického znaku, konstrukce nebo atributu, které nejsou přímo pozorovány, ale které musí být vyvozeny z manifestních odezev. Latentní modely znaků byly vyvinuty v oblasti sociologie, ale jsou prakticky totožné s IRT modely.

Dalším významným tělesem psychometrické teorie relevantním pro IRT je klasická teorie testů. U úloh, které lze splnit pomocí klasické teorie testů, přináší IRT obecně větší flexibilitu a poskytuje sofistikovanější informace. Některé aplikace, například počítačové adaptivní testování, jsou umožněny pomocí IRT a nemohou být rozumně provedeny pouze pomocí klasické teorie testů.

Funkce odezvy položky (charakteristická křivka položky)

Velká část literatury o IRT se soustředí na modely odezvy položek. Daný model představuje mathematizovanou hypotézu, že pravděpodobnost diskrétní odezvy na položku je funkcí parametru osoby (nebo, v případě teorie odezvy multidimenzionálních položek, vektoru parametrů osoby) a jednoho nebo více parametrů položky. Například v modelu 3PL (Three Parameter logistic) je pravděpodobnost správné odezvy na položku i:

kde je parametr osoby (schopnost) a , , a jsou parametry položky. Tomu se říká funkce odezvy položky (IRF) nebo, graficky, křivka charakteristiky položky (ICC). Koncepčně udává pravděpodobnost, že osoba s danou úrovní schopností dostane položku správně. Osoby s nižší schopností (<0,0) mají menší šanci, zatímco osoby s extrémně vysokou schopností jsou velmi pravděpodobné.

Parametry položky jednoduše určují tvar IRF a v některých případech nemusejí mít přímou interpretaci. Obrázek vpravo znázorňuje příklad IRF s překrytým koncepčním vysvětlením parametrů. Parametr představuje umístění položky, které se v případě testování dosažení označuje jako obtížnost položky. Je to bod, kde má IRF svůj maximální sklon. Příkladová položka má střední obtížnost, protože =0.0, což je blízko středu rozdělení. Všimněte si, že tento model škáluje obtížnost položky a vlastnost osoby na stejné kontinuum. Je tedy platné hovořit o tom, že položka je přibližně stejně těžká jako úroveň vlastností osoby A nebo že úroveň vlastností osoby je přibližně stejná jako obtížnost položky Y v tom smyslu, že úspěšné provedení úkolu spojeného s položkou odráží specifickou úroveň schopností.

Doporučujeme:  Série o zotavení z duševní nemoci: Příběh # 96

Parametr item představuje diskriminaci položky: tedy míru, do jaké položka rozlišuje mezi osobami v různých oblastech latentního kontinua. Tento parametr charakterizuje sklon IRF, kde je sklon na svém maximu. Příkladová položka má =1,0, což poměrně dobře rozlišuje; osoby s nízkou schopností mají skutečně mnohem menší šanci správně reagovat než osoby s vyšší schopností.

U položek, jako jsou položky s více možnostmi, se parametr používá ve snaze zohlednit dopady odhadu na pravděpodobnost správné odpovědi. Označuje pravděpodobnost, že jedinci s velmi nízkou schopností náhodně získají tuto položku správnou, matematicky vyjádřenou jako nižší asymptota. Položka s více možnostmi se čtyřmi možnostmi může mít IRF jako příklad; je 1/4 šance, že kandidát s extrémně nízkou schopností uhodne správnou odpověď, takže by byla přibližně 0,25. To předpokládá, že všechny možnosti jsou stejně přijatelné, protože pokud by jedna možnost nedávala smysl, i osoba s nejnižšími schopnostmi by ji byla schopna zahodit.

Logistické a normální IRT modely

Alternativní formulace konstruuje IRF na základě kumulativní normální pravděpodobnostní distribuční funkce, neboli normálního cdf; tyto jsou někdy nazývány normálními logickými modely. Například vzorec pro dvouparametrový normální-logický IRF je:

Normálně-logický model vychází z předpokladu normálně rozložené chyby měření a na tomto základě je teoreticky přitažlivý. Zde je opět parametr obtížnosti. Parametr rozlišení je , směrodatná odchylka chyby měření pro položku i, a je srovnatelný s 1/.

Když má konstanta D hodnotu 1,701, přibližuje se logistická funkce kumulativnímu normálnímu logickému číslu. Logistické a normálně logické IRF se obvykle liší pravděpodobností maximálně o 0,01 v celém rozsahu funkce. Největší rozdíl je však v distribučních koncovkách, které mají obvykle větší vliv na výsledky.

Latentní trait/IRT model byl původně vyvinut za použití normálních ogiv, ale v té době to bylo považováno za výpočetně náročné. Logistický model byl navržen jako jednodušší alternativa a od té doby se těší širokému využití. Nedávno však Uebersax (1999) prokázal, že za použití standardních polynomiálních aproximací k normálnímu cdf (Abramowitz & Stegun, 1972) není normálně-ogivní model výpočetně náročnější než logistické modely.

Parametr person představuje velikost latentní vlastnosti jedince. Odhad parametru person je odvozen z celkového skóre jedince v hodnocení, což je vážené skóre, pokud model obsahuje parametry rozlišení položek. Latentní vlastnost je lidská schopnost nebo atribut měřený testem. Může to být kognitivní schopnost, fyzická schopnost, dovednost, znalosti, postoj, osobnostní charakteristika atd. V jednorozměrném modelu, jako je ten výše, je tato vlastnost analogická k jedinému faktoru v analýze faktoru. Ve skutečnosti lze odhadnout normální-ogivní model latentní vlastnosti analýzou faktoru matice tetrachorických korelací mezi položkami (Joreskog & Sorbom, 1988). To znamená, že je technicky možné odhadnout jednoduchý IRT model pomocí všeobecného statistického softwaru. Jednotlivé položky nebo jednotlivci mohou mít sekundární faktory, ale předpokládá se, že jsou vzájemně nezávislé a kolektivně ortogonální.

IRT modely mohou být také kategorizovány na základě počtu skórovaných odpovědí. Typická položka s více možnostmi je dichotomická; i když mohou existovat čtyři nebo pět možností, stále je skórována pouze jako správná/nesprávná (správná/nesprávná). Jiná třída modelů platí pro polytomní výsledky, kde každá odpověď má jinou hodnotu skóre. Například polytomní Raschův model je zobecněním Raschova modelu, který platí pro data ve dvou nebo více uspořádaných kategoriích. Běžný příklad těchto položek typu Likert, např. „Míra na stupnici od 1 do 5“.

Dichotomous IRT modely jsou popsány počtem parametrů, které využívají. 3PL se tak jmenuje, protože používá tři parametry položky. Dvouparametrový model předpokládá, že data mají minimální odhad, ale že položky se mohou lišit z hlediska umístění () a diskriminace (). Jednoparametrový model předpokládá, že existuje minimální odhad a že položky mají rovnocennou diskriminaci, takže položky jsou popsány pouze jedním parametrem (). Navíc teoreticky existuje čtyřparametrový model s horní asymptotou. Ta se však používá jen zřídka.

Perspektivy Raschových modelů: vztah data-model

Raschův model pro dichotomozní data je často považován za zvláštní případ dvou parametrů logistického (2PL) modelu, a tedy 3PL modelu. Andrich (1989) odkazoval na dva převažující názory na vztah mezi Lordovým 3PL a Raschovým modelem. V jednom je 3PL zobecněním Raschova modelu, protože pokud jsou příslušné parametry specifikovány jako 0 a 1, 3PL se redukuje na Raschovo model. V druhém pohledu není 3PL zobecněním Raschova modelu, protože 3PL nemůže matematicky vyplývat z Raschových (1960,1961) specifikací pro invarianci porovnávání, která vyplývá z oddělitelnosti parametrů.

Doporučujeme:  Hypertyreóza

Před identifikací široce známého Raschova modelu pro dichotomozní data použil Rasch (1960) Poissonovo rozdělení jako model pro měření. Tento model sdílí s dichotomovým modelem vlastnost oddělitelnosti osobnosti a parametrů položky. Pokud jsou Raschovy modely definovány pomocí této rozlišovací vlastnosti, pak 2PL a 3PL nejsou zobecněním Raschova modelu, protože se jim nedaří tuto vlastnost zachovat. V souladu s tím nemají 2PL a 3PL žádnou dobře definovanou vazbu na Raschovo multiplikativní Poissonův model. Zda je tedy Raschova model vnímán jako specifický případ IRT modelů, je otázkou jak definice toho, co je Raschovým modelem, tak vnímaného účelu použití modelu odezvy položky.

IRT modely se obecně používají se záměrem popsat soubor dat co nejlépe. Parametry jsou modifikovány a přijímány nebo odmítány na základě toho, jak dobře odpovídají datům. Oproti tomu při použití Raschova modelu je cílem získat data, která jsou v souladu s modelem, aby byly splněny požadavky měření (Andrich, 2004). Rasch (1960) ukázal shodu oddělitelnosti parametrů s měřením ve fyzikálních vědách. V souladu s tím zastánci Raschových měřících modelů tvrdí, že pouze data, která jsou v souladu s Raschovými modely, splňují požadavky základního měření (např. Wright, 1992). To znamená, že výzkumník vymaže všechna data, která podle něj nejsou v souladu s modelem, který chce použít (Smith, 1990). Odhad parametrů je v Raschových modelech přímočařejší díky přítomnosti dostatečných statistik (např. Fischer & Molenaar, 1995).

Z pohledu modelování dat je však model Rasch zvláštním případem modelu 2PL, a proto je často označován jako model s jedním parametrem. Důvodem pro název logistický model s dvěma parametry je to, že parametr diskriminace je koncipován jako parametr druhé položky. Z tohoto označení vyplývá, že parametry diskriminace jsou koncipovány tak, že se týkají pouze položek, zatímco Rasch (1977) zdůraznil význam referenčního rámce pro měření jako celku. V rámci Rasch proto nelze diskriminaci považovat za něco, co se týká pouze položek. Jedná se o další rozlišení mezi perspektivami, které jsou vlastní používání různých modelů, a terminologií, kterou používají různí autoři.

Jedním z hlavních příspěvků teorie odezvy položek je rozšíření konceptu spolehlivosti. Spolehlivost tradičně odkazuje na přesnost měření (tj. míru, do jaké je měření bez chyb). A tradičně se měří pomocí jediného indexu definovaného různými způsoby, jako je poměr skutečného a pozorovaného rozptylu skóre. Tento index je užitečný při charakterizaci průměrné spolehlivosti testu, například pro porovnání dvou testů. IRT ale jasně ukazuje, že přesnost není jednotná napříč celým rozsahem skóre testu. Například skóre na okrajích rozsahu testu mají obecně s sebou spojeno více chyb než skóre blíže středu rozsahu.

Teorie odezvy položek posouvá pojem informace o položkách a testech, aby nahradila spolehlivost. Informace je také funkcí parametrů modelu. Například podle Fisherovy teorie informací informace o položkách dodávané v případě Raschova modelu pro data odezvy dichotomous je jednoduše pravděpodobnost správné odezvy vynásobená pravděpodobností nesprávné odezvy, nebo

Standardní chyba odhadu (SE) je převrácená informace testu na dané úrovni znaku, je

Více informací tedy znamená menší chybu měření.

U jiných modelů, jako jsou dva a tři parametry modelu, hraje ve funkci důležitou roli diskriminační parametr. Funkce informace o položce pro dva parametry modelu je

Obecně platí, že funkce informací o položkách mají spíše zvonovitý tvar. Vysoce rozlišující položky mají vysoké, úzké informační funkce; významně přispívají, ale v úzkém rozsahu. Méně rozlišující položky poskytují méně informací, ale v širším rozsahu.

Pomocí grafů informací o položkách lze zjistit, kolik informací daná položka přispívá a do jaké části rozsahu skóre stupnice. Vzhledem k lokální nezávislosti jsou funkce informací o položkách aditivní. Funkce informací o zkouškách je tedy jednoduše součtem informačních funkcí položek zkoušky. Pomocí této vlastnosti s velkou bankou položek lze funkce informací o zkouškách tvarovat tak, aby velmi přesně kontrolovaly chybu měření.

Doporučujeme:  Analýza úkolů

Charakteristika přesnosti výsledků testů je možná ústředním tématem psychometrické teorie a je hlavním rozdílem mezi IRT a CTT. Zjištění IRT odhalují, že koncept spolehlivosti CTT je zjednodušení. Místo spolehlivosti nabízí IRT informační funkci testu, která ukazuje stupeň přesnosti při různých hodnotách theta.

Tyto výsledky umožňují psychometrikům (potenciálně) pečlivě utvářet úroveň spolehlivosti pro různé rozsahy schopností zahrnutím pečlivě vybraných položek. Například v certifikační situaci, ve které může být zkouška pouze úspěšná nebo neúspěšná, kde existuje pouze jediný „cutscore“ a kde je skutečně úspěšné skóre nedůležité, může být velmi účinný test vyvinut výběrem pouze položek, které mají vysokou informovanost v blízkosti cutscore. Tyto položky obecně odpovídají položkám, jejichž obtížnost je přibližně stejná jako obtížnost cutscore.

Poté, co je model přizpůsoben datům, má každý člověk odhad theta. Tento odhad je jeho skóre při zkoušce. Toto „IRT skóre“ je vypočítáno a interpretováno velmi odlišným způsobem ve srovnání s tradičními skóre, jako je číslo nebo procento správnosti. Nicméně u většiny testů je (lineární) korelace mezi theta odhadem a tradičním skóre velmi vysoká (často je to 0,95 nebo více). Graf IRT skóre proti tradičním skóre ukazuje logický tvar naznačující, že IRT odhaduje samostatné jedince na hranicích rozsahu více než uprostřed.

Stojí za zmínku důsledky IRT pro testované. Testy jsou nepřesné nástroje a skóre dosažené jednotlivcem (pozorované skóre) je vždy pravdivé skóre zakryté určitým stupněm chyby. Tato chyba může posunout pozorované skóre výš nebo níž.

Nic na těchto modelech také nevyvrací lidský vývoj nebo zdokonalování. Člověk se může učit dovednostem, znalostem nebo dokonce takzvaným „testovacím dovednostem“, což se může projevit vyšším skutečným skóre.

Srovnání klasické a Item Response teorie

Klasická teorie testů (CTT) a IRT se do značné míry zabývají stejnými problémy, ale jedná se o odlišné tělesa teorie, a proto s sebou nesou odlišné metody. Ačkoli jsou obě paradigmata obecně konzistentní a vzájemně se doplňují, existuje řada rozdílů:

Za zmínku stojí i některé specifické podobnosti mezi CTT a IRT, které pomáhají pochopit korelaci mezi pojmy. Za prvé, Lord (1980, s. 33) ukázal, že za předpokladu, že je normálně distribuována, je diskriminace v 2PL modelu přibližně monotónní funkcí bodové biseriální korelace. Konkrétně:

kde je bodová biseriální korelace položky i. Pokud tedy platí předpoklad, tam, kde je vyšší diskriminace, bude obecně vyšší bodová biseriální korelace.

Další podobnost spočívá v tom, že zatímco IRT poskytuje standardní chybu každého odhadu a informační funkci, je také možné získat index pro test jako celek, který je přímo analogický Cronbachově alfa, nazývané index separace. K tomu je nutné začít s rozkladem IRT odhadu na pravdivé místo a chybu, analogicky k rozkladu pozorovaného skóre na pravdivé skóre a chybu v CTT. Let

kde je skutečné umístění, a je chybová asociace s odhadem. Pak je odhad směrodatné odchylky pro osobu s daným váženým skóre a index oddělení se získá takto

kde střední kvadratická standardní chyba odhadu osoby udává odhad rozptylu chyb, , napříč osobami. Standardní chyby jsou obvykle produkovány jako vedlejší produkt procesu odhadu (viz např. odhad podle Raschova modelu). Index separace se obvykle velmi blíží hodnotě Cronbachovy alfy (Andrich, 1982).

Bylo napsáno mnoho knih, které se zabývají teorií odpovědí položek nebo obsahují IRT nebo IRT-like modely. Toto je částečný seznam, zaměřený na texty, které poskytují větší hloubku.

Tato kniha shrnuje velkou část Lordovy práce IRT, včetně kapitol o vztahu mezi IRT a klasickými metodami, základech IRT, odhadech a několika pokročilých tématech. Její kapitola o odhadech je nyní datována v tom, že primárně pojednává o společné metodě maximální pravděpodobnosti spíše než o metodě mezní maximální pravděpodobnosti implementované Darrellem Bockem a jeho kolegy.

Tato kniha je přístupným úvodem do IRT, zaměřeným, jak už název říká, na psychology.

Tato úvodní kniha je jedním z průkopníků v oboru, a je k dispozici on-line na adrese

Tato kniha poskytuje ucelený přehled o různých populárních IRT-modelech. Hodí se pro osoby, které již mají základní znalosti o IRT.

Tento svazek ukazuje integrovaný úvod do modelů odezvy jednotlivých bodů, které jsou zaměřeny především na odborníky z praxe (výzkumníky a postgraduální studenty).