Adaptivní testování

Adaptivní testování neboli počítačově adaptivní testování (CAT) je metoda pro administraci
testů, která se dynamicky přizpůsobuje úrovni výkonnosti zkoušejícího a mění obtížnost prezentovaných položek podle předchozích odpovědí zkoušejícího. Z tohoto důvodu se také nazývá testování na míru.

CAT postupně vybírá otázky tak, aby se maximalizovala přesnost zkoušky na základě toho, co je o zkoušejícím známo z předchozích otázek. Z pohledu zkoušejícího se zdá, že obtížnost zkoušky se přizpůsobuje jejich úrovni schopností. Například, pokud si zkoušející povede dobře na položce střední obtížnosti, bude mu pak předložena obtížnější otázka. Nebo, pokud si povede špatně, bude mu předložena jednodušší otázka. Ve srovnání se statickými testy s výběrem z více možností, které zažil téměř každý, s pevnou sadou položek podávaných všem zkoušejícím, vyžadují testy přizpůsobivé pro počítače méně testovacích položek, aby se dospělo ke stejně přesnému bodovému ohodnocení. (Na metodice CAT samozřejmě není nic, co by vyžadovalo, aby položky byly s výběrem z více možností; ale stejně jako je většina zkoušek s výběrem z více možností, většina zkoušek CAT také používá tento formát.)

Základní počítačově adaptivní testovací metoda je iterační algoritmus s následujícími kroky:

Před administrací první položky není o zkoušeném nic známo, takže algoritmus je zpravidla spuštěn výběrem položky střední, nebo středně snadné obtížnosti jako první položky.

Výsledkem adaptivního podávání je, že různí zkoušející dostávají zcela odlišné testy. Psychometrická technologie, která umožňuje vypočítat spravedlivé skóre napříč různými množinami položek, je teorie odezvy položek (IRT). IRT je také preferovanou metodikou pro výběr optimálních položek, které jsou obvykle vybírány spíše na základě informací než na základě obtížnosti, jako takové.

Obecný test GRE a přijímací test řízení absolventů jsou v současné době primárně spravovány jako počítačově-adaptivní test. Seznam aktivních CAT programů naleznete v Centrále CAT spolu se seznamem aktuálních CAT výzkumných programů a téměř úplnou bibliografií všech publikovaných CAT výzkumů.

Související metodika zvaná multistage testing (MST) nebo CAST se používá v jednotné certifikované veřejné účetní zkoušce. MST se vyhýbá nebo snižuje některé nevýhody CAT, jak je popsáno níže. Více informací o MST najdete ve speciálním vydání Aplikovaného měření ve vzdělávání z roku 2006.

Adaptivní testy mohou poskytnout jednotně přesné skóre pro většinu testovaných. Naopak standardní fixní testy téměř vždy poskytují nejlepší přesnost pro testované se střední schopností a stále horší přesnost pro testované s extrémnějším skóre testů.

Adaptivní test může být obvykle zkrácen o 50% a stále si udržuje vyšší úroveň přesnosti než pevná verze. To se promítá do časové úspory pro testovacího. Testovací uživatelé neztrácejí čas zkoušením položek, které jsou příliš těžké nebo triviálně snadné. Kromě toho, testovací organizace těží z časové úspory; náklady na zkušební čas sedadla jsou podstatně sníženy. Nicméně, protože vývoj CAT zahrnuje mnohem větší náklady než standardní test s pevnou formou, je velká populace nezbytná, aby byl CAT testovací program finančně plodný.

Adaptivní testy mohou, stejně jako jakýkoli test na počítači, vykazovat výsledky bezprostředně po testování.

Adaptivní testování, v závislosti na algoritmu výběru položek, může snížit expozici některých položek, protože zkoušení obvykle obdrží různé sady položek spíše než celou populaci, které je podávána jedna sada. Může však zvýšit expozici ostatních (konkrétně středních nebo středních/snadných položek předložených většině zkoušených na začátku testu).

První problém, se kterým se CAT setkává, je kalibrace fondu položek. Aby bylo možné modelovat charakteristiky položek (např. vybrat optimální položku), musí být všechny položky testu předem podány do značného vzorku a poté analyzovány. Aby toho bylo dosaženo, musí být nové položky smíchány do provozních položek zkoušky (odpovědi jsou zaznamenány, ale nepřispívají k výsledkům účastníků testu), tzv. „pilotní testování“, „předtestování“ nebo „setí“. To představuje logistické, etické a bezpečnostní otázky. Například není možné provést provozní adaptivní test se zbrusu novými, neviditelnými položkami; všechny položky musí být přetvořeny dostatečně velkým vzorkem, aby bylo možné získat stabilní statistiku položek. Tento vzorek může být požadován až do velikosti 1000 zkoušejících. Každý program musí rozhodnout, jaké procento testu může být přiměřeně složeno z nezkreslených pilotních testovacích položek.

Přestože adaptivní testy mají algoritmy pro kontrolu expozice, které zabraňují nadužívání několika položek, expozice podmíněná schopností často není kontrolována a může se snadno přiblížit hodnotě 1. To znamená, že je běžné, že se některé položky stanou velmi běžnými v testech pro lidi se stejnou schopností. To je vážný bezpečnostní problém, protože skupiny sdílející položky mohou mít podobnou úroveň funkčních schopností. Ve skutečnosti je zcela randomizovaná zkouška nejbezpečnější (ale také nejméně efektivní).

Kontrola minulých položek se obecně nepovoluje. Adaptivní testy mají tendenci podávat snadnější položky poté, co člověk odpoví nesprávně. Bystrý testovací pracovník by údajně mohl takové stopy použít k odhalení nesprávných odpovědí a jejich opravě. Nebo by testovací pracovníci mohli být vedeni k tomu, aby záměrně vybírali nesprávné odpovědi, což by vedlo ke stále snadnějšímu testu. Po oklamání adaptivního testu, aby sestavil maximálně snadnou zkoušku, by pak mohli přezkoumat položky a odpovědět na ně správně – případně dosáhnout velmi vysokého skóre. Testovací pracovníci si často stěžují na nemožnost kontroly.

Při stavbě CAT existuje pět technických komponent (následující je převzato z Weiss & Kingsbury, 1984 ). Tento seznam nezahrnuje praktické otázky, jako je přetváření položek nebo živé polní vydání.

Soubor položek musí být k dispozici, aby si CAT mohl vybrat. Soubor musí být kalibrován psychometrickým modelem, který se používá jako základ pro zbývající čtyři složky. Typicky se jako psychometrický model používá teorie odezvy položek. Jedním z důvodů, proč je teorie odezvy položek populární, je skutečnost, že umisťuje osoby a položky do stejné metriky (označené řeckým písmenem theta), což je nápomocné při problémech při výběru položek (viz níže).

V CAT jsou položky vybírány na základě výkonu zkoušejícího až do daného bodu v testu. CAT však zjevně není schopen provést žádný konkrétní odhad schopnosti zkoušejícího, když nebyly podány žádné položky. Je tedy nutný nějaký jiný počáteční odhad schopnosti zkoušejícího. Pokud je známa nějaká předchozí informace týkající se zkoušejícího, může být použita, ale často CAT pouze předpokládá, že zkoušející má průměrné schopnosti – proto je první položka často středně obtížná.

Jak již bylo zmíněno, teorie odezvy položek staví zkoušející a položky do stejné metriky. Proto, pokud má CAT odhad schopnosti zkoušejícího, je schopen vybrat položku, která je pro tento odhad nejvhodnější. Technicky se to provádí výběrem položky s největší informací v daném bodě. Informace je funkcí diskriminačního parametru položky, stejně jako podmíněného rozptylu a pseudohádacího parametru (pokud se používá).

Po administraci položky CAT aktualizuje svůj odhad úrovně schopností zkoušeného. Pokud zkoušený odpoví na položku správně, CAT pravděpodobně odhadne jejich schopnost o něco vyšší a naopak. To se provede použitím funkce odezvy položky z teorie odezvy položky k získání funkce pravděpodobnosti schopností zkoušeného. Dvě metody pro to se nazývají odhad maximální pravděpodobnosti a bayesovský odhad. Ten předpokládá a priori rozdělení schopností zkoušeného a má dva běžně používané odhady: expectation a posteriori a maximum a posteriori. Maximální pravděpodobnost je ekvivalentní Bayesovu maximu a posterioriori odhadu, pokud se předpokládá rovnoměrnost (f(x)=1) před. Maximální pravděpodobnost je asymptoticky nezaujatá, ale nemůže poskytnout theta odhad pro nemíchaný (veskrze správný nebo nesprávný) vektor odezvy, v takovém případě může být nutné dočasně použít bayesovskou metodu.

Algoritmus CAT je navržen tak, aby opakovaně spravoval položky a aktualizoval odhad schopnosti zkoušejícího. To bude pokračovat až do vyčerpání fondu položek, pokud nebude do CAT začleněno kritérium ukončení. Často je test ukončen, když standardní chyba měření zkoušejícího klesne pod určitou uživatelem stanovenou hodnotu, proto výše uvedené tvrzení, že výhodou je, že výsledky zkoušejícího budou jednotně přesné nebo „ekvibrační“. Jiná kritéria ukončení existují pro různé účely testu, například pokud je test navržen pouze k určení, zda by měl zkoušející „projít“ nebo „selhat“ v testu, místo získání přesného odhadu jeho schopnosti.

V mnoha situacích je účelem zkoušky rozdělit uchazeče do dvou nebo více vzájemně se vylučujících a vyčerpávajících kategorií. Patří sem běžný „mistrovský test“, kde jsou dvě klasifikace „Pass“ a „Fail“, ale také situace, kdy existují tři nebo více klasifikací, jako „Nedostatečné“, „Základní“ a „Pokročilé“ úrovně znalostí nebo kompetencí. Druh „adaptivního“ CAT na úrovni položek popsaný v tomto článku je nejvhodnější pro testy, které nejsou „Pass/Fail“. (Nebo pro testy Pass/Fail, kde je poskytnutí dobré zpětné vazby mimořádně důležité.) Některé úpravy jsou nezbytné pro CAT Pass/Fail, také známý jako počítačový klasifikační test (CCT). U uchazečů s pravdivým skóre velmi blízkým požadovanému skóre budou počítačové klasifikační testy výsledkem dlouhých testů, zatímco ti s pravdivým skóre vysoko nad nebo pod dosaženým skóre budou mít zkoušky nejkratší.

Například musí být použito nové kritérium ukončení a bodový algoritmus, který klasifikuje zkoušejícího do kategorie, místo aby poskytoval bodový odhad schopnosti. K tomu jsou k dispozici dvě primární metodiky. Výraznější z nich je test sekvenčního poměru pravděpodobnosti (SPRT). Ten formuluje problém klasifikace zkoušejícího jako test hypotézy, že schopnost zkoušejícího je rovna buď určitému bodu nad cutscore, nebo jinému určenému bodu pod cutscore. Všimněte si, že se jedná spíše o formulaci bodové hyptézy než o formulaci složené hypotézy, která je koncepčně vhodnější. Formulace složené hypotézy by byla taková, že schopnost zkoušejícího je v oblasti nad cutscore nebo v oblasti pod cutscore.

Používá se také přístup založený na intervalu spolehlivosti, kdy po podání každé položky algoritmus určuje pravděpodobnost, že pravdivé skóre zkoušené osoby je nad nebo pod dosaženým skóre . Algoritmus může například pokračovat, dokud 95% interval spolehlivosti pro pravdivé skóre již neobsahuje dosažené skóre. V tomto okamžiku nejsou zapotřebí žádné další položky, protože rozhodnutí o úspěšném a neúspěšném výsledku je již 95% přesné (za předpokladu, že psychometrické modely, z nichž vychází adaptivní testování, vyhovují zkoušené osobě a testu).

V praxi je algoritmus obecně naprogramován tak, aby měl minimální a maximální délku testu (nebo minimální a maximální dobu administrace). Tento přístup byl původně nazýván „adaptivní mastery testing“, ale může být aplikován na neadaptivní výběr položek a klasifikační situace dvou nebo více cutscorů (typický mastery test má jeden cutscore).

Použitý algoritmus výběru položek závisí na kritériu ukončení. Maximalizace informace při cutscore je pro SPRT vhodnější, protože maximalizuje rozdíl v pravděpodobnostech použitých v poměru pravděpodobnosti. Maximalizace informace při odhadu schopnosti je pro přístup intervalu spolehlivosti vhodnější, protože minimalizuje podmíněnou standardní chybu měření, která snižuje šířku intervalu spolehlivosti potřebnou pro klasifikaci.

Praktická omezení adaptability

Výzkumnice ETS Martha Stockingová zavtipkovala, že většina adaptivních testů jsou ve skutečnosti stěží adaptivní testy (BAT), protože v praxi je na výběr položky uvaleno mnoho omezení. Například zkoušky CAT musí obvykle splňovat obsahové specifikace; ústní zkouška může být složena ze stejného počtu analogií, typu vyplňte-prázdné a synonyma položky. CAT mají obvykle nějakou formu omezení expozice položky, aby se zabránilo tomu, že nejvíce informativní položky budou přeexponovány. U některých testů je také učiněn pokus vyvážit povrchové charakteristiky položek, jako je pohlaví lidí v položkách nebo etnika naznačená jejich jmény. Zkoušky CAT jsou tedy často omezeny v tom, které položky si může vybrat a u některých zkoušek mohou být omezení podstatná a vyžadovat komplexní vyhledávací strategie (např. lineární programování), aby se našly vhodné položky.

Jednoduchou metodou pro kontrolu expozice položek je „náhodná“ metoda nebo metoda vrstev. Namísto výběru nejprůkaznější položky v každém bodě testu algoritmus náhodně vybere další položku z dalších pěti nebo deseti nejprůkaznějších položek. To lze použít v průběhu celého testu nebo jen na jeho začátku. Jinou metodou je metoda Sympson-Hetter , při které se náhodné číslo vybere z U(0,1) a porovná s parametrem ki, který pro každou položku určí testovaný uživatel. Pokud je náhodné číslo větší než ki, uvažuje se o další nejprůkaznější položce.

Wim van der Linden a jeho spoluhráči vyvinuli alternativní přístup zvaný stínové testování, který zahrnuje vytvoření celých stínových testů jako součást výběru položek. Výběr položek ze stínových testů pomáhá adaptivním testům splnit kritéria výběru tím, že se zaměřují na globálně optimální volby (na rozdíl od voleb, které jsou pro danou položku optimální).