Psychometrie

Psychometrie je obor zabývající se teorií a technikou pedagogických a psychologických měření, který zahrnuje měření znalostí, schopností, postojů a osobnostních rysů. Tento obor se zabývá především studiem nástrojů měření, jako jsou dotazníky a testy. Zahrnuje dva hlavní výzkumné úkoly, a to: (i) konstrukci nástrojů a postupů měření a (ii) rozvoj a zdokonalování teoretických přístupů k měření.

Velká část raných teoretických a aplikovaných prací v oblasti psychometrie byla věnována snaze měřit inteligenci. Francis Galton je často označován za otce psychometrie, protože vymyslel a používal mentální testy. Vznik psychometrie však souvisí také s příbuzným oborem psychofyziky. Charles Spearman, průkopník psychometrie, který vyvinul přístupy k měření inteligence, studoval u Wilhelma Wundta a byl vyškolen v psychofyzice. Psychometrista L. L. Thurstone později vyvinul a aplikoval teoretický přístup k měření označovaný jako zákon srovnávacího úsudku, což je přístup, který má úzkou souvislost s psychofyzikální teorií, kterou vyvinuli Ernst Heinrich Weber a Gustav Fechner. Kromě toho Spearman i Thurstone významně přispěli k teorii a aplikaci faktorové analýzy, statistické metody, která byla vyvinuta a hojně využívána v psychometrii.

V poslední době se psychometrická teorie uplatňuje při měření osobnosti, postojů a přesvědčení, studijních výsledků a v oblastech souvisejících se zdravím. Měření těchto nepozorovatelných jevů je obtížné a velká část výzkumu a nashromážděných poznatků v této disciplíně vznikla ve snaze tyto jevy správně definovat a kvantifikovat. Kritici, včetně praktiků z oblasti fyzikálních věd a sociálních aktivistů, tvrdí, že taková definice a kvantifikace je nemožně obtížná a že taková měření jsou často zneužívána. Stejně jako v případě psychometrických testů osobnosti používaných při přijímacích řízeních,
„například zaměstnavatel, který chce někoho na pozici vyžadující důslednou pozornost k opakujícím se detailům, pravděpodobně nebude chtít dát tuto práci někomu, kdo je velmi kreativní a snadno se nudí.“ Zastánci psychometrických technik však mohou odpovědět, že jejich kritici často zneužívají data tím, že nepoužívají psychometrická kritéria, a také že různé kvantitativní jevy ve fyzikálních vědách, jako je teplo a síly, nelze pozorovat přímo, ale musí se odvozovat z jejich projevů.

Mezi osobnosti, které významně přispěly k psychometrii, patří Karl Pearson, L. L. Thurstone, Georg Rasch, Johnson O’Connor, Frederic M. Lord, Ledyard R. Tucker a Arthur Jensen.

Definice měření v sociálních vědách

Definice měření ve společenských vědách má dlouhou historii. V současné době je rozšířená definice, kterou navrhl Stanley Smith Stevens (1946), že měření je „přiřazování čísel objektům nebo událostem podle nějakého pravidla“. Tato definice byla představena v článku, v němž Stevens navrhl čtyři úrovně měření. Ačkoli je tato definice široce přijímána, liší se v důležitých ohledech od klasičtější definice měření přijaté v rámci fyzikálních věd, podle níž je měření číselným odhadem a vyjádřením velikosti jedné veličiny vzhledem k jiné (Michell, 1997). Stevensova definice měření byla skutečně předložena jako reakce na britský Fergusonův výbor, jehož předseda A. Ferguson byl fyzik. Výbor byl jmenován v roce 1932 Britskou asociací pro rozvoj vědy, aby prozkoumal možnost kvantitativního odhadu smyslových jevů. Ačkoli jeho předseda a další členové byli fyzikové, ve výboru bylo také několik psychologů. Zpráva výboru zdůraznila význam definice měření. Stevensova reakce spočívala v návrhu nové definice, která měla v oboru značný vliv, nebyla to však zdaleka jediná reakce na zprávu. Další, výrazně odlišnou reakcí bylo přijetí klasické definice, jak se odráží v následujícím prohlášení:

Tyto rozdílné odpovědi se do značné míry odrážejí v alternativních přístupech k měření. Například metody založené na kovariančních maticích se obvykle používají za předpokladu, že čísla, jako jsou hrubé výsledky získané z hodnocení, jsou měřením. Takové přístupy implicitně zahrnují Stevensovu definici měření, která vyžaduje pouze to, aby čísla byla přiřazena podle nějakého pravidla. Za hlavní výzkumný úkol se pak obvykle považuje odhalení asociací mezi skóre a faktorů, které jsou předpokládaným základem těchto asociací. Na druhou stranu při použití modelů měření, jako je Raschův model, nejsou čísla přiřazována na základě nějakého pravidla. Místo toho jsou v souladu s výše uvedeným Reesovým výrokem stanovena konkrétní kritéria pro měření a cílem je zkonstruovat postupy nebo operace, které poskytují údaje splňující příslušná kritéria. Na základě modelů se odhadují měření a provádějí se testy, aby se zjistilo, zda se podařilo splnit příslušná kritéria.

Nástroje a postupy

První psychometrické nástroje byly určeny k měření pojmu inteligence. Nejznámější historický přístup zahrnuje Stanford-Binetův test IQ, který původně vyvinul francouzský psycholog Alfred Binet. Navzdory poměrně rozšířenému mylnému názoru neexistuje žádný přesvědčivý důkaz, že je možné pomocí těchto nástrojů měřit vrozenou inteligenci ve smyslu vrozené schopnosti učení neovlivněné zkušenostmi, a ani to nebylo původním záměrem při jejich vývoji. Přesto jsou testy IQ užitečným nástrojem pro různé účely. Alternativní pojetí inteligence spočívá v tom, že kognitivní schopnosti u jednotlivců jsou projevem obecné složky neboli obecného faktoru inteligence, stejně jako kognitivní schopnosti specifické pro danou oblast.

Psychometrie se široce používá při hodnocení ve vzdělávání k měření schopností v oblastech, jako je čtení, psaní a matematika. Hlavními přístupy při aplikaci testů v těchto oblastech byly klasická teorie testů a modernější teorie odpovědi na položku a Raschovy modely měření. Tyto moderní přístupy umožňují společné škálování osob a hodnotících položek, což poskytuje základ pro mapování vývojových kontinuí tím, že umožňuje popis dovedností projevujících se v různých bodech kontinua, například pomocí vizuální analogové škály. Tyto přístupy poskytují důležité informace o povaze vývojového růstu v různých oblastech.

Dalším významným tématem v psychometrii bylo testování osobnosti. Existovala řada teoretických přístupů ke konceptualizaci a měření osobnosti. Mezi nejznámější nástroje patří Minnesotský vícefázový osobnostní inventář, pětifaktorový model (neboli „velká pětka“) a nástroje jako PAPI a Myers-Briggsův typový indikátor. Postoje jsou v psychometrii rovněž předmětem rozsáhlého zkoumání. Běžným přístupem k měření postojů je použití Likertovy škály. Alternativní přístup zahrnuje použití rozkládacích modelů měření, z nichž nejobecnější je hyperbolický kosinový model (Andrich & Luo, 1993).

Psychometrická teorie zahrnuje několik různých oblastí studia. Za prvé, psychometrici vytvořili rozsáhlý soubor teorií používaných při vývoji mentálních testů a analýze dat získaných z těchto testů. Tuto práci lze zhruba rozdělit na klasickou teorii testů (CTT) a teorii odpovědi na položku (IRT) Embretson & Reise, 2000; Hambleton & Swaminathan, 1985). Přístup, který se z matematického hlediska jeví jako podobný IRT, ale zároveň je z hlediska svého původu a vlastností zcela odlišný, představuje Raschův model měření. Vývoj Raschova modelu a širší třídy modelů, do které patří, byl výslovně založen na požadavcích měření v přírodních vědách (Rasch, 1960).

Za druhé, psychometrici vyvinuli metody pro práci s velkými maticemi korelací a kovariancí. Mezi techniky této obecné tradice patří faktorová analýza (hledání důležitých základních dimenzí v datech), vícerozměrné škálování (hledání jednoduché reprezentace pro vysokodimenzionální data) a shlukování dat (hledání objektů, které jsou si navzájem podobné). V těchto vícerozměrných popisných metodách se uživatelé snaží zjednodušit velké množství dat. Novější modelování strukturálních rovnic a analýza cest představují sofistikovanější přístupy k řešení tohoto problému velkých kovariančních matic. Tyto metody umožňují na data napasovat statisticky sofistikované modely a testovat, zda jsou adekvátní.

Jedním z hlavních nedostatků různých faktorových analýz je nedostatek řezných bodů. Obvyklý postup spočívá v zastavení faktorizace, když vlastní čísla klesnou pod jednu, protože původní sféra se zmenší. Nedostatek řezných bodů se týká i dalších vícerozměrných metod. V dolní části jsou psychometrické prostory Hilbertovy, ale pracuje se s nimi, jako by byly kartézské. Problémem jsou tedy spíše interpretace než využití metody.

Klíčovými tradičními pojmy klasické teorie testů jsou spolehlivost a platnost. Spolehlivé měření měří něco konzistentně, zatímco validní měření měří to, co měřit má. Spolehlivá míra může být konzistentní, aniž by nutně musela být platná, např. měřicí přístroj, jako je zlomené pravítko, může pokaždé (konzistentně) podměřovat nějakou veličinu o stejnou hodnotu, ale výsledná veličina je stále nesprávná, tj. neplatná. Jiná analogie: spolehlivá puška bude mít v terči těsný shluk střel, zatímco platná puška bude svůj shluk soustřeďovat kolem středu terče, ať už je tento shluk těsný, nebo ne.

Spolehlivost i platnost lze posuzovat koncepčně i matematicky. Vnitřní konzistenci lze posoudit korelací výsledků dvou polovin testu (split-half reliability); hodnota Pearsonova součinového korelačního koeficientu se upraví pomocí Spearmanova-Brownova predikčního vzorce tak, aby odpovídala korelaci mezi dvěma testy plné délky. Další přístupy zahrnují korelaci uvnitř třídy (poměr rozptylu měření daného cíle k rozptylu všech cílů). Běžně používanou mírou je Cronbachovo α, které odpovídá průměru všech možných koeficientů rozdělení. Stabilita při opakovaných měřeních se posuzuje pomocí Pearsonova koeficientu, stejně jako ekvivalence různých verzí téhož měření (například různých forem testu inteligence). Používají se i další míry.

Platnost lze posoudit korelací měr s kriteriální mírou, o níž je známo, že je platná. Pokud je kriteriální měřítko shromažďováno současně s validovaným měřítkem, je cílem stanovit souběžnou platnost; pokud je kritérium shromažďováno později, je cílem stanovit prediktivní platnost. Měřítko má konstruktovou platnost, pokud souvisí s ostatními proměnnými tak, jak to vyžaduje teorie. Obsahová validita je jednoduše prokázání toho, že položky testu pocházejí z měřené oblasti. V příkladu personálního výběru je obsah testu založen na definovaném výroku nebo souboru výroků o znalostech, dovednostech, schopnostech nebo jiných charakteristikách získaných z analýzy pracovních míst.

Prediktivní nebo souběžná validita nesmí přesáhnout kvadrát korelace mezi dvěma verzemi téhož měřítka.

Teorie odpovědi na položku modeluje vztah mezi latentními rysy a odpověďmi na testové položky. Kromě jiných výhod poskytuje IRT základ pro získání odhadu umístění testovaného na daném latentním rysu a také standardní chyby měření tohoto umístění. Například znalosti vysokoškolského studenta v oblasti historie lze odvodit z jeho výsledku v univerzitním testu a poté je spolehlivě porovnat se znalostmi středoškolského studenta, které byly odvozeny z méně obtížného testu. Výsledky odvozené podle klasické teorie testů tuto vlastnost nemají a hodnocení skutečných schopností (spíše než schopnosti ve vztahu k ostatním účastníkům testu) musí být hodnoceno porovnáním výsledků s výsledky „normové skupiny“ náhodně vybrané z populace. Ve skutečnosti jsou všechny míry odvozené z klasické teorie testů závislé na testovaném vzorku, zatímco míry odvozené z teorie odpovědi na položku v zásadě závislé nejsou.

Úvahy o validitě a spolehlivosti jsou obvykle považovány za základní prvky pro určení kvality jakéhokoli testu. Profesní sdružení a sdružení odborníků z praxe však tyto otázky často zasazují do širších souvislostí při tvorbě norem a celkovém posuzování kvality jakéhokoli testu jako celku v daném kontextu. V mnoha oblastech aplikovaného výzkumu je předmětem zájmu úvaha, zda je metrika daného psychologického inventáře smysluplná nebo libovolná.

Standardy pro pedagogické a psychologické testování zahrnují v této oblasti normy týkající se validity a reliability, chyb měření a souvisejících úvah do obecného tématu konstrukce, hodnocení a dokumentace testů. Druhé hlavní téma zahrnuje standardy týkající se spravedlnosti při testování, včetně spravedlnosti při testování a používání testů, práv a povinností účastníků testování, testování osob z různých jazykových prostředí a testování osob se zdravotním postižením. Třetí a poslední hlavní téma se zabývá standardy souvisejícími s aplikacemi testování, včetně odpovědnosti uživatelů testů, psychologického testování a hodnocení, testování a hodnocení ve vzdělávání, testování v zaměstnání a kvalifikaci a testování v hodnocení programů a veřejné politice.

V oblasti hodnocení, a zejména hodnocení vzdělávání, zveřejnil Společný výbor pro standardy hodnocení vzdělávání tři soubory standardů pro hodnocení. Standardy pro hodnocení pracovníků byly vydány v roce 1988, Standardy pro hodnocení programů (2. vydání) byly vydány v roce 1994 a Standardy pro hodnocení studentů byly vydány v roce 2003.

Každá publikace představuje a rozpracovává soubor standardů pro použití v různých vzdělávacích prostředích. Standardy poskytují pokyny pro navrhování, provádění, hodnocení a zlepšování určené formy hodnocení. Každý ze standardů byl zařazen do jedné ze čtyř základních kategorií s cílem podpořit správné, užitečné, proveditelné a přesné hodnocení vzdělávání. V těchto souborech standardů jsou úvahy o platnosti a spolehlivosti zahrnuty do tématu přesnosti. Například standardy přesnosti studentů pomáhají zajistit, že hodnocení studentů bude poskytovat spolehlivé, přesné a důvěryhodné informace o učení a výkonu studentů.