Psychometrie je studijní obor zabývající se teorií a technikou psychologického měření, který zahrnuje měření znalostí, schopností, postojů a osobnostních rysů. Obor se zabývá především studiem rozdílů mezi jednotlivci. Zahrnuje dva hlavní výzkumné úkoly, a to: i) konstrukci přístrojů a postupů pro měření a ii) rozvoj a zdokonalování teoretických přístupů k měření.
Velká část rané teoretické a aplikované práce v psychometrice byla provedena ve snaze měřit inteligenci. Původ psychometriky má spojitost s příbuzným oborem psychofyziky. Charles Spearman, průkopník v psychometrice, který vyvinul přístupy k měření inteligence, studoval u Wilhelma Wundta a byl vyškolen v psychofyzice. Psychometrista L. L. Thurstone později vyvinul a aplikoval teoretický přístup k měření označovaný jako zákon srovnávacího úsudku, což je přístup, který má úzké spojitosti s psychofyzikální teorií vyvinutou Ernstem Heinrichem Weberem a Gustavem Fechnerem. Kromě toho Spearman a Thurstone významně přispěli k teorii a aplikaci faktorové analýzy, statistické metody, která byla hojně používána v psychometrice.
V poslední době se psychometrická teorie uplatňuje při měření osobnosti, postojů a přesvědčení, akademických úspěchů a v oblastech souvisejících se zdravím. Měření těchto nepozorovatelných jevů je obtížné a velká část výzkumu a kumulovaného umění v této disciplíně byla vyvinuta ve snaze tyto jevy správně definovat a kvantifikovat. Kritici, včetně praktiků ve fyzikálních vědách a sociálních aktivistů, argumentovali, že taková definice a kvantifikace je nemožně obtížná a že taková měření jsou často zneužívána. Zastánci psychometrických technik však mohou odpovědět, že jejich kritici často zneužívají data tím, že nepoužívají psychometrická kritéria, a také že různé kvantitativní jevy ve fyzikálních vědách, jako je teplo a síly, nelze pozorovat přímo, ale je třeba je odvodit z jejich projevů.
Mezi osobnosti, které významně přispěly k psychometrii, patří Karl Pearson, L. L. Thurstone, Georg Rasch a Arthur Jensen.
Definice měření ve společenských vědách
Definice měření ve společenských vědách má dlouhou historii. V současnosti rozšířená definice, navržená Stanleym Smithem Stevensem (1946), je, že měření je „přiřazování číslic k objektům nebo událostem podle nějakého pravidla“. Tato definice byla zavedena v dokumentu, ve kterém Stevens navrhl čtyři úrovně měření. Ačkoli je široce přijímána, tato definice se v důležitých ohledech liší od klasičtější definice měření přijaté v celých fyzikálních vědách, což je, že měření je číselný odhad a vyjádření velikosti jedné veličiny vůči jiné (Michell, 1997). Stevensova definice měření byla skutečně předložena v reakci na britský Fergusonův výbor, jehož předseda A. Ferguson byl fyzik. Výbor byl jmenován v roce 1932 britskou asociací pro vědecký pokrok, aby zkoumal možnost kvantitativního odhadu smyslových událostí. Ačkoli jeho předseda a další členové byli fyzici, výbor tvořilo také několik psychologů. Zpráva výboru zdůraznila význam definice měření. Stevensova odpověď byla sice navržení nové definice, která měla značný vliv v této oblasti, ale nebyla to zdaleka jediná odpověď na zprávu. Další, výrazně odlišná odpověď byla přijetí klasické definice, jak se odráží v následujícím prohlášení:
Tyto rozdílné odezvy se do značné míry odrážejí v rámci alternativních přístupů k měření. Například metody založené na kovariančních maticích se obvykle používají za předpokladu, že čísla, jako například hrubé skóre odvozené z hodnocení, jsou měřením. Takové přístupy implicitně zahrnují Stevensovu definici měření, která vyžaduje pouze to, aby čísla byla přiřazována podle nějakého pravidla. Za hlavní výzkumný úkol se pak obecně považuje objevení asociací mezi skóre a faktorů, které mají být základem takových asociací. Na druhou stranu, když se používají modely měření, jako je Raschova model, nejsou čísla přiřazována na základě pravidla. Místo toho jsou v souladu s výše uvedeným Reesovým prohlášením uvedena specifická kritéria pro měření a cílem je sestrojit postupy nebo operace, které poskytují data splňující příslušná kritéria. Měření se odhadují na základě modelů a provádějí se testy, aby se zjistilo, zda bylo možné splnit příslušná kritéria.
Nástroje a postupy
První psychometrické přístroje byly navrženy tak, aby měřily pojem inteligence. Nejznámější historický přístup zahrnuje Stanfordův-Binetův IQ test, vyvinutý původně francouzským psychologem Alfredem Binetem. Na rozdíl od poměrně rozšířené mylné představy neexistuje žádný přesvědčivý důkaz, že je možné měřit vrozenou inteligenci pomocí takových nástrojů, ve smyslu vrozené schopnosti učení neovlivněné zkušeností, ani to nebyl původní záměr, když byly vyvinuty. Nicméně IQ testy jsou užitečné nástroje pro různé účely. Alternativní pojetí inteligence je, že kognitivní schopnosti v jednotlivcích jsou projevem obecné složky, nebo obecného inteligenčního faktoru, stejně jako kognitivní schopnosti specifické pro danou oblast.
Psychometrie se široce uplatňuje ve vzdělávacím hodnocení pro měření schopností v oblastech, jako je čtení, psaní a matematika. Hlavními přístupy při aplikaci testů v těchto oblastech byly klasická teorie testů a modernější modely Item Response Theory a Rasch měření. Tyto moderní přístupy umožňují společné škálování osob a hodnotících položek, což poskytuje základ pro mapování vývojového kontinua tím, že umožňuje popisovat dovednosti zobrazené v různých bodech kontinua. Takové přístupy poskytují mocné informace o povaze vývojového růstu v různých oblastech.
Další významné zaměření v psychometrii se soustředilo na testování osobnosti. Existuje celá řada teoretických přístupů ke konceptualizaci a měření osobnosti. Některé z známějších nástrojů zahrnují Minnesotský multifázový seznam osobnosti a Myers-Briggsův typový indikátor. Postoje byly také rozsáhle studovány v psychometrii. Společným přístupem k měření postojů je použití Likertovy stupnice. Alternativní přístup zahrnuje aplikaci rozkládacích modelů měření, nejobecnějším je Hyperbolický kosinový model (Andrich & Luo, 1993).
Psychometrická teorie zahrnuje několik odlišných oblastí studia. Za prvé, psychometrici vyvinuli velké množství teorií používaných při vývoji mentálních testů a analýze dat shromážděných z těchto testů. Tuto práci lze zhruba rozdělit na klasickou teorii testů (CTT) a novější teorii odpovědí na položky (IRT). Přístup, který je podobný IRT, ale také poměrně výrazný, pokud jde o jeho původ a vlastnosti, je reprezentován Raschovým modelem měření. Vývoj Raschova modelu a širší třídy modelů, do které patří, byl explicitně založen na požadavcích měření ve fyzikálních vědách (Rasch, 1960).
Za druhé, psychometrici vyvinuli metody pro práci s velkými maticemi korelací a kovariancí. Techniky v této obecné tradici zahrnují faktorovou analýzu (nalezení důležitých základních dimenzí v datech), multidimenzionální škálování (nalezení jednoduché reprezentace pro vysokodimenzionální data) a shlukování dat (nalezení objektů, které jsou si podobné). V těchto multivariačních deskriptivních metodách se uživatelé snaží zjednodušit velké množství dat. V poslední době představuje modelování strukturálních rovnic a analýza cest sofistikovanější přístupy k řešení tohoto problému velkých kovariančních matic. Tyto metody umožňují, aby byly statisticky sofistikované modely namontovány do dat a testovány, aby se zjistilo, zda jsou adekvátní.
Klíčovými tradičními pojmy v klasické teorii testů jsou spolehlivost a platnost. Spolehlivá míra je měřit něco konzistentně, zatímco platná míra měří to, co má měřit. Spolehlivá míra může být konzistentní, aniž by byla nutně platná, např. měřicí přístroj jako rozbité pravítko může vždy podměřit veličinu pokaždé o stejnou hodnotu (konzistentně), ale výsledná veličina je stále chybná, tedy neplatná. Pro další analogii, spolehlivá puška bude mít v cíli těsný shluk kulek, zatímco ta platná bude středem svého shluku kolem středu cíle, ať už je shluk těsný nebo ne.
Spolehlivost i platnost lze posoudit matematicky. Vnitřní konzistenci lze posoudit korelačním výkonem na dvou polovinách testu (spolehlivost rozděleného poločasu); hodnota Pearsonova korelačního koeficientu součin-moment se upraví pomocí Spearmanova-Brownova predikčního vzorce tak, aby odpovídala korelaci mezi dvěma testy o plné délce. Jiné přístupy zahrnují korelaci uvnitř třídy (poměr rozptylu měření daného cíle k rozptylu všech cílů). Běžně používaným měřítkem je Cronbachovo α, které odpovídá průměru všech možných koeficientů rozděleného poločasu. Stabilita opakovaných měření se posuzuje pomocí Pearsonova koeficientu, stejně jako rovnocennost různých verzí stejného měřítka (například různé formy testu inteligence). Používají se i jiná měřítka.
Platnost může být posouzena korelací měřítek s měřítkem kritéria, o kterém je známo, že je platné. Je-li měřítko kritéria shromažďováno současně s měřením, jehož platnost je potvrzována, cílem je stanovit souběžnou platnost; je-li kritérium shromažďováno později, cílem je stanovit prediktivní platnost. Měřítko má konstruktivní platnost, pokud souvisí s jinými proměnnými, jak to vyžaduje teorie. Platnost obsahu je jednoduše ukázka toho, že položky testu jsou čerpány z měřené oblasti. V příkladu výběru pracovníků je obsah testu založen na definovaném prohlášení nebo souboru prohlášení o znalostech, dovednostech, schopnostech nebo jiných charakteristikách získaných z analýzy práce.
Prediktivní nebo souběžná platnost nemůže přesáhnout druhou mocninu korelace mezi dvěma verzemi stejné míry.
Teorie odezvy položek modeluje vztah mezi latentními rysy a odezvami na testované položky. Mimo jiné výhody poskytuje IRT základ pro získání odhadu místa odběratele testu na daný latentní rys a také standardní chybu měření tohoto místa. Například znalost historie vysokoškolského studenta může být odvozena z jeho skóre v univerzitním testu a pak může být spolehlivě porovnána se znalostmi středoškolského studenta odvozenými z méně obtížného testu. Skóre odvozené klasickou teorií testu tuto vlastnost nemají a posouzení skutečné schopnosti (spíše než schopnosti vzhledem k ostatním odběratelům testu) musí být posouzeno porovnáním skóre s normou skupiny náhodně vybrané z populace. Ve skutečnosti jsou všechny míry odvozené z klasické teorie testu závislé na testovaném vzorku, zatímco v zásadě ty odvozené z teorie odezvy položek nejsou.
Úvahy o platnosti a spolehlivosti jsou obvykle považovány za základní prvky pro stanovení kvality jakéhokoli testu. Profesní a praktické asociace však tyto obavy často zasazují do širších souvislostí při vytváření standardů a vytváření celkových úsudků o kvalitě jakéhokoli testu jako celku v daném kontextu.
V oblasti psychometriky kladou normy pro vzdělávací a psychologické testování normy týkající se platnosti a spolehlivosti, spolu s chybami v měření a souvisejícími úvahami do obecného tématu konstrukce testů, hodnocení a dokumentace. Druhé hlavní téma zahrnuje normy týkající se spravedlnosti v testování, včetně spravedlnosti v testování a používání testů, práv a povinností účastníků testů, testování jednotlivců s různým jazykovým zázemím a testování jednotlivců se zdravotním postižením. Třetí a poslední hlavní téma zahrnuje normy týkající se testovacích aplikací, včetně povinností uživatelů testů, psychologického testování a hodnocení, testování a hodnocení v oblasti vzdělávání, testování v zaměstnání a certifikace, plus testování v hodnocení programů a veřejné politiky.
V oblasti hodnocení, a zejména hodnocení vzdělávání, publikoval Společný výbor pro standardy pro hodnocení vzdělávání tři soubory standardů pro hodnocení. Standardy pro hodnocení personálu byly publikovány v roce 1988, Standardy pro hodnocení programu (2. vydání) byly publikovány v roce 1994 a Standardy pro hodnocení studentů byly publikovány v roce 2003.
Každá publikace představuje a rozpracovává soubor standardů pro použití v různých vzdělávacích prostředích. Standardy poskytují pokyny pro navrhování, provádění, posuzování a zlepšování identifikované formy hodnocení. Každý z standardů byl zařazen do jedné ze čtyř základních kategorií, aby podporoval vzdělávací hodnocení, která jsou řádná, užitečná, proveditelná a přesná. V těchto souborech standardů jsou v rámci tématu přesnost řešeny otázky platnosti a spolehlivosti. Standardy přesnosti studenta například pomáhají zajistit, aby hodnocení studenta poskytovalo spolehlivé, přesné a důvěryhodné informace o studiu a výsledcích studenta.