Standardizovaný test je test zadávaný a hodnocený standardním způsobem. Testy jsou navrženy tak, aby „otázky, podmínky administrace, postupy bodování a interpretace byly jednotné“ (Sylvan Learning, 2006) a byly „administrovány a bodovány předem stanoveným, standardním způsobem“ (Popham, 1999).
Nejstarší důkazy o standardizovaném testování založeném na zásluhách pocházejí z Číny z doby dynastie Han. Koncepce státu, v němž vládnou schopní a ctnostní lidé, vycházela z konfuciánské filozofie. Císařské zkoušky se týkaly takzvaných šesti umění, která zahrnovala hudbu, lukostřelbu a jezdectví, aritmetiku, psaní a znalost rituálů a obřadů na veřejných i soukromých místech. Později bylo ke zkouškám přidáno pět studií (vojenské strategie, občanské právo, příjmy a daně, zemědělství a zeměpis) [Jak odkazovat a odkazovat na shrnutí nebo text].
Poprvé se IQ test ve velkém měřítku použil v USA během první světové války (asi v letech 1914-18). Educational Testing Service (ETS), která byla založena v roce 1948, je největší soukromou organizací na světě zabývající se testováním a měřením v oblasti vzdělávání, jejíž roční rozpočet činí přibližně 900 milionů dolarů.
Zákon o základním a středním vzdělávání z roku 1994 vyžaduje standardizované testování ve veřejných školách. Veřejný zákon USA č. 107-110, známý jako No Child Left Behind Act z roku 2001, dále váže financování veřejných škol na standardizované testování.
Vzdělávací systém USA posuzuje akademickou kvalifikaci uchazečů na základě výsledků standardizovaných testů, standardizovaných přijímacích testů na vysoké školy a postgraduální studia:
V praxi se standardizované testy mohou skládat z otázek s výběrem odpovědí a z otázek typu pravda-nepravda. Takové položky lze levně a rychle testovat pomocí speciálních odpovědních archů na počítači nebo pomocí počítačového adaptivního testování. Některé testy mají také složky s krátkými odpověďmi nebo psaním esejí, kterým nezávislý hodnotitel přiděluje skóre. Ty mohou být hodnoceny hodnotiteli, kteří používají rubriky (pravidla nebo pokyny) a kotevní papíry (příklady prací pro každý možný výsledek), aby určili známku, která má být udělena odpovědi. Řada hodnocení však není hodnocena lidmi. Například zkouška Graduate Record Exam je počítačové adaptivní hodnocení, které nevyžaduje bodování lidmi (s výjimkou písemné části).
S lidským bodováním mohou být problémy. Například deník Seattle Times uvedl, že v případě zkoušky WASL ve státě Washington dostávali dočasní zaměstnanci 10 dolarů na hodinu. Na každé úloze z matematiky strávili pouhých 20 vteřin, na eseji 2 a půl minuty u položek, které mohou rozhodnout o tom, zda student ukončí střední školu, což je podle některých názorů vzhledem k vysoké sázce na úspěch u takových testů znepokojivé. Podobně Pearson hodnotí mnoho dalších státních testů. Shoda mezi hodnotiteli se může pohybovat mezi 60 a 85 procenty v závislosti na testu a bodovací relaci. Někdy státy platí za to, že každou práci čtou dva nebo více hodnotitelů, aby se zvýšila spolehlivost, i když to nevylučuje, že odpovědi na test dostanou různé body.
Existují dva typy standardizovaných testů: testy vztažené k normě a testy vztažené ke kritériu, jejichž výsledkem je skóre vztažené k normě, resp. skóre vztažené ke kritériu. Normované skóre porovnává testované osoby se vzorkem jejich vrstevníků. Kriteriální skóre porovnává účastníky testu s kritériem a lze je také označit jako hodnocení založené na standardech, protože je v souladu s hnutím za reformu vzdělávání založenou na standardech. Norm-referenční testy jsou spojeny s tradičním vzděláváním, které měří úspěch na základě pořadí žáků, zatímco hodnocení založené na standardech vychází z rovnostářského přesvědčení, že všichni žáci mohou uspět, pokud jsou hodnoceni podle vysokých standardů, které jsou vyžadovány od všech žáků bez ohledu na jejich schopnosti nebo ekonomické zázemí.
Úvahy o validitě a reliabilitě jsou obvykle považovány za základní prvky pro určení kvality jakéhokoli standardizovaného testu. Profesní sdružení a sdružení odborníků z praxe však tyto otázky často zasazují do širších souvislostí při tvorbě standardů a při celkovém posuzování kvality jakéhokoli standardizovaného testu jako celku v daném kontextu.
V oblasti hodnocení, a zejména hodnocení vzdělávání, zveřejnil Společný výbor pro standardy hodnocení vzdělávání tři soubory standardů pro hodnocení. Standardy pro hodnocení pracovníků byly vydány v roce 1988, Standardy pro hodnocení programů (2. vydání) byly vydány v roce 1994 a Standardy pro hodnocení studentů byly vydány v roce 2003.
Každá publikace představuje a rozpracovává soubor standardů pro použití v různých vzdělávacích prostředích. Standardy poskytují pokyny pro navrhování, provádění, hodnocení a zlepšování určené formy hodnocení. Každý ze standardů byl zařazen do jedné ze čtyř základních kategorií s cílem podpořit správné, užitečné, proveditelné a přesné hodnocení vzdělávání. V těchto souborech standardů jsou úvahy o platnosti a spolehlivosti zahrnuty do tématu přesnosti. Například standardy přesnosti studentů pomáhají zajistit, že hodnocení studentů bude poskytovat spolehlivé, přesné a důvěryhodné informace o učení a výkonu studentů.
V oblasti psychometrie jsou ve Standardech pro pedagogické a psychologické testování normy týkající se validity a reliability, chyb měření a souvisejících úvah zařazeny do obecného tématu konstrukce, hodnocení a dokumentace testů. Druhé hlavní téma zahrnuje standardy týkající se spravedlnosti při testování, včetně spravedlnosti při testování a používání testů, práv a povinností účastníků testování, testování osob z různých jazykových prostředí a testování osob se zdravotním postižením. Třetí a poslední hlavní téma se zabývá standardy souvisejícími s aplikacemi testování, včetně odpovědnosti uživatelů testů, psychologického testování a hodnocení, testování a hodnocení ve vzdělávání, testování v zaměstnání a kvalifikaci a testování v hodnocení programů a veřejné politice.
Jednou z hlavních výhod standardizovaného testování je, že je schopno poskytnout hodnocení, které je psychometricky platné a spolehlivé, a také výsledky, které jsou zobecnitelné a opakovatelné.
Další výhodou je agregace. Dobře navržený standardizovaný test poskytuje hodnocení zvládnutí určité oblasti znalostí nebo dovedností, které na určité úrovni agregace poskytne užitečné informace. To znamená, že zatímco individuální hodnocení nemusí být pro praktické účely dostatečně přesné, průměrné výsledky tříd, škol, poboček společnosti nebo jiných skupin mohou poskytnout užitečné informace díky snížení chyby dosažené zvýšením velikosti vzorku.
Ačkoli jsou standardizované testy často kritizovány jako nespravedlivé, psychometrické standardy uplatňované při vývoji standardizovaných testů by vedly ke spravedlivějšímu testování, kdyby byly použity i v jiných typech testování. Zejména by se musela prokázat účinnost každé testové položky při dosahování cíle testu.
Výsledky testů se stále častěji používají při důležitých rozhodnutích týkajících se vzdělávání, ale mohou být jen omezeným podkladem pro rozhodování, jako je postup do vyššího ročníku, sledování, ukončení střední školy, přijetí na vysokou školu nebo získání stipendia. Někteří tvrdí, že důležitá rozhodnutí by měla být založena na více měřítkách, včetně třídních známek. Testové standardy a významné výzkumné skupiny, jako je Národní akademie věd, jasně uvádějí, že důležitá rozhodnutí v oblasti vzdělávání by neměla být založena pouze na výsledcích testů. Nicméně použití každého opatření, které doplňuje standardizovaný test, by mělo empiricky prokázat platnost, která zvyšuje platnost použití pouze testu.