Standardizovaná zkouška – Dobrá psychoterapie

Standardizovaný test je test podávaný a hodnocený standardním způsobem. Testy jsou navrženy tak, aby „otázky, podmínky pro podávání, postupy hodnocení a interpretace byly konzistentní“ (Sylvan Learning, 2006) a byly „podávány a hodnoceny předem stanoveným standardním způsobem“ (Popham, 1999).

Nejstarší doklady o standardizovaném testování založeném na zásluhách pocházejí z Číny z období dynastie Chan. Koncept státu ovládaného muži schopností a ctností byl výsledkem konfuciánské filozofie. Císařské zkoušky zahrnovaly tzv. Šest umění, které zahrnovalo hudbu, lukostřelbu a jezdecké umění, aritmetiku, psaní a znalost rituálů a obřadů veřejných i soukromých částí. Později bylo k testování přidáno pět studií (vojenské strategie, občanské právo, příjmy a daně, zemědělství a geografie).[Jak odkazovat a odkaz na shrnutí nebo text]

První rozsáhlé využití IQ testu v USA bylo za první světové války (cca 1914-18). Educational Testing Service (ETS) založená v roce 1948 je největší soukromá vzdělávací testovací a měřicí organizace na světě, která pracuje s ročním rozpočtem přibližně 900 milionů dolarů.

Zákon o základním a středním vzdělávání z roku 1994 vyžaduje standardizované testování ve veřejných školách. US Public Law 107-110, známý jako No Child Left Behind Act z roku 2001 dále váže financování veřejných škol na standardizované testování.

Vzdělávací systém USA posuzuje akademickou kvalifikaci uchazečů na základě výsledků jejich testů standardizovaných testů, standardizovaných přijímacích testů na vysoké školy a postgraduální školy:

V praxi se standardizované testy mohou skládat z otázek s více možnostmi a z otázek s pravdivými nepravdami. Takové položky lze levně a rychle otestovat pomocí bodování speciálních seznamů odpovědí počítačem nebo pomocí počítačově adaptivního testování. Některé testy mají také složky pro psaní krátkých odpovědí nebo esejí, kterým nezávislí hodnotitelé přidělují skóre. Ty mohou hodnotitelé odstupňovat pomocí rubrik (pravidel nebo pokynů) a kotevních papírů (příkladů prací pro každé možné skóre), aby určili známku, která má být dané odpovědi přidělena. Řadu hodnocení však lidé nezhodnotí. Například Graduate Record Exam je počítačově adaptivní hodnocení, které nevyžaduje žádné bodování lidmi (s výjimkou části psaní).

S lidským bodováním mohou být problémy. Například Seattle Times uvedly, že za WASL státu Washington dostávali dočasní zaměstnanci 10 dolarů za hodinu. Každému matematickému problému věnovali pouhých 20 sekund, 2 a 1/2 minuty se věnovali eseji o předmětech, které mohou určit, zda student vystuduje střední školu, což je podle některých znepokojující vzhledem k vysoké sázce, kterou takové testy obnášejí. Pearson podobně boduje i v mnoha dalších státních testech. Dohoda mezi hodnotiteli se může pohybovat mezi 60 až 85 procenty v závislosti na testu a bodovacím sezení. Někdy státy platí za to, aby si každý test přečetli dva nebo více hodnotitelů, aby se zvýšila spolehlivost, i když to nevylučuje, že odpovědi na testy získají různé výsledky.

Existují dva typy standardizovaných testů: testy s odkazem na normy a testy s odkazem na kritéria, jejichž výsledkem je skóre s odkazem na normy, respektive skóre s odkazem na kritéria. Skóre s odkazem na normy porovnávají testovací testy se vzorkem vrstevníků. Skóre s odkazem na kritéria porovnávají testovací testy s kritériem a lze je také popsat jako hodnocení založené na normách, neboť jsou v souladu s reformním hnutím zaměřeným na standardy. Testy s odkazem na normy jsou spojeny s tradičním vzděláváním, které měří úspěch podle pořadí studentů, zatímco hodnocení založená na normách jsou založena na rovnostářském přesvědčení, že všichni studenti mohou uspět, pokud jsou posuzováni podle vysokých standardů, které jsou vyžadovány od všech studentů bez ohledu na schopnosti nebo ekonomické zázemí.[Jak odkazovat a odkaz na shrnutí nebo text]

Úvahy o platnosti a spolehlivosti jsou obvykle považovány za základní prvky pro stanovení kvality jakéhokoli standardizovaného testu. Profesní a praktické asociace však tyto obavy často zasazují do širších souvislostí, když vytvářejí standardy a vytvářejí celkové soudy o kvalitě jakéhokoli standardizovaného testu jako celku v daném kontextu.

V oblasti hodnocení, a zejména hodnocení vzdělávání, publikoval Společný výbor pro standardy pro hodnocení vzdělávání tři soubory standardů pro hodnocení. Standardy pro hodnocení personálu byly publikovány v roce 1988, Standardy pro hodnocení programu (2. vydání) byly publikovány v roce 1994 a Standardy pro hodnocení studentů byly publikovány v roce 2003.

Každá publikace představuje a rozpracovává soubor standardů pro použití v různých vzdělávacích prostředích. Standardy poskytují pokyny pro navrhování, provádění, posuzování a zlepšování identifikované formy hodnocení. Každý z standardů byl zařazen do jedné ze čtyř základních kategorií, aby podporoval vzdělávací hodnocení, která jsou řádná, užitečná, proveditelná a přesná. V těchto souborech standardů jsou v rámci tématu přesnost řešeny otázky platnosti a spolehlivosti. Standardy přesnosti studenta například pomáhají zajistit, aby hodnocení studenta poskytovalo spolehlivé, přesné a důvěryhodné informace o studiu a výsledcích studenta.

V oblasti psychometriky kladou normy pro vzdělávací a psychologické testování normy týkající se platnosti a spolehlivosti, spolu s chybami v měření a souvisejícími úvahami do obecného tématu konstrukce testů, hodnocení a dokumentace. Druhé hlavní téma zahrnuje normy týkající se spravedlnosti v testování, včetně spravedlnosti v testování a používání testů, práv a povinností účastníků testů, testování jednotlivců s různým jazykovým zázemím a testování jednotlivců se zdravotním postižením. Třetí a poslední hlavní téma zahrnuje normy týkající se testovacích aplikací, včetně povinností uživatelů testů, psychologického testování a hodnocení, testování a hodnocení v oblasti vzdělávání, testování v zaměstnání a certifikace, plus testování v hodnocení programů a veřejné politiky.

Jednou z hlavních výhod standardizovaného testování je, že je schopno poskytnout hodnocení, která jsou psychometricky platná a spolehlivá, a také výsledky, které jsou zobecnitelné a opakovatelné.

Další výhodou je agregace. Dobře navržený standardizovaný test poskytuje hodnocení zvládnutí oblasti znalostí nebo dovedností jedince, které na určité úrovni agregace poskytne užitečné informace. To znamená, že zatímco jednotlivá hodnocení nemusí být dostatečně přesná pro praktické účely, střední skóre tříd, škol, poboček společnosti nebo jiných skupin může poskytnout užitečné informace kvůli snížení chyby dosažené zvětšením velikosti vzorku.

Zatímco standardizované testy jsou často kritizovány jako nespravedlivé, psychometrické standardy používané při vývoji standardizovaných testů by přinesly spravedlivější testování, pokud by byly použity v jiných typech testování. Zejména by musela být prokázána účinnost každé testovací položky při dosahování cíle testu.

Skóre testů se stále více používají k důležitým vzdělávacím rozhodnutím, ale mohou být omezeným základem pro rozhodování o věcech, jako je povýšení, sledování, maturita, přijetí na vysokou školu nebo získání stipendií. Někteří tvrdí, že důležitá rozhodnutí by měla být založena na více měřítkách, včetně známek ve třídách. Standardy testů a velké výzkumné skupiny, jako je Národní akademie věd, jasně říkají, že velká vzdělávací rozhodnutí by neměla být založena pouze na skóre testu. Nicméně použití každého opatření, které doplňuje standardizovaný test, by mělo empiricky prokázat platnost, která zvyšuje platnost použití jen testu.