Standardizované testování je jakýkoliv test, který se používá napříč různými školami nebo jinými situacemi. Tvůrci takových testů musí specifikovat diskrétní správnou odpověď na každou otázku. Tento typ testu zahrnuje jak testy úspěšnosti (které měří již známé znalosti), tak i testy způsobilosti (které se pokoušejí předvídat budoucí výkonnost nebo potentální) dané žákům základních škol, anglickým GCSE a americkým SAT. Tyto testy projdou psychometrickým postupem standardizace testů mají zavedené normy, specifické pokyny pro administraci a bodování a jejich spolehlivost a platnost byla vědecky prokázána.
Standardizované testy obvykle zahrnují alespoň některé otázky s více možnostmi a pravdivě nepravdivé otázky. Ty mohou být odstupňovány počítačem nebo lidmi, kteří materiálu do hloubky nerozumí, pokud mají seznam správných odpovědí. Jednou z potenciálních vad takových testů je, že testovaný může omylem přeskočit řádek a pak být označen špatně na materiálu, na který znal správnou odpověď.
Standardizované testy často obsahují i písemné části; ty jsou odstupňovány lidmi, kteří používají rubriky, nebo pokyny, jak dobrá esej na toto téma bude.
Někteří se domnívají, že standardizované testy umožňují porovnat výsledky studentů z různých škol, eliminují předpojatost z inflace známek a vliv reputace škol na úředníky přijímající na univerzity. Jiní tvrdí, že standardizované testy posilují předpojatost ve vzdělávání, protože studenti, jejichž rodiny mají přístup k možnostem obohacení, si v takových testech vedou lépe než studenti z jiných částí společnosti. Takové testy, jakkoli se snaží být objektivní, jsou nástroji kultury a mají kořeny v jakémkoli kulturním nebo filozofickém chápání, které jim dalo vzniknout.
Standardizované testy generují užitečné informace pouze tehdy, pokud každá otázka generuje poměr správných a nesprávných odpovědí. Pokud tedy téměř všichni testovaní dostanou správnou odpověď, je třeba testovací otázku z testu vyřadit. Podobně pokud téměř všichni testovaní dostanou určitou otázku nesprávnou, je třeba testovací otázku vyřadit. Standardizované objektivní testy vytvářejí určitý význam porovnáním správných odpovědí s nesprávnými.
Nejčastěji jsou testy podávány lidem podobného věku nebo stupňům v určitém období vývoje. Tato praxe umožňuje výzkumníkům studovat korektní až nesprávné poměry odezvy u třeťáků (například) v průběhu času nebo z regionu do regionu. Široké spektrum testovaných v určité skupině generuje data pro stanovení normativní klasifikace pro určitou skupinu. Tato data mohou sloužit jako vodítko pro to, co daný konkrétní test zjistí jako normativní odezvu pro daný test. Z tohoto důvodu se mnoho standardizovaných testů také nazývá „norm referenced“.
Většina standardizovaných testů jsou testy úspěšnosti, a proto mají malou prediktivní hodnotu pro studenty, učitele nebo školy. Vytvářejí pouze dobrá data pro úzké soubory dovedností nebo témata. Mnoho školských systémů však používá standardizované testování jako screeningový nástroj, jako základ osnov nebo jako široké srovnání mezi studenty. Standardizované testy mají omezenou hodnotu a je třeba je považovat pouze za jeden způsob měření výkonnosti, potenciálu nebo inteligence.
Tento článek je označen od července 2006.
Nejstarší důkazy o standardizovaném testování založeném na zásluhách pocházejí z Číny z období dynastie Chan. Koncept státu ovládaného muži schopností a ctností byl výsledkem konfuciánské filozofie. Císařské zkoušky zahrnovaly Šest umění, které zahrnovalo hudbu, lukostřelbu a jezdecké umění, aritmetiku, psaní a znalost rituálů a obřadů veřejné i soukromé části. Později bylo k testování přidáno pět studií (vojenské strategie, občanské právo, příjmy a daně, zemědělství a geografie).
Standardizované testování není tradičně součástí evropské pedagogiky. Na základě skeptické a otevřené tradice debaty zděděné z antického Řecka upřednostňovala západní akademická obec esej.
Používání standardizovaného testování ve Spojených státech je fenoménem 20. století s původem v první světové válce. V poslední době je částečně poháněna snadným počítačovým známkováním standardizovaných testů a komparativní obtížností známkování esejů počítačem. Ve Spojených státech přispěla k debatě o standardizovaném testování také potřeba, aby federální vláda prováděla smysluplná srovnání napříč vysoce decentralizovaným (lokálně kontrolovaným) veřejným vzdělávacím systémem.
První rozsáhlé využití standardizovaných metod hodnocení souvisejících s IQ testem, poprvé používaných v USA, bylo během první světové války (cca 1914-18).
Americká Educational Testing Service (ETS) založená v roce 1948 je největší soukromá vzdělávací testovací a měřicí organizace na světě, která pracuje s ročním rozpočtem přibližně 900 milionů dolarů.
Zákon o základním a středním vzdělání z roku 1965 vyžadoval standardizované testování ve veřejných školách. US Public Law 107-110, známý jako No Child Left Behind Act z roku 2001 dále váže financování veřejných škol na standardizované testování.
V praxi mohou být standardizované testy složeny z otázek s více možnostmi, pravdivé-nepravdivé a/nebo esejové otázky. Takové položky mohou být testovány levně a rychle pomocí bodování speciálních seznamů odpovědí počítačem nebo pomocí počítačově-adaptivního testování. Některé testy mají také komponenty pro psaní krátkých odpovědí nebo esejů, kterým nezávislí hodnotitelé přidělují skóre a kteří používají rubriky (pravidla nebo pokyny) a srovnávací papíry (příklady prací pro každé možné skóre) k určení známky, která má být dané odpovědi udělena. Většina hodnocení však není hodnocena lidmi; lidé jsou používáni k bodování položek, které nejsou schopny být snadno hodnoceny počítačem (tj. eseje). Například, Graduate Record Exam je počítačově-adaptivní hodnocení, které nevyžaduje žádné bodování lidmi (s výjimkou části psaní).
Mohou se vyskytnout problémy s lidským bodováním, což je důvod, proč se dává přednost počítačovému bodování. Například Seattle Times uvedly, že u washingtonského WASL strávili dočasní zaměstnanci, kteří dostávali 10 dolarů za hodinu, pouhých 20 sekund u každého matematického problému a 2,5 minuty u slohových předmětů, které by mohly určit, zda student vystuduje střední školu, což je podle některých znepokojující vzhledem k tomu, jak vysoké jsou tyto testy v sázce. Pearson boduje podobně i u mnoha dalších státních testů. Dohoda mezi hodnotiteli se může pohybovat mezi 60 až 85 procenty v závislosti na testu a bodovacím sezení. Někdy státy platí za to, aby si dva nebo více hodnotitelů přečetlo každou práci, aby se zvýšila spolehlivost, i když to nevylučuje, že odpovědi na testy získají různé výsledky.Všimněte si však, že otevřené složky testu jsou často jen malou částí testu.
Existují dva typy standardizovaných interpretací skóre testů: interpretace skóre s odkazem na normu nebo interpretace skóre s odkazem na kritérium. Interpretace skóre s odkazem na normu porovnávají testovací testy se vzorkem vrstevníků. Interpretace skóre s odkazem na kritéria porovnávají testovací testy s kritériem (formální definice obsahu) bez ohledu na skóre ostatních zkoušejících. Ty lze také popsat jako hodnocení založená na normách, protože jsou v souladu s hnutím reformy vzdělávání založené na normách. Interpretace skóre testů s odkazem na normu jsou spojeny s tradičním vzděláváním, které měří úspěch pomocí řazení studentů pomocí různých metrik, včetně známek a skóre testů, zatímco hodnocení založená na normách jsou založena na přesvědčení, že všichni studenti mohou uspět, pokud jsou posuzováni podle vysokých standardů, které jsou vyžadovány od všech studentů bez ohledu na schopnosti nebo ekonomické zázemí.[Jak odkazovat a odkaz na shrnutí nebo text]
Úvahy o platnosti a spolehlivosti jsou obvykle považovány za základní prvky pro stanovení kvality jakéhokoli standardizovaného testu. Profesní a praktické asociace však tyto obavy často zasazují do širších souvislostí, když vytvářejí standardy a vytvářejí celkové soudy o kvalitě jakéhokoli standardizovaného testu jako celku v daném kontextu.
V oblasti hodnocení, a zejména hodnocení vzdělávání, publikoval Společný výbor pro standardy pro hodnocení vzdělávání tři soubory standardů pro hodnocení. Standardy pro hodnocení personálu byly publikovány v roce 1988, Standardy pro hodnocení programu (2. vydání) byly publikovány v roce 1994 a Standardy pro hodnocení studentů byly publikovány v roce 2003.
Každá publikace představuje a rozpracovává soubor standardů pro použití v různých vzdělávacích prostředích. Standardy poskytují pokyny pro navrhování, provádění, posuzování a zlepšování identifikované formy hodnocení. Každý z standardů byl zařazen do jedné ze čtyř základních kategorií, aby podporoval vzdělávací hodnocení, která jsou řádná, užitečná, proveditelná a přesná. V těchto souborech standardů jsou v rámci tématu přesnost řešeny otázky platnosti a spolehlivosti. Standardy přesnosti studenta například pomáhají zajistit, aby hodnocení studenta poskytovalo spolehlivé, přesné a důvěryhodné informace o studiu a výsledcích studenta.
V oblasti psychometrie kladou standardy pro vzdělávací a psychologické testování na platnost a spolehlivost, spolu s chybami měření a jedinci se zdravotním postižením. Třetí a poslední hlavní téma se týká standardů souvisejících s testováním aplikací, osvědčování, plus testování v hodnocení programů a veřejné politiky.
Jednou z hlavních výhod standardizovaného testování je, že výsledky mohou být empiricky zdokumentovány, proto lze prokázat, že výsledky testů mají relativní míru platnosti a spolehlivosti, stejně jako výsledky, které jsou zobecnitelné a opakovatelné. To je často v kontrastu se známkami na školním přepisu, které jsou přiřazovány jednotlivými učiteli. Může být obtížné vysvětlit rozdíly ve vzdělávací kultuře napříč školami, obtížnost osnov daného učitele, rozdíly ve stylu výuky a techniky a předsudky, které ovlivňují známkování. Díky tomu jsou standardizované testy užitečné pro přijímací účely ve vysokoškolském vzdělávání, kde se škola snaží porovnat studenty z celé země nebo z celého světa.
Další výhodou je agregace. Dobře navržený standardizovaný test poskytuje hodnocení zvládnutí oblasti znalostí nebo dovedností jedince, které na určité úrovni agregace poskytne užitečné informace. To znamená, že zatímco jednotlivá hodnocení nemusí být dostatečně přesná pro praktické účely, střední skóre tříd, škol, poboček společnosti nebo jiných skupin může poskytnout užitečné informace kvůli snížení chyby dosažené zvětšením velikosti vzorku.
Nevýhody a kritika
„Standardizované testy nemohou měřit iniciativu, kreativitu, představivost, koncepční myšlení, zvídavost, úsilí, ironii, úsudek, závazek, nuance, dobrou vůli, etickou reflexi ani řadu dalších cenných dispozic a atributů. To, co mohou měřit a počítat, jsou izolované dovednosti, specifická fakta a funkce, obsahové znalosti, nejméně zajímavé a nejméně významné aspekty učení.“
I když si mnozí pedagogové uvědomují, že standardizované testy mají své místo v arzenálu nástrojů, které se používají k hodnocení studentských úspěchů, kritici mají pocit, že nadužívání a zneužívání těchto testů má vážné negativní důsledky na výuku a učení. Podle skupiny FairTest, když jsou standardizované testy primárním faktorem odpovědnosti, je v pokušení použít testy k definování osnov a zaměření výuky. Co není testováno, není vyučováno a to, jak je předmět testován, se stává modelem, jak předmět učit. Kritici říkají, že to znevýhodňuje učení vyššího řádu. Samozřejmě to může být také použito k zaměření výuky na požadované výsledky, jako je základní čtení a matematika . Popham navíc upozorňuje, že standardizované výsledky testů jsou problematickými nástroji školní odpovědnosti, protože výsledky zkoušejících jsou ovlivněny třemi věcmi: co se děti učí ve škole, co se děti učí mimo školu a vrozenou inteligencí. Byly navrženy nové modely přidané hodnoty, které se s touto kritikou vypořádají pomocí statistické kontroly vrozených schopností a mimoškolních kontextových faktorů.
I když je možné použít standardizovaný test a nenechat jeho limity řídit osnovy a výuku, může to vést k tomu, že se škola vystaví riziku, že bude mít nižší výsledky testů, což bude mít negativní politické důsledky. Například podle federálního zákona No Child Left Behind ve Spojených státech nízké výsledky testů znamenají, že školy a okresy mohou být označeny jako „potřebují zlepšení“ a potrestány. Pokud je test jedinou metodou odpovědnosti, pak je méně pravděpodobné, že rodiče a komunita budou vědět, jak dobře se děti učí v nevyzkoušených oblastech.
Někteří se také obávají rostoucího vlivu přípravy na testy. S rostoucím významem standardizovaného testování se mnoho studentů pokouší připravit se na test, a to buď prostřednictvím bezplatných vzorových testů a programů, nákupem knih určených k přípravě studenta na test, nebo soukromých doučovacích lekcí. Někteří rodiče jsou ochotni zaplatit tisíce dolarů za přípravu svých dětí na testy, což je finanční bariéra, která může poskytnout dětem bohatších rodičů výhodu ve srovnání s méně bohatými rodinami. Nicméně tato kritika by se pravděpodobně vztahovala ještě více na testovací alternativy, jako jsou portfolia nebo eseje. Mnoho studií také ukazuje, že koučování na testy má malý vliv na skóre dobře postavených testů[Jak odkazovat a odkaz na shrnutí nebo text]. Schopnost bohatých rodin platit za kvalitnější vzdělání není specificky spojena se standardizovaným testováním.
Ztráta informací z bodovacích testů Správně špatně
Pokud jsou testy hodnoceny správně-špatně, byl učiněn důležitý předpoklad o učení. Předpokládá se, že počet správných odpovědí nebo součet skóre položek (kde je udělen částečný kredit) je vhodným a dostatečným měřítkem aktuálního stavu výkonnosti. Kromě toho je učiněn druhotný předpoklad, že ve špatných odpovědích nejsou žádné smysluplné informace.
Za prvé, správné odpovědi lze dosáhnout pomocí memorování bez hlubšího pochopení základního obsahu nebo koncepční struktury předkládaného problému. Za druhé, když je pro řešení potřeba více než jeden krok, často existuje celá řada přístupů k odpovědím, které povedou ke správnému výsledku. Skutečnost, že odpověď je správná, neznamená, který z několika možných postupů byl použit. Když student dodá odpověď (nebo ukáže práci), je tato informace snadno dostupná z původních dokumentů.
Za druhé, pokud by chybné odpovědi byly slepým odhadem, nebyly by mezi těmito odpověďmi žádné informace. Na druhou stranu, pokud chybné odpovědi odrážejí interpretační odchylky od očekávané, měly by tyto odpovědi vykazovat uspořádaný vztah k čemukoliv, co celkový test měří. Tento odklon by měl být závislý na úrovni psycholingvistické vyspělosti studenta, který si zvolí nebo dá odpověď v jazyce, ve kterém je test napsán.
V tomto druhém případě by mělo být možné extrahovat toto pořadí z odpovědí na testované položky. Takové extrakční procesy, například Raschův model, jsou běžnou praxí pro vývoj položek mezi profesionály. Protože jsou však nesprávné odpovědi během procesu vyhodnocování vyřazeny, pokusy interpretovat tyto odpovědi pro informace, které by mohly obsahovat, se provádějí jen zřídka. Příklad otázky, která by mohla studenta vést k tomu, aby zvolil špatnou odpověď: „Máte šálek kávy a vhodíte do něj kostku cukru. Sladit kávu trvá určitou dobu. Nyní rozdělte kostku na polovinu. Bude vaše káva sladší rychleji?“ Naznačená, ale neuvedená část: „vložíte do kávy obě poloviny“. Ale možná si student myslí, že se používá jen jedna z polovin. To může přinést „špatnou“ odpověď.
Za třetí, i když jsou někdy poskytovány dílčí skóre na základě témat, běžnější praxí je vykázat celkové skóre nebo jeho verzi se změněnou stupnicí. Tato změna stupnice má za cíl porovnat tato skóre s nějakým standardem. Toto další zhroucení výsledků testu systematicky odstraňuje všechny informace o tom, které konkrétní položky byly vynechány.
Bodové ohodnocení testu tedy ztrácí 1) jak studenti dosáhli správných odpovědí, 2) co je svedlo na scestí směrem k nepřijatelným odpovědím a 3) kde v těle testu došlo k tomuto odchýlení od očekávání.
Tento komentář naznačuje, že současný postup hodnocení zakrývá dynamiku procesu skládání testů a zastírá schopnosti hodnocených studentů. Současná praxe hodnocení tyto údaje v úvodním kroku hodnocení příliš zjednodušuje. Výsledkem této procedurální chyby je zastření diagnostických informací, které by mohly pomoci učitelům lépe sloužit svým studentům. Dále zabraňuje těm, kteří pilně připravují tyto testy, aby mohli pozorovat informace, které by je jinak na přítomnost této chyby upozornily.
Řešení tohoto problému, známé jako Response Spectrum Analysis (RSA), se v současné době vyvíjí a zdá se, že je schopno obnovit všechny tři tyto formy ztráty informací, přičemž stále poskytuje číselnou stupnici pro zjištění aktuálního stavu výkonu a sledování změny výkonu.
Ke zkreslení testu dochází tehdy, když test systematicky upřednostňuje jednu skupinu před druhou, i když obě skupiny jsou si v rysu, který test měří, rovny. Kritici tvrdí, že tvůrci a facilitátoři testu mají tendenci reprezentovat střední třídu, bílé pozadí. Kritici tvrdí, že standardizované testování odpovídá hodnotám, návykům a jazyku tvůrců testu[Jak odkazovat a odkazovat na shrnutí nebo text]. Nicméně vzhledem k tomu, že většina testů pochází z bílého, středostavovského prostředí, je důležité poznamenat, že skupiny s nejvyšším hodnocením nejsou lidé tohoto původu, ale spíše mají tendenci pocházet z asijských populací.
Ne všechny testy jsou dobře napsané, například obsahují otázky s mnohočetným výběrem s nejednoznačnými odpověďmi nebo špatně pokrývají požadované osnovy. Některé standardizované testy zahrnují otázky na eseje a některé kritizují účinnost metod třídění. Nedávno bylo pro některé testy zavedeno částečné počítačové třídění esejů, což je ještě kontroverznější.
Skóre testů se v některých případech používá jako jediné, povinné nebo primární kritérium pro přijetí nebo certifikaci. Některé státy USA například vyžadují maturitní zkoušky na středních školách. Odpovídající skóre u těchto výstupních zkoušek se vyžaduje pro maturitu na středních školách. Test všeobecného rozvoje vzdělávání se často používá jako alternativa k maturitě na střední škole.
Další aplikace zahrnují sledování (rozhodování o tom, zda má být student zapsán do „rychlé“ nebo „pomalé“ verze kurzu) a udělování stipendií. Ve Spojených státech mnoho vysokých škol a univerzit automaticky promítá výsledky z testů pokročilých stáží do kreditů na vysokou školu, spokojenosti s požadavky na absolvování nebo umístění do pokročilejších kurzů. Zobecněné testy, jako je SAT, se častěji používají jako jedno měřítko mezi několika, při rozhodování o přijetí. Některé veřejné instituce mají odstřižené skóre pro SAT, GPA nebo třídní zařazení, pro vytváření tříd uchazečů, které automaticky přijmou nebo odmítnou.
Vysoké spoléhání se při rozhodování na standardizované testy je často kontroverzní, a to z výše uvedených důvodů. Kritici často navrhují zdůraznit kumulativní nebo i nečíselná měřítka, jako jsou známky ve třídě nebo stručná individuální hodnocení (psaná v próze) od učitelů. Zastánci argumentují, že výsledky testů poskytují jednoznačný, objektivní standard, který minimalizuje potenciál pro politický vliv nebo protekci.
Národní akademie věd doporučuje, aby zásadní vzdělávací rozhodnutí nebyla založena pouze na skóre testu.Použití minimálního skóre pro přijímací nebo maturitní zkoušky neznamená jednotný standard, protože skóre testu je téměř vždy kombinováno s dalšími minimálními kritérii, jako je počet kreditů, prerekvizitní kurzy, docházka apod. Skóre testu je často vnímáno jako „jediné kritérium“ jednoduše proto, že je nejobtížnější, nebo je plnění jiných kritérií automaticky předpokládá se. Výjimkou z tohoto pravidla je GED, která umožnila mnoha slavným jedincům, aby jejich dovednosti byly uznány, i když nesplňovaly tradiční kritéria.