Test (hodnocení studenta) – Dobrá psychoterapie

Ve vzdělávání, certifikaci, poradenství a mnoha dalších oborech je test nebo zkouška (zkráceně zkouška) nástroj nebo technika určená k měření projevu znalostí, dovedností a/nebo schopností studentů. Test má více otázek větší obtížnosti a vyžaduje více času na dokončení než kvíz. Obvykle je rozdělen do dvou nebo více oddílů, z nichž každý pokrývá jinou oblast oboru nebo zaujímá jiný přístup k hodnocení stejných aspektů.

Normalizovaný test je takový, který porovnává výkon každého jednotlivého subjektu s normou nebo kritériem. Norma může být stanovena nezávisle nebo statistickou analýzou velkého počtu subjektů.

U otázky s více možnostmi výběru uvádí autor testu několik možných odpovědí (obvykle čtyři nebo pět), z nichž si musí testované subjekty vybrat. Existuje jedna správná odpověď, obvykle představovaná pouze jednou možností odpovědi, i když někdy rozdělená na dvě nebo více, z nichž všechny subjekty musí správně identifikovat. Taková otázka může vypadat takto:

Autoři testů obvykle vytvářejí nesprávné možnosti odezvy, často označované jako distraktory, které odpovídají pravděpodobným chybám. Například distraktory mohou představovat časté mylné představy, které se vyskytují během vývojového procesu. Konstrukce efektivních distraktorů je klíčovou výzvou, které je třeba čelit, aby bylo možné sestavit položky s více možnostmi, které mají silné psychometrické vlastnosti. Dobře navržené distraktory, posuzované v kombinaci, mohou přilákat podstatně více než 25% nejslabších studentů, takže se snižuje vliv hádání na celkové skóre. Konstrukce takových položek může v některých případech vyžadovat určitou zručnost a zkušenosti ze strany vývojáře položek.

Obrázek 1: Analýza distraktorů s možností výběru s charakteristikou položky

Graf znázorňující fungování otázky s více možnostmi je znázorněn na obrázku 1. Osa x představuje kontinuum schopností a osa y pravděpodobnost dané volby. Šedá čára mapuje schopnost k pravděpodobnosti správné odpovědi podle Raschova modelu, což je psychometrický model používaný k analýze testovacích dat. Správná odpověď v příkladu znázorněném na obrázku 1 je E. Podíl studentů podél kontinua schopností, kteří zvolili správnou odpověď, je zvýrazněn růžovou barvou. Graf znázorňuje podíl studentů, kteří se rozhodli pro jiné volby v rozsahu kontinua schopností, jak je znázorněno v legendě. Podíl studentů přibližně na stupnici, kteří odpověděli správně na tuto položku, je přibližně 0,1, což je pod poměrem očekávaným, pokud by studenti pouze hádali.

Atraktivním rysem otázek s více možnostmi výběru je, že je obzvláště snadné je ohodnotit. Stroje jako Scantron a softwarové známkování testů založených na počítačích mohou být prováděny automaticky a okamžitě, což je zvláště cenné pro situace, kdy není k dispozici dostatek graderů, aby oznámkovaly velkou třídu nebo rozsáhlé standardizované testy.

Tento formát však není vhodný pro hodnocení všech typů dovedností a schopností. Špatně napsané otázky s více možnostmi často vytvářejí přílišný důraz na prosté zapamatování a deemphasizují procesy a porozumění a neponechávají žádný prostor pro neshodu nebo alternativní interpretaci, což je činí obzvláště nevhodnými pro humanitní obory, jako je literatura a filozofie.

Studenti skládající test na Vídeňské univerzitě, červen 2005

Otázky s volnými odpověďmi (také známé jako rozšířené konstruované odpovědi) obvykle vyžadují, aby subjekty vytvářely písemné odpovědi. Délka písemné odpovědi může být stejně krátká jako jedno slovo nebo matematický výraz, v takovém případě otázka získá některé z charakteristik typu s více možnostmi. Nicméně na vyšších úrovních vzdělání tento typ otázky obvykle vyžaduje hlubší, více analytické myšlení. Nejobtížnější otázky s volnými odpověďmi mohou zahrnovat esej nebo původní kompozici stránky nebo více v délce, nebo vědecký důkaz nebo řešení vyžadující více než hodinu.

Otázky s volnými odpověďmi nepředstavují pro autora testu takovou výzvu, ale hodnocení odpovědí je něco jiného. Efektivní bodování zahrnuje pečlivé čtení odpovědi a hledání specifických rysů, jako je srozumitelnost a logika, které má daná položka hodnotit. Nejlepších výsledků se často dosáhne udělením bodového hodnocení podle explicitně uspořádaných kategorií, které odrážejí zvyšující se kvalitu odpovědí. To může zahrnovat konstrukci hodnotících kritérií a podpůrných materiálů, jako jsou školicí materiály pro značky a vzorky práce, které jsou příkladem kategorií odpovědí. Obvykle se tyto otázky bodují podle jednotné klasifikační rubriky pro větší konzistenci a spolehlivost.

Na druhém konci spektra může být skóre udělováno podle povrchních kvalit odezvy, jako je přítomnost určitých důležitých termínů. V tomto případě je pro testované subjekty snadné oklamat hodnotitele tím, že napíší proud zobecnění, non sequiturs, který zahrnuje termíny, které hodnotitelé hledají.

Znalosti o tom, jak něco udělat, se nehodí ani k volným odpovědím, ani k otázkám s mnohočetným výběrem. Lze je předvést pouze na rovinu. Do této kategorie patří umění, hudba a jazyk, stejně jako neakademické disciplíny, jako je sport a řízení. Studenti technických oborů jsou často povinni předložit originální návrh nebo počítačový program vyvinutý v průběhu dní nebo dokonce měsíců.

Praktickou zkoušku může provádět zkoušející osobně (v takovém případě se může nazývat konkurz nebo zkouška) nebo prostřednictvím zvukového nebo obrazového záznamu. Může být prováděna samostatně nebo v kombinaci s jinými typy otázek; například mnoho řidičských zkoušek ve Spojených státech zahrnuje praktickou zkoušku i oddíl s možností výběru z více možností týkající se dopravních předpisů.

Zkoušky věd mohou zahrnovat laboratorní pokusy (praktické cvičení/laboratorní sezení), aby se ujistil, že se student naučil nejen soubor znalostí, které tvoří vědu, ale také experimentální metody, pomocí kterých byla vyvinuta. Opět platí, že použití explicitních kritérií je obecně prospěšné při hodnocení praktických zkoušek nebo výkonů.

Omezení testování a související problémy

Obecné testy způsobilosti se v některých zemích používají jako základ pro přijetí na vysoké školy a univerzity. Problém spojený s používáním těchto testů je, že je známo, že jsou vystaveny praktickým účinkům a nehodnotí nahromaděné učení studentů během jejich školních let. V důsledku toho byly SAT přejmenovány z testu Scholastic Aptitude na test Scholastic Assessment Test. Některé důkazy naznačují, že SAT skóre žáků 11. a 12. tříd nekoreluje ve velké míře se stupni prváků a špatně koreluje s celkovým hodnocením vysokoškoláků – to způsobilo tlak na ETS, aby přehodnotil jejich zkoušky předtím, než univerzity začnou požadovat po uchazečích, aby poskytli skóre zkoušek pro ACT, zkoušku, která také nekoreluje příliš dobře s GPA prváků, ale koreluje lépe než SAT. Důvody špatné korelace jsou následující:

Navzdory těmto problémům jsou testy méně náchylné k podvádění než jiné nástroje hodnocení učení. Laboratorní výsledky mohou být vykonstruované a domácí úkoly může dělat jeden student a ostatní je mohou ručně kopírovat. Přítomnost odpovědného administrátora testu v kontrolovaném prostředí pomáhá bránit se podvádění.

V některých případech navíc testy s vysokou sázkou přimějí uchazeče, aby se zvedli a splnili vysoká očekávání zkoušky. Obecně je termín high-stakes vyhrazen pro testy, které se používají jako základ pro soutěžní vstup do budoucích kurzů, včetně testů, které mají vysokou váhu v rámci výběrových kritérií, která se používají pro vstup do univerzitních kurzů.

SAT a další důležité zkoušky

Ve Spojených státech a dalších zemích se pro hodnocení velkého významu začaly používat testy založené primárně na otázkách s výběrem z více možností, což má důsledky včetně výše financování veřejných škol a přijetí studentů na vysokoškolské instituce. Nejdůležitějším takovým testem v USA je SAT, který se skládá téměř výhradně z otázek s výběrem z více možností (i když některé z nich jsou speciálně navrženy tak, aby obsahovaly nepřesnosti tohoto typu otázek). Jeho metodika, původně vyvinutá jako test vnitřní inteligence studenta, se ukázala jako zranitelná vůči specializovaným programům přípravy testů, které zlepšují skóre předmětu. SAT je napsán a spravován radou akademie. Z tohoto důvodu někteří komentátoři navrhli, aby testování s vysokou sázkou bylo založeno spíše na obsahu naučeném během školních let. Problémy vznikají s ohledem na srovnatelnost mezi různými školami, odvětvími, státy a tak dále. Klíčovým úkolem je vyvážit potřebu srovnatelnosti s potřebou posoudit dovednosti, znalosti a schopnosti, které si studenti během školních let osvojili.

SAT byl také kritizován za údajnou rasovou předpojatost; etnické menšiny údajně dopadají při zkoušce hůře, než by měly. V důsledku toho začal upadat v nemilost na konci 90. let, s rostoucím důrazem na standardizované testy, které měří skutečné znalosti. Některé z těchto náhrad pocházejí také od akademické rady, ale mnoho států se chopilo iniciativy a navrhlo vlastní testy. Zkouška ACT, zavedená v roce 1959 jako konkurent SAT, také obsahuje otázky více založené na znalostech a je přijímána jako alternativa k SAT pro přijetí na mnoho vysokých škol ve Spojených státech. Mnoho vysokých škol také klade větší důraz na měření dlouhodobých výsledků, jako je průměr známek na střední škole, obtížnost vyučování na střední škole a doporučující dopisy učitelů.

Existují také další high-stakes zkoušky na vyšších vzdělávacích úrovních, jako; Základy inženýrství zkouška spravuje Národní rada zkoušejících pro inženýrství a zeměměřičství (NCEES).

Omezení testování a související problémy

SAT a další důležité zkoušky

Mezinárodní zkoušky (interní)