Spolehlivost zkoušek je prvkem při konstrukci zkoušek a standardizaci zkoušek a je mírou, do jaké měření konzistentně vrací stejný výsledek při opakování za podobných podmínek.
Spolehlivost neznamená platnost. To znamená, že spolehlivá míra měří něco konzistentně, ale ne nutně to, co má měřit. Například i když existuje mnoho spolehlivých testů specifických schopností, ne všechny by byly platné pro předpovídání, řekněme, pracovního výkonu. Z hlediska přesnosti a přesnosti je spolehlivost přesnost, zatímco platnost je přesnost.
Mezi metody jednorázového podání patří dělení na polovinu a vnitřní konzistence.
Spolehlivost lze zlepšit srozumitelností vyjádření (u písemných hodnocení), prodloužením míry a dalšími neformálními prostředky. Za nejúčinnější způsob zvýšení spolehlivosti se však považuje formální psychometrická analýza, nazývaná položková analýza. Tato analýza spočívá ve výpočtu obtíží položky a indexů diskriminace položky, přičemž druhý index zahrnuje výpočet korelací mezi položkami a součet bodových hodnocení položky celého testu. Pokud jsou položky, které jsou příliš obtížné, příliš snadné a/nebo mají téměř nulovou nebo negativní diskriminaci, nahrazeny lepšími položkami, spolehlivost míry se zvýší.
V klasické teorii testů je spolehlivost definována matematicky jako poměr variace skutečného skóre a variace pozorovaného skóre. Nebo ekvivalentně jedna minus poměr variace chybového skóre a variace pozorovaného skóre:
kde je symbol spolehlivosti pozorovaného skóre, X; , a jsou odchylky naměřeného, pravdivého a chybového skóre. Bohužel neexistuje způsob, jak přímo pozorovat nebo vypočítat pravdivé skóre, a proto se pro odhad spolehlivosti testu používá celá řada metod.
Klasickým teoretikům testů bylo dobře známo, že přesnost měření není jednotná napříč stupnicí měření. Testy mají tendenci rozlišovat lépe u testovaných s mírnými úrovněmi vlastností a hůře u testovaných s vysokým a nízkým skóre. Teorie odezvy položek rozšiřuje koncept spolehlivosti z jednoho indexu na funkci zvanou informační funkce. Informační funkce IRT je inverzní k podmíněné sledované standardní chybě skóre při jakémkoli daném skóre testu. Vyšší úrovně informací IRT naznačují vyšší přesnost a tím i větší spolehlivost.