Spolehlivost je ve statistice konzistence souboru měření nebo měřicího přístroje, často používaného k popisu zkoušky. Může to být buď to, zda měření stejného přístroje poskytují nebo pravděpodobně poskytují stejné měření (test-retest), nebo v případě subjektivnějších přístrojů, jako jsou osobnostní soupisy nebo soupisy vlastností, zda dva nezávislí posuzovatelé dávají podobné skóre (spolehlivost mezi hodnotiteli). Spolehlivost nepřímo souvisí s náhodnou chybou.
Spolehlivost neznamená platnost. To znamená, že spolehlivá míra měří něco konzistentně, ale ne nutně to, co má měřit. Například i když existuje mnoho spolehlivých testů specifických schopností, ne všechny by byly platné pro předpovídání, řekněme, pracovního výkonu. Z hlediska přesnosti a přesnosti je spolehlivost přesnost, zatímco platnost je přesnost.
Spolehlivost je v experimentální vědě míra, do jaké měření testu zůstávají konzistentní oproti opakovaným zkouškám stejného subjektu za stejných podmínek. Experiment je spolehlivý, pokud přináší konzistentní výsledky stejného měření. Je nespolehlivý, pokud opakovaná měření dávají rozdílné výsledky. Může být také interpretován jako neexistence náhodné chyby v měření.
Často používaným příkladem k objasnění rozdílu mezi spolehlivostí a platností v experimentálních vědách je běžná koupelnová váha. Pokud někdo, kdo váží 200 liber, stoupne na váhu desetkrát a pokaždé to ukazuje „200“, pak je měření spolehlivé a platné. Pokud váha shodně ukazuje „150“, pak není platné, ale stále je spolehlivé, protože měření je velmi konzistentní. Pokud se váha hodně měnila kolem 200 (190, 205, 192, 209, atd.), pak by bylo možné považovat váhu za platnou, ale nespolehlivou.
Spolehlivost lze zlepšit srozumitelností vyjádření (u písemných hodnocení), prodloužením míry a dalšími neformálními prostředky. Za nejúčinnější způsob zvýšení spolehlivosti se však považuje formální psychometrická analýza, nazývaná položková analýza. Tato analýza spočívá ve výpočtu obtíží položky a indexů diskriminace položky, přičemž druhý index zahrnuje výpočet korelací mezi položkami a součet bodových hodnocení položky celého testu. Pokud jsou položky, které jsou příliš obtížné, příliš snadné a/nebo mají téměř nulovou nebo negativní diskriminaci, nahrazeny lepšími položkami, spolehlivost míry se zvýší.
V klasické teorii testů je spolehlivost definována matematicky jako poměr variace skutečného skóre a variace pozorovaného skóre. Nebo ekvivalentně jedna minus poměr variace chybového skóre a variace pozorovaného skóre:
kde je symbol spolehlivosti pozorovaného skóre, X; , a jsou odchylky naměřeného, pravdivého a chybového skóre. Bohužel neexistuje způsob, jak přímo pozorovat nebo vypočítat pravdivé skóre, a proto se pro odhad spolehlivosti testu používá celá řada metod.
Klasickým teoretikům testů bylo dobře známo, že přesnost měření není jednotná napříč stupnicí měření. Testy mají tendenci rozlišovat lépe u testovaných s mírnými úrovněmi vlastností a hůře u testovaných s vysokým a nízkým skóre. Teorie odezvy položek rozšiřuje koncept spolehlivosti z jednoho indexu na funkci zvanou informační funkce. Informační funkce IRT je inverzní k podmíněné sledované standardní chybě skóre při jakémkoli daném skóre testu. Vyšší úrovně informací IRT naznačují vyšší přesnost a tím i větší spolehlivost.