Chauvenetovo kritérium

Chauvenetovo kritérium je prostředek k posouzení, zda jeden kus experimentálních dat – odlehlý – ze souboru pozorování, je pravděpodobné, že je nepravdivý.

Chcete-li použít Chauvenetovo kritérium, nejprve vypočítejte průměr a směrodatnou odchylku. Na základě toho, jak moc se podezřelý údaj liší od průměru, použijte normální distribuční funkci (nebo její tabulku) ke stanovení pravděpodobnosti, že daný datový bod bude na hodnotě podezřelého datového bodu. Tuto pravděpodobnost vynásobte počtem odebraných datových bodů. Je-li výsledek menší než 0,5, může být podezřelý datový bod vyřazen, tj. údaj může být odmítnut, je-li pravděpodobnost získání konkrétní odchylky od průměru menší než 1/(2n).

Například předpokládejme, že hodnota se experimentálně měří v několika pokusech jako 9, 10, 10, 10, 11 a 50. Průměr je 16,7 a směrodatná odchylka 16,3. 50 se liší od 16,7 o 33,3, tedy o něco více než dvě směrodatné odchylky. Pravděpodobnost, že se vezmou data s více než dvěma směrodatnými odchylkami od průměru, je zhruba 0,05. Bylo provedeno šest měření, takže pravděpodobnost, že by člověk měl být tak daleko od průměru, je 0,05×6 = 0,3. Protože 0,3 < 0,5, podle Chauvenetova kritéria by se měření 50 mělo vyřadit (takže nový průměr je 10, se směrodatnou odchylkou 0,7).

Další metoda pro eliminaci falešných dat se nazývá Peirceho kritérium. Byla vyvinuta několik let před zveřejněním Chauvenetova kritéria a jedná se o přísnější přístup k racionálnímu vymazání odlehlých dat. Viz odkaz S. Ross níže. Další metody, jako je Grubbsův test, jsou zmíněny v seznamu pro Outlier.

Vymazání odlehlých dat je kontroverzní praktika, kterou mnozí vědci a vyučující vědy odsuzují; Chauvenetovo kritérium sice poskytuje objektivní a kvantifikační metodu pro odmítnutí dat, ale nečiní tuto praxi vědecky ani metodicky vhodnější, zejména v malých množinách nebo tam, kde nelze předpokládat normální rozložení. Odmítnutí odlehlých dat je přijatelnější v oblastech praxe, kde je s jistotou znám základní model měřeného procesu a obvyklé rozložení chyby měření.