W statystyce wartość odstająca (lub horsain w języku angielskim odstająca ) to wartość lub obserwacja, która jest „odległa” od innych obserwacji tego samego zjawiska, to znaczy ostro kontrastuje z wartościami mierzonymi „normalnie”. Wartość odstająca może wynikać ze zmienności właściwej dla obserwowanego zjawiska lub może również wskazywać na błąd eksperymentalny. Te ostatnie są czasami wykluczane ze zbioru danych .
Wartości odstające mogą pojawić się przypadkowo w dowolnym rozkładzie, ale często wskazują albo na błąd pomiaru, albo na to, że populacja jest rozmieszczona zgodnie z prawem o dużym prawdopodobieństwie . W pierwszym przypadku wskazane jest pozbycie się tych wartości lub zastosowanie wskaźników statystycznych, które są bardziej odporne na wartości odstające, podczas gdy w drugim przypadku wskazują one, że rozkład jest silnie wypaczony i dlatego jest trzeba być bardzo ostrożnym przy używaniu narzędzi lub rozumowania zaprojektowanego dla normalnej dystrybucji . Częstą przyczyną wartości odstających jest mieszanie się dwóch rozkładów, które mogą pochodzić z 2 bardzo różnych subpopulacji lub mogą wskazywać „prawidłowy pomiar” na „błąd pomiaru”: zjawisko to można zamodelować za pomocą modelu mieszanego .
W większych zestawach danych kilka wartości może znacznie różnić się od średniej . Może to być spowodowane systematycznym błędem zwanym również odchyleniem, który może być nieodłącznym elementem modelu używanego do opisu rozkładu zjawiska, lub może to być kilka wartości, które są daleko od centrum danych. Wartości odstające mogą również wskazywać na fałszywe dane, błędne obliczenia lub ograniczenia modelu statystycznego. Jednak w dużych próbkach oczekuje się niewielkiej liczby wartości odstających (co nie jest spowodowane jakimkolwiek nienormalnym stanem).
Wartości odstające, grupując razem bardziej skrajne wartości, mogą obejmować wartość maksymalną lub wartość minimalną lub obie - zależy to od tego, czy te wartości są ekstremalnie wysokie, czy niskie. Jednak wartości maksymalne i minimalne nie zawsze są wartościami odstającymi, ponieważ mogą nie odbiegać zbytnio od innych wartości.
Naiwna statystyczna interpretacja zbioru danych zawierającego wartości odstające może wprowadzać w błąd i wprowadzać w błąd. Na przykład, jeśli ktoś zdecyduje się obliczyć średnią temperaturę 10 obiektów w pomieszczeniu, a 9 z nich ma temperaturę między 20 a 25 stopni Celsjusza, a ostatni to piec pracujący w 175 ° C , to mediana zakresu będzie pomiędzy 20 i 25 ° C, a średnia temperatura wynosi od 35,5 i 40 ° C . W tym przypadku mediana jest lepszym wskaźnikiem temperatury obiektów niż średnia. Błędem jest myślenie, że średnia i mediana są wskaźnikami równoważnymi. Jak zilustrowano w tym przykładzie, wartości odstające niektórych danych mogą ujawnić, że należą one do innej populacji niż pozostałe wartości w szeregu.
Mówi się, że wskaźniki lub estymatory zdolne do radzenia sobie z wartościami odstającymi są solidne: mediana jest solidnym wskaźnikiem, podczas gdy średnia nie.
W przypadku normalnego rozkładu danych , z reguły trzy sigma stwierdza się, że około 1 na 22 obserwacje ma odchylenie od średniej równa lub większa niż 2 razy odchylenie standardowe i który w przybliżeniu u 1 na 370 obserwacje ma odchylenie od średnie odchylenie od średniej równe lub większe niż 3-krotność odchylenia standardowego. Zatem to empiryczne prawo pozwala nam określić, czy liczba znalezionych wartości odstających jest normalna, czy też konieczne jest poszukiwanie przyczyny innej niż przypadek statystyczny. Na przykład w próbie 1000 wartości znalezienie 5 wartości odstających, które różnią się od średniej ponad 3-krotność odchylenia standardowego, jest „normalne” - patrz rozkład Poissona - i sugeruje brak anomalii w szeregu wartości. Jeśli jednak wielkość próby wynosi 100 wartości, znalezienie tylko 3 wartości odstających wystarczy, aby wykazać, że istnieje powód inny niż zwykły przypadek (wartości z innej populacji lub błąd modelu ...), ponieważ jest to ponad 11-krotność liczby oczekiwany z zasadą trzech sigma.
W ogóle, jeśli charakter rozmieszczenia ludności jest znana a priori , możliwe jest, aby sprawdzić, czy liczba odstających różni się znacznie od tego, co oczekuje: dla danego progu (dlatego mają wartości prawdopodobieństwa p bycia leży w przedział [-próg; próg]) danego rozkładu, liczba wartości odstających będzie zgodna z rozkładem dwumianowym parametru p , który można ogólnie przybliżyć rozkładem Poissona parametru λ = pn . Tak więc, jeśli weźmiemy rozkład normalny z progiem przy 3 odchyleniach standardowych od średniej, p wynosi około 0,3%, a zatem dla 1000 wartości możemy przybliżyć liczbę wartości, których odchylenie jest większe niż próg (a zatem 3σ ) według rozkładu Poissona z λ = 3.
Dane odstające mogą mieć wiele przyczyn. Urządzenie pomiarowe może mieć tymczasową awarię. Może wystąpić błąd w transmisji lub w transkrypcji danych. Mogła nastąpić zmiana procedur, oszukańcze zachowanie lub błąd ludzki. Próbka mogła być również „skażona” przez osobniki spoza badanej populacji. Ostrzeżenie ! dane może wydawać się odbiegające od normy, gdy jest tylko skrajne i zgodne z naturalnymi zmianami populacji. Jego pozornie anormalny charakter może również ujawnić słabą adekwatność modelu statystycznego zastosowanego do interpretacji danych, co wymaga dalszych badań badacza. Patologiczny aspekt wartości odstających w jakiejś postaci (słowo patologiczny jest używane w tym sensie, że niezależnie od warunków eksperymentu zawsze będą istniały dane ekstremalne z powodu przypadku), który pojawia się w różnych ciągach wartości, może wskazywać że mechanizm przyczynowy różni się między danymi na końcach szeregu ( efekt Kinga ).
Nie ma jasnej matematycznej definicji wartości odstającej. Ustalenie, czy obserwacja jest wartością odstającą, czy nie, jest zadaniem bardzo subiektywnym. Istnieją jednak różne metody wykrywania wartości odstających. Niektóre są graficzne, takie jak technika prawej ręki Henry'ego , inne są oparte na modelu, technika boxplot jest hybrydą.
Metody oparte na modelach są używane do identyfikowania wartości odstających, gdy dane pochodzą z rozkładu normalnego. Metody te identyfikują obserwacje, które są uważane za „mało prawdopodobne” na podstawie średniej i odchylenia standardowego.
Istnieją również inne metody, które opierają się na miarach, takich jak rozstęp międzykwartylowy . Na przykład, jeśli i są odpowiednio pierwszym i trzecim kwartylem, wówczas możemy zdefiniować wartość odstającą jako dowolną wartość znajdującą się poza przedziałem:
z dodatnią stałą.
W zadaniu eksploracji danych polegającej na wykrywaniu anomalii , inne podejścia opierają się na odległościach lub gęstości, a wiele z nich wykorzystuje algorytm k-najbliższych sąsiadów do identyfikacji wartości jako wartości odstającej lub nie.
Zmodyfikowany test Tau Thompsona jest metodą używaną do określania, czy w szeregu wartości występują wartości odstające. Siła tej metody polega na tym, że uwzględnia ona odchylenie standardowe i średnią z szeregu oraz zapewnia statystycznie określony próg odrzucenia; w związku z tym zapewnia obiektywną metodę określania, czy wartość jest wartością odstającą.
Przebieg testu: Najpierw określamy średnią z serii. Następnie określa się odchylenie od średniej każdej wartości. Następnie próg uwalniania jest określany przy użyciu następującego wzoru :; gdzie jest wartością krytyczną z tabeli Prawa studenta , jest wielkością próby i jest odchyleniem standardowym próbki .
Aby określić, czy wartość jest wartością odstającą, oblicz δ = :
jeśli δ> Próg, wartość jest wartością odstającą; jeśli δ ≤ Próg, wartość nie jest wartością odstającą.Zmodyfikowany test Tau Thompsona służy do znalezienia jednej wartości odstającej naraz (większa wartość δ jest zmieniana, jeśli jest wartością odstającą). W tym sensie, jeśli obliczona wartość jest wartością odstającą, jest usuwana z zestawu wartości i test jest ponownie stosowany z nową średnią i nowym progiem odrzucenia. Ten proces powtarza się, dopóki w szeregu nie będzie już żadnych wartości odstających.
W niektórych pracach próbowano również opisać wartości odstające dla serii wartości nominalnych. Na przykład, w kontekście serii przykładów (lub przypadków) w serii wartości, tworzony jest wskaźnik zwany siłą przypadku, który mierzy prawdopodobieństwo błędnej klasyfikacji przypadku ( gdzie jest przypisany termin do klasy i reprezentuje wartość przypisane do sprawy w serii przykładów ). W idealnym przypadku siła przypadku zostanie obliczona poprzez zsumowanie serii wszystkich możliwych założeń :
W praktyce formuła ta jest niepraktyczna, ponieważ jest potencjalnie nieskończona, a obliczenie jest niemożliwe dla dużej liczby algorytmów. W związku z tym solidność przypadków można oszacować za pomocą podzbioru :
gdzie jest hipoteza wywołana przez algorytm uczenia się utworzony na szeregu wartości z hiperparametrami . Siła przypadku stanowi wartość stałą w celu ustalenia, czy dana sprawa jest poboczna.
Decyzja o tym, czy poradzić sobie z wartością odstającą, zależy od przyczyny tego ostatniego.
Nawet jeśli model rozkładu normalnego jest odpowiedni do analizy wartości, wartości odstające są oczekiwane dla dużych próbek i nie powinny być automatycznie wykluczane. Rzeczywiście, lepiej jest stosować solidne algorytmy w obliczu wartości odstających niż modele, które systematycznie odrzucają te wartości.
Usuwanie wartości odstających jest praktyką kontrowersyjną, na którą patrzy wielu naukowców i profesorów; Tak długo, jak nie ma matematycznych kryteriów oferujących obiektywną i ilościową metodę odrzucania wartości, niemożliwe będzie uczynienie praktyki tłumienia naukowych i metodologicznych wartości odstających bardziej akceptowalną. Szczególnie w przypadku małych próbek i jeśli charakter rozkładu jest nieznany i nie można go przybliżyć rozkładem normalnym. Odrzucenie wartości odstających jest bardziej akceptowalne, jeśli model leżący u podstaw zjawiska został zmierzony i rozkład błędów pomiaru jest dokładnie znany. Dane odstające wynikające z przyrządu, o którym wiadomo, że popełnia błędy, można wykluczyć, ale najlepiej najpierw sprawdzić, czy przyrząd faktycznie popełnia błędy.
Dwa najczęściej stosowane podejścia do wykluczania wartości odstających to dzielenie wyrazów (lub obcięcie) i metoda Winsorising . Dzielenie wyrazów eliminuje wartości odstające, podczas gdy Winsorising zastępuje wartości odstające najbliższymi „niepodejrzanymi” wartościami. Wykluczenie może być również konsekwencją procesu pomiaru. Rzeczywiście, jeśli podczas eksperymentu instrument nie jest w stanie zmierzyć tak skrajnych wartości, powstają wartości ocenzurowane .
W problemach regresji innym podejściem jest wykluczenie tylko tych wartości, które mają duży wpływ na szacowane współczynniki, zwłaszcza gdy używa się miary takiej jak odległość Cooka .
Jeżeli wartość (lub dane) są wyłączone z analizy danych , należy to wyraźnie zaznaczyć we wszystkich raportach wynikających z analizy.
Należy również wziąć pod uwagę, że wartości badanych szeregów nie mają rozkładu normalnego i mogą mieć „ grube ogony ”. Na przykład, podczas próbkowania z rozkładu Cauchy'ego , wariancja rośnie wraz z rozmiarem próby, średnia próby jest odchylona i nie jest zbieżna wraz ze wzrostem wielkości próby. Ponadto oczekuje się, że wartości odstające będą znacznie wyższe niż w przypadku rozkładu normalnego. Nawet niewielka różnica w grubości ogona może mieć duży wpływ na liczbę oczekiwanych wartości ekstremalnych.
Zestaw podejście członków uważa, że niepewność odpowiadający pomiaru zmiennej losowej X jest reprezentowany przez zestaw X ı (zamiast funkcji gęstości prawdopodobieństwa). Jeśli nie pojawią się żadne wartości odstające, x należy do przecięcia wszystkich X i . Jeśli pojawi się wartość odstająca, to przecięcie jest puste i zwalniamy niewielką liczbę X i (tak małą, jak to możliwe), aby uniknąć niespójności. Można to zrobić za pomocą pojęcia przecięcia uwolnionego q . Jak zilustrowano na rysunku, przecięcie q- zwolnione odpowiada zbiorowi wszystkich x, które należą do wszystkich zbiorów X i z wyjątkiem q z nich. Zbiory X i, które nie przecinają przecięcia q- uwolnione, można podejrzewać o zbieranie wartości odstających.
W przypadku, gdy znana jest przyczyna wartości odstających, możliwe jest włączenie tego efektu do modelu. Na przykład przy użyciu hierarchicznego modelu Bayesa lub modelu mieszanego .
„ Obserwacja odstająca lub„ obserwacja odstająca ”to taka, która wydaje się znacznie odbiegać od innych członków próby, w której występuje. "
„Wartość odstająca to obserwacja, która jest daleko od reszty obserwacji. "