Odchylenie standardowe

W matematyce , odchylenie standardowe (pisane również odchylenie standardowe ) jest miarą rozproszenia wartości w statystycznej próbek i prawdopodobieństwa rozkładu . Jest definiowany jako pierwiastek kwadratowy z wariancji lub, równoważnie, jako średni kwadratowy z odchyleń od średniej . Na ogół jest napisane grecką literą σ („ sigma ”), zgodnie ze standardowym odchyleniem nazwy w języku angielskim. Jest jednorodny z mierzoną zmienną.

Odchylenia standardowe występują we wszystkich dziedzinach, w których stosowane są prawdopodobieństwa i statystyki, w szczególności w dziedzinie badań ankietowych , fizyki , biologii lub finansów . Generalnie umożliwiają one syntezę wyników numerycznych powtarzanego eksperymentu. Zarówno w prawdopodobieństwie, jak iw statystyce służy do wyrażenia innych ważnych pojęć, takich jak współczynnik korelacji , współczynnik zmienności czy optymalny rozkład Neymana .

Gdy odchylenie standardowe populacji jest nieznane, jego wartość określa się w przybliżeniu za pomocą estymatorów .

Przykłady

Populacja osób tej samej wielkości

Wyobraźmy sobie populację 4 osób o wielkości 2 metrów. Średnia wielkość to 2 metry. Odchylenia od średniej wynoszą 0, więc odchylenie standardowe wynosi 0 metrów.

Populacja ludzi różnej wielkości

Teraz wyobraź sobie populację 4 osób o rozmiarach 2 m, 1,80 m, 2,20 m i 2 m. Średnia wynosi również = 2 metry. Odchylenia od średniej wynoszą teraz 0 m, 0,20 m, 0,20 m i 0 m. Zatem odchylenie standardowe jest średnią kwadratową tych odchyleń, czyli równą w przybliżeniu 0,14 m. ${\ Displaystyle {\ Frac {2 + 1,8 + 2,2 + 2} {4}}}$ ${\ Displaystyle {\ sqrt {\ Frac {0 ^ {2} + 0,2 ^ {2} + 0,2 ^ {2} + 0 ^ {2}} {4}}}}$

Historia

Odchylenie standardowe jest wielkością, której wynalazek sięga XIX th Century, który widział statystyka rozwijać UK .

To właśnie Abraham de Moivre przypisał odkrycie pojęcia miary dyspersji, które pojawiło się w jego książce The Doctrine of Chances w 1718 r. Jednak termin odchylenie standardowe ( „ odchylenie standardowe ” ) został użyty po raz pierwszy przez Karla Pearsona w 1893 r. Towarzystwo Królewskie. Również Karl Pearson po raz pierwszy użył symbolu σ do przedstawienia odchylenia standardowego. W 1908 roku William Gosset , lepiej znany pod pseudonimem Student, zdefiniował empiryczne odchylenie standardowe próby i wykazał, że ważne jest, aby odróżnić ją od odchylenia standardowego populacji . Wariancja jest pojęciem, które pojawiły się później, w 1918 roku, w tekście Ronald Fisher pt krewnych Korelacja entre na przypuszczenie o Prawa Mendla .

Całkowita liczba ludności

Definicja

Z wyczerpującego badania $( x 1 , ..., x n )$ zmiennej ilościowej dla wszystkich osobników populacji odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji, to znaczy:

{\ displaystyle \ sigma = {\ sqrt {V}} = {\ sqrt {{\ Frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ overline { x}}) ^ {2}}} = {\ sqrt {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} ^ {2} - {\ overline { x}} ^ {2}}}.}

Odchylenie standardowe jest jednorodne ze zmienną mierzoną, to znaczy, że jeśli przez zmianę jednostki wszystkie wartości zostaną pomnożone przez współczynnik $α> 0$ , odchylenie standardowe zostanie pomnożone przez ten sam współczynnik. Z drugiej strony odchylenie standardowe jest niezmienne przez przesunięcie addytywne: jeśli dodamy stałą do wszystkich zarejestrowanych wartości, nie zmieni to odchylenia standardowego. Te dwie właściwości czynią odchylenie standardowe wskaźnikiem dyspersji .

W przeciwieństwie do innych wskaźników dyspersji, takich jak rozstęp międzykwartylowy , odchylenie standardowe ma tę zaletę, że można je obliczyć ze średnich i odchyleń standardowych w podziale populacji, ponieważ wariancja ogólna jest sumą wariancji średnich i średnia wariancji. Umożliwia to równoległe obliczanie odchylenia standardowego .

Odchylenie standardowe jest implementowane w Pythonie w bibliotece numpyz metodą std, aw języku R z funkcją sd.

Wyrażenie jako odległość

Odchylenie standardowe to odległość euklidesowa od współrzędnej punktu $M$ $( x 1 , ..., x n )$ po prawej przekątnej generowanej przez wektor $(1, ..., 1)$ w , uzyskana przez jego współrzędne rzutu ortogonalnego $($ $x$ $, ...,$ $x$ $)$ . $\ mathbb {R} ^ {n}$

Odchylenie standardowe jest więc minimum funkcji obliczającej odległość między $M$ a punktem o współrzędnych $($ $t$ $, ...,$ $t$ $)$ . ${\ displaystyle t \ mapsto {\ sqrt {{\ Frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} -t) ^ {2}}}}$

Współczynnik zmienności

Odchylenie standardowe można wykorzystać do porównania jednorodności kilku populacji w ramach tej samej zmiennej. Na przykład, biorąc pod uwagę dwie klasy o tym samym średnim poziomie i oceniane według tych samych kryteriów, klasa z wyższym odchyleniem standardowym ocen będzie bardziej niejednorodna. W przypadku punktacji od 0 do 20, minimalne odchylenie standardowe wynosi 0 (wszystkie identyczne wyniki) i może wynosić do 10, jeśli połowa klasy ma 0/20, a druga połowa 20/20.

Z drugiej strony nie możemy porównać odchyleń standardowych różnych zmiennych takimi, jakimi są i których rzędy wielkości niekoniecznie się pokrywają. Dla ściśle dodatniej zmiennej ilościowej definiujemy następnie współczynnik zmienności , równy ilorazowi odchylenia standardowego przez średnią. Ta bezwymiarowa liczba nie zależy od wybranej jednostki miary i umożliwia porównanie rozproszenia różnych zmiennych.

Wysoki współczynnik zmienności może prawdopodobnie sygnalizować istnienie wartości odstającej. Jednym z kryteriów jest odrzucenie wartości, które różnią się od średniej o ponad 3-krotność odchylenia standardowego. W przypadku rozkładu Gaussa prawdopodobieństwo takiego przeregulowania jest rzędu 3/1000.

Dla zmiennej losowej

Definicja

Modelowanie prawdopodobieństwa rozkładu statystycznego polega na zdefiniowaniu zmiennej losowej , czyli aplikacji $X$ z miarą prawdopodobieństwa , która umożliwia określenie prawdopodobieństw postaci . Dane z tych prawdopodobieństw jest prawo prawdopodobieństwo od $X$ . Modelowanie jest dokładne, jeśli prawdopodobieństwo zdarzenia odpowiada częstotliwości występowania odpowiednich wartości w badanej populacji, zgodnie z prawem dużych liczb . $\ mathbb {P}$ ${\ Displaystyle \ mathbb {P} (X \ w A)}$

Interesują nas rzeczywiste lub wektorowe zmienne losowe z kwadratem całkowitoliczbowym, to znaczy dla których oczekiwanie $E (X 2 ) jest$ zbieżne. Dla zmiennej wektorowej (z wartościami w pełnej znormalizowanej przestrzeni wektorowej ) oczekiwanie jest wektorem o tej samej przestrzeni, a kwadrat oznacza kwadrat normy. Zbiór tych zmiennych sam w sobie jest przestrzenią wektorową . ${\ Displaystyle \ mathrm {L} ^ {2} (\ Omega)}$

Odchylenie standardowe $X$ to pierwiastek kwadratowy z wariancji . ${\ Displaystyle \ sigma (X) = {\ sqrt {\ mathbb {E} \ lewo [\ lewo (X- \ mathbb {E} [X] \ prawo) ^ {2} \ prawej]}} = {\ sqrt {\ mathbb {E} [X ^ {2}] - \ mathbb {E} [X] ^ {2}}}}$

Istnienie odchylenia standardowego jest zapewnione dla ograniczonej zmiennej losowej lub przyjmującej funkcję gęstości zdominowaną do nieskończoności przez funkcję potęgową z $α$ $> 3$ . ${\ Displaystyle t \ mapsto {\ Frac {1} {t ^ {\ alfa}}}}$

Przykłady

W przypadku dyskretnej zmiennej losowej , których wartości są oznaczone $x I$ , z odchyleniem standardowym jest napisane jak seria statystycznej , gdzie $μ$ jest oczekiwanie z prawem $X$ . ${\ Displaystyle p_ {i} = \ mathbb {P} (X = x_ {i})}$ ${\ displaystyle \ sigma: = {\ sqrt {\ sum _ {i = 1} ^ {n} p_ {i} (x_ {i} - \ mu) ^ {2}}} = {\ sqrt {\ left ( \ sum _ {i = 1} ^ {n} p_ {i} {x_ {i}} ^ {2} \ right) - \ mu ^ {2}}}}$

W szczególności, jeśli $X$ jest jednorodny w zbiorze skończonym , tj. Jeśli $(x_ {1}, \ kropki, x_ {n})$

{\ displaystyle p_ {i} = {\ frac {1} {n}}}

dla wszystkich

i

między 1 a

n

więc

{\ Displaystyle \ sigma _ {X}: = {\ sqrt {{\ Frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2} }} = {\ sqrt {{\ frac {1} {n}} \ left (\ sum _ {i = 1} ^ {n} {x_ {i}} ^ {2} \ right) - \ mu ^ { 2}}}}

W przypadku zmiennej losowej gęstości, dla której zapisano prawdopodobieństwa, gdzie $f$ jest funkcją lokalnie integrowalną , na przykład dla miary Lebesgue'a , ale niekoniecznie funkcją ciągłą, odchylenie standardowe $X$ jest zdefiniowane przez gdzie jest oczekiwanie $x$ . ${\ mathbb P} _ {X} \ left (] a, b [\ right) = {\ mathbb P} \ left (X \ in] a, b [\ right) = \ int _ {a} ^ {b } f (x) \, {\ mathrm {d}} x$ ${\ Displaystyle \ sigma _ {X}: = {\ sqrt {\ int _ {\ mathbb {R}} (x- \ mu) ^ {2} f (x) \ mathrm {d} x}} = {\ sqrt {\ int _ {\ mathbb {R}} x ^ {2} f (x) \ mathrm {d} x- \ mu ^ {2}}}}$ ${\ Displaystyle \ mu = \ int _ {\ mathbb {R}} xf (x) \ mathrm {d} x}$

Dzięki tym formułom i definicji obliczenie odchyleń standardowych dla powszechnie spotykanych praw jest łatwe. Poniższa tabela przedstawia odchylenia standardowe niektórych z tych praw:

Nazwa prawa	Ustawienia)	Opis	Odchylenie standardowe
Prawo Bernoulliego	$p \in] 0; 1 [$	Dyskretne prawo dotyczące ${0; 1}$ z prawdopodobieństwem $p$ uzyskania 1	${\ Displaystyle \ sigma = {\ sqrt {p (1-p)}}}$
Prawo dwumianowe	$n \ in \ mathbb {N} ^ {*}$ i $p \in] 0; 1 [$	Prawo sumy $n$ zmiennych niezależnych według prawa Bernoulliego o tym samym parametrze $p$	${\ Displaystyle \ sigma = {\ sqrt {np (1-p)}}}$
Prawo geometryczne	$p \in] 0; 1 [$	Prawo rangowe pierwszej realizacji w ciągu niezależnych zmiennych Bernoulliego o tym samym parametrze $p$	${\ Displaystyle \ sigma = {\ sqrt {\ Frac {1-p} {p ^ {2}}}}}$
Jednolite prawo segmentowe	$a < b$	Prawo stałej gęstości na $[ a , b ]$	${\ displaystyle \ sigma = {\ Frac {ba} {2 {\ sqrt {3}}}}}$
Prawo wykładnicze	${\ Displaystyle \ lambda \ in \ mathbb {R} ^ {+ *}}$	Prawo gęstości ze stałym współczynnikiem awaryjności $λ$	${\ Displaystyle \ sigma = {\ Frac {1} {\ lambda}}}$
Prawo Poissona	${\ Displaystyle \ lambda \ in \ mathbb {R} ^ {+ *}}$	Ustawa o liczbie samodzielnych realizacji średnio $λ$ $\ mathbb {N}$	${\ displaystyle \ sigma = {\ sqrt {\ lambda}}}$
Prawo χ²	$nie$	Prawo sumy $n$ kwadratów niezależnych zredukowanych zmiennych normalnych	${\ displaystyle \ sigma = {\ sqrt {2n}}}$

Jeżeli zmienna X ma rozkład logarytmiczno- normalny, wówczas $ln X$ ma rozkład normalny, a odchylenie standardowe X jest powiązane z geometrycznym odchyleniem standardowym .

Ale wszystkie prawa prawdopodobieństwa niekoniecznie dopuszczają skończone odchylenie standardowe: prawo Cauchy'ego (lub prawo Lorentza) nie ma odchylenia standardowego ani nawet matematycznego oczekiwania.

Nieruchomości

Pozytywność Odchylenie standardowe jest zawsze dodatnie lub zerowe. Stała wynosi zero. Niezmienność przez tłumaczenie Odchylenie standardowe nie zmienia jeśli dodamy stałą

b

dla zmiennej losowej

X

σ x + b = σ X

. Jednorodność Dla każdej dodatniej stałej

c

i jakiejkolwiek rzeczywistej zmiennej losowej

X

, mamy

σ rX = c σ X

. Suma algebraiczna dwóch zmiennych Odchylenie standardowe sumy dwóch zmiennych jest zapisane jako

{\ Displaystyle \ sigma _ {X + Y} = {\ sqrt {\ sigma _ {X} ^ {2} + \ sigma _ {Y} ^ {2} +2 \ sigma _ {X} \ sigma _ {Y} } \ rho (X, Y)}}}

gdzie $ρ ( X , T )$ jest współczynnikiem korelacji dwóch zmiennych X i Y .

Nierówność trójkątna Odchylenie standardowe sumy jest powiększane o sumę odchyleń standardowych:

{\ displaystyle \ sigma _ {X + Y} \ leq \ sigma _ {X} + \ sigma _ {Y}}

. Co więcej, równość istnieje wtedy i tylko wtedy, gdy istnieje prawie pewna zależność afiniczna między dwiema zmiennymi. Odległość euklidesowa Odchylenie standardowe rzeczywistej zmiennej losowej

X

to odległość euklidesowa tej zmiennej na prawo od stałych w przestrzeni zmiennych dopuszczających wariancję. Jest to zatem minimum funkcji , osiągnięte na stałej

c

= E (

X

)

{\ Displaystyle \ mathbb {R} \ rightarrow \ mathbb {R} ^ {+}: c \ rightarrow {\ sqrt {(| Xc | ^ {2})}}}

Używa

Przedział wahań

W nauce powszechnie uważa się, że pomiary wielkości są rozkładane zgodnie z rozkładem Gaussa , poprzez kumulację błędów pomiarowych lub niezależną interferencję z innymi zjawiskami, przy zastosowaniu centralnego twierdzenia granicznego . Histogramu z zaobserwowanych wielkości następnie zbliża się do krzywej dzwonowej charakterystycznych dla normalnej prawo . Krzywa całkowicie zdefiniowana przez dane wartości średniej i odchylenia standardowego, te dwie wartości pozwalają na zdefiniowanie przedziału fluktuacji, który koncentruje większość obserwacji.

Obliczenie kwantyli tego prawa pokazuje na przykład, że dla wielkości spełniającej ten rozkład na populacji osobników, przy średniej $mi$ odchyleniu standardowym $σ$ , 95% obserwowanych wartości będzie należeć do przedziału $[ m - 1,96 σ; m + 1,96 σ]$ . Możemy zatem powiązać prawdopodobieństwa z przedziałami wartości wyśrodkowanymi na średniej i których amplituda jest wielokrotnością odchylenia standardowego.

Przedziały fluktuacji dla rozkładu Gaussa

Maksymalne odchylenie od średniej	Proporcja wartości
${\ displaystyle \ pm \ sigma}$	68,27%
${\ displaystyle \ pm 2 \ sigma}$	95,45%
${\ displaystyle \ pm 3 \ sigma}$	99,73%

W przemyśle odchylenie standardowe jest wykorzystywane do obliczania wskaźnika jakości wytwarzanych wyrobów lub wskaźnika niezawodności urządzenia pomiarowego .

W fizyce cząstek elementarnych wykrywanie zdarzeń jest zatem określane ilościowo w postaci liczby sigm, reprezentujących różnicę między obserwowaną wartością a oczekiwaną średnią w przypadku braku zdarzenia. Wynik uznaje się za istotny, uzyskując 5 sigm, reprezentujących prawdopodobieństwo błędu mniejsze niż 0,00006% (tj. Poziom ufności wyższy niż 99,99994%).

W dziedzinie analizy technicznej od cen akcji , odchylenie standardowe jest miarą zmienności cen. W Wstęgi Bollingera są narzędzia ułatwiające analizę prognoz rynkowych. John Bollinger skonstruował 20-dniową krzywą średniej ruchomej i krzywe po obu stronach tej krzywej, zlokalizowane przy dwukrotnym odchyleniu standardowym w ciągu tych 20 dni. John Bollinger zastosował dostosowaną definicję odchylenia standardowego. Ponadto ryzyko aktywów giełdowych oraz ryzyka rynkowego są mierzone przez odchylenie standardowe zysków oczekiwanych w modelu wyceny aktywów kapitałowych z Harry Markowitz .

Zmniejszona zmienna wyśrodkowana

Jeśli $X$ jest zmienną losową o niezerowym odchyleniu standardowym, możemy sprawić, by odpowiadała wyśrodkowanej i zredukowanej zmiennej $Z$ zdefiniowanej przez . Dwie wyśrodkowane i zredukowane zmienne losowe $Z$ $1$ i $Z$ $2$ są łatwe do porównania, ponieważ $E ($ $Z$ $i$ $) = 0$ i $σ$ $Z$ $i$ $= 1$ . ${\ Displaystyle Z = {\ Frac {X - {\ bar {X}}} {\ sigma}}}$

Do głównych problemów granica twierdzenie limitu szereg obniżonych skupionych zmiennej losowej, asymetrii i spłaszczania współczynniki gęstości prawdopodobieństwa $PL ( Z 3 )$ i $e ( Z 4 )$ , umożliwiają porównanie różnych rozkładów.

Współczynnik korelacji liniowej

Jeżeli $X$ i $Y$ są dwa zmiennymi losowymi rzeczywistym dopuszczające zarówno niezerowy wariancji liniowy współczynnik korelacji jest stosunek gdzie jest kowariancji zmiennych $X$ i $Y$ . Według Cauchy- Schwarz , ; współczynnik korelacji przyjmuje wartości z przedziału $[-1;$ $+1]$ . ${\ displaystyle \ operatorname {Kor} (X, Y) = {\ Frac {\ operatorname {Cov} (X, Y)} {\ sigma _ {X} \ sigma _ {Y}}}}$ ${\ Displaystyle \ operatorname {Cov} (X, Y) = \ mathbb {E} [(X- \ mathbb {E} [X]) \, (Y- \ mathbb {E} [Y])] = \ mathbb {E} [XY] - \ mathbb {E} [X] \ mathbb {E} [Y]}$ ${\ displaystyle | \ operatorname {cov} (X, Y) | \ leq \ sigma _ {X} \ sigma _ {Y}}$

Jeśli dwie zmienne są niezależne, współczynnik korelacji liniowej wynosi zero, ale odwrotność jest fałszywa.

Jeśli współczynnik korelacji liniowej wynosi 1 lub -1, to prawie na pewno dwie zmienne są w relacji afinicznej.

Nierówność Bienayme-Chebyshev

To dzięki nierówności Bienaymé-Czebyszewa odchylenie standardowe pojawia się jako miara rozrzutu wokół średniej. Rzeczywiście, ta nierówność wyraża to i pokazuje, że prawdopodobieństwo, że $X$ odbiega od $E ($ $X$ $)$ o więcej niż $k-$ krotność odchylenia standardowego, jest mniejsze niż $1 /$ $k$ $2$ . ${\ Displaystyle P (| XE (X) |> k \ sigma) \ równoważnik {\ Frac {1} {k ^ {2}}}}$

Zasada niepewności

W mechanice kwantowej The zasada niepewność z Heisenberga wyrażone jako iloczyn odchylenia standardowe w pozycji X i tym impuls P z cząstek jest większa niż lub równa zmniejszonym stałą Plancka podzielonej przez dwa, albo . ${\ displaystyle \ sigma _ {x} \ sigma _ {p} \ geq {\ frac {\ hbar} {2}}}$

Oszacowanie

Gdy nie jest możliwe poznanie wszystkich wartości rozważanej cechy, jesteśmy w ramach teorii statystycznej . Następnie statystyk przechodzi przez pobieranie próbek i oszacowanie, aby ocenić analizowane wielkości, takie jak odchylenie standardowe.

Estymator jest funkcją umożliwiającą zbliżenie parametr populacji używając próbki pobierano w losowych lub ilości na zjawisku losowej na podstawie ich różnych realizacji.

W przypadku próby o wielkości $n$ , dla której znana jest prawdziwa średnia - lub oczekiwanie - $μ$ , estymator wygląda następująco:

σX=1nie∑ja=1nie(xja-μ)2.{\ Displaystyle \ sigma _ {X} = {\ sqrt {{\ Frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}} }.}

{\ Displaystyle \ sigma _ {X} = {\ sqrt {{\ Frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}} }.}

Niestety, często nie wiemy,

μ

i musi być określona na podstawie próbki się poprzez następujący estymator: . Na ogół stosuje się różne estymatory odchylenia standardowego. Większość z tych estymatorów jest wyrażona wzorem:

{\ Displaystyle {\ bar {x}} = {\ Frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i}}

Sk=1k∑ja=1nie(Xja-X¯)2.{\ Displaystyle S_ {k} = {\ sqrt {{\ Frac {1} {k}} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}}) ^ { 2}}}.}

{\ Displaystyle S_ {k} = {\ sqrt {{\ Frac {1} {k}} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}}) ^ { 2}}}.}

S n - 1

(lub S ′ ) jest najczęściej używanym estymatorem, ale niektórzy autorzy zalecają używanie

S n

(lub

S

Własności estymatorów

Dwie ważne właściwości estymatorów to zbieżność i brak uprzedzeń .

Dla wszystkich $k$ takich, że $k / n zbliża się do$ 1, prawo dużych liczb gwarantuje, że $S 2 n$ następnie $S. 2 tys$ są zbieżne estymatory z $Ď 2$ . Dzięki twierdzeniu o ciągłości , stwierdzając, że jeśli $f$ jest ciągłe, to . Funkcja pierwiastka kwadratowego jest ciągła, $S$ $k$ również zbiega się do $σ$ . W szczególności $S$ $n$ i $S$ $n$ $- 1$ są zbieżnymi estymatorami $σ$ , które odzwierciedlają aproksymację $σ$ przez te dwa szeregi, gdy n staje się coraz większe i potwierdzają, że statystyk używa tych estymatorów. ${\ Displaystyle \ lim \ limity _ {n \ do \ infty} f (X_ {n}) = f (\ lim \ limity _ {n \ do \ infty} X_ {n})}$

Estymator wariancji $S 2 n - 1,5$ jest bezstronny. Jednak nieliniowość funkcji pierwiastka kwadratowego powoduje, że $S n - 1 jest$ nieco obciążony. Estymatory $S 2 n$ i $S n$ są również stronnicze. Fakt uwzględnienia w mianowniku nie $n,$ ale $n - 1$ ( poprawka Bessela ) przy obliczaniu wariancji wynika z faktu, że wyznaczenie średniej $x$ z próby traci pewien stopień swobody, ponieważ formuła łączy $x$ z wartościami $x$ $ja$ . Dlatego po obliczeniu $x$ mamy tylko $n$ $- 1$ niezależnych wartości . W przypadku, gdy dąży się do oszacowania odchylenia standardowego rozkładu normalnego, uzyskuje się nieobciążony estymator $σ$ bliski $S$ $n$ $- 1,5$ . Wybór ${$ $n$ $- 1,5}$ umożliwia skorygowanie dodatkowego odchylenia związanego z pierwiastkiem kwadratowym. ${\ Displaystyle {\ bar {x}} = {\ Frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i}}$

Dokładność, jaką daje błąd średniokwadratowy, jest trudna do jednoznacznego obliczenia dla jakichkolwiek praw. Wydawałoby się jednak, że pomimo większego odchylenia $S n$ jest dokładniejsze niż $S n -1$ .

Odchylenie standardowe średnich

Aby oszacować dokładność oszacowania średniej zmiennej, stosuje się metodę obliczania odchylenia standardowego rozkładu próbkowania średnich. Nazywany również błędem standardowym średniej ( „ błąd standardowy ” ), oznaczany jako odchylenie standardowe średnich próbek o identycznej wielkości populacji. Jeśli $n$ jest wielkością próbek pobranych z populacji o odchyleniu standardowym $σ$ i jeśli $N$ jest wielkością populacji, to . Gdy odchylenie standardowe $σ$ populacji jest nieznane, można je zastąpić estymatorem $S$ $n$ $-1$ . Gdy $n$ jest dostatecznie duże ( $n$ $\geq 30$ ), rozkład próbkowania jest w przybliżeniu zgodny z prawem Laplace'a-Gaussa, które umożliwia wyprowadzenie przedziału ufności, funkcji , pozwalającej na umiejscowienie średniej populacji w odniesieniu do próbki oznaczać. ${\ displaystyle \ sigma _ {\ bar {x}}}$ ${\ displaystyle \ sigma _ {\ bar {x}} = {\ frac {\ sigma} {\ sqrt {n}}} {\ sqrt {\ frac {Nn} {N-1}}}}$ ${\ displaystyle \ sigma _ {\ bar {x}}}$

Odchylenie standardowe empirycznych odchyleń standardowych

Ogólnie rzecz biorąc, obliczenie prawa rozkładu empirycznych odchyleń standardowych jest bardzo trudne. Ale jeśli $X n$ jest sekwencją zmiennych losowych rozłożonych zgodnie z rozkładem normalnym , to zgodnie z prawem $χ$ $2$ przy $n$ stopniach swobody . To prawo ma dla odchylenia standardowego $\sqrt$ $2$ $n,$ a zatem odchylenie standardowe rozkładu wariancji zmiennych normalnych ma dla wyrażenia . ${\ Displaystyle {\ mathcal {N}} (\ mu, \ sigma ^ {2})}$ ${\ Displaystyle n {\ Frac {S_ {n} ^ {2}} {\ sigma ^ {2}}}}$ ${\ Displaystyle \ Sigma _ {S_ {n} ^ {2}} = \ Sigma ^ {2} {\ sqrt {\ Frac {2} {n}}}}$

Ankiety

W badaniach opinii publicznej odchylenie standardowe mierzy niepewność przypadkowych zmian $x$ nieodłączną dla badania, zwaną marginesem błędu z powodu przypadkowych odchyleń. ${\ displaystyle \ sigma _ {\ bar {x}}}$

Ponadto w przypadku reprezentatywnej metody próbkowania, gdy różne warstwy mają bardzo różne odchylenia standardowe, odchylenie standardowe jest używane do obliczenia optymalnego rozkładu Neymana, co umożliwia ocenę populacji w różnych warstwach zgodnie z ich odchyleniem standardowym; innymi słowy to liczebność próby w warstwie $i$ , gdzie $n$ to całkowita wielkość próby, $N$ $i$ to wielkość warstwy $i$ , $σ$ $i$ odchylenie standardowe warstwy $i$ . ${\ displaystyle n_ {i} = n {\ frac {N_ {i} \ sigma _ {i}} {\ suma N_ {j} \ sigma _ {j}}}}$

W algorytmice

Odchylenia standardowe uzyskane przez program komputerowy mogą być niepoprawne, jeśli nie używa się algorytmu dostosowanego do danych, na przykład, gdy używa się algorytmu, który bezpośrednio wykorzystuje wzór na dużych próbkach wartości od 0 do 1. ${\ Displaystyle {\ sqrt {{\ Frac {1} {n}} \ lewo (\ suma _ {i = 1} ^ {n} {x_ {i}} ^ {2} \ prawej) - \ lewo ({ {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i}} \ right) ^ {2}}}}$

Jednym z najlepszych algorytmów jest algorytm BP Welford, który opisał Donald Knuth w swojej książce The Art of Computer Programming , vol. 2 .

Przybliżenie odchylenia standardowego kierunku wiatru podaje algorytm Yamartino, który jest stosowany we współczesnych anemometrach .

Uwagi i odniesienia

Uwagi

W rzeczywistości mamy: ${\ Displaystyle {\ Frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2} = {\ Frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} ^ {2} + {\ bar {x}} ^ {2} -2x_ {i} {\ bar {x}}) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} ^ {2} + {\ bar {x}} ^ {2} -2 {\ bar {x }} ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} ^ {2} - {\ bar {x}} ^ {2}. }$
Jeśli n uczniów ma 0/20 i n uczniów ma 20/20, tj. Próbka zawiera n- krotność wartości 20 i n- krotność wartości 0, średnia wynosi ; niech $X$ $= 10$ i $X$ $2$ $= 100$ . Wartości zaobserwowane w kratkę, $X$ $2$ , to n razy 400 n razy 0. średnią $X$ $2$ jest zatem równy . Wnioskujemy, że wariancja jest równa 100, a odchylenie standardowe wynosi 10. ${\ Displaystyle {\ tfrac {n \ razy 20} {n + n}}}$
${\ displaystyle {\ overline {X ^ {2}}} = 200}$
Druga równość wynika z twierdzenia Königa-Huygensa .
Wszystkie te własności są bezpośrednią konsekwencją twierdzenia Huygensa i własności matematycznego oczekiwania.
Nierówność wynika z równości poprzedniej klatki i współczynnika korelacji . ${\ Displaystyle -1 \ równoważnik \ rho (X, Y) \ równoważnik 1}$
Zgodnie z twierdzeniem o ciągłości mamy:
Twierdzenie - Jeśli $g$ jest ciągłe, to: ${\ Displaystyle X_ {n} {\ xrightarrow {\ mathbb {P}}} X \ Longrightarrow g (X_ {n}) {\ xrightarrow {\ mathbb {P}}} g (X)}$
. Ponieważ pierwiastek kwadratowy jest funkcją ciągłą , $S n -1$ i $S n$ są zbieżnymi estymatorami odchylenia standardowego, innymi słowy: ${\ Displaystyle S_ {n-1} {\ xrightarrow {\ mathbb {P}}} \ sigma {\ tekst {et}} S_ {n} {\ xrightarrow {\ mathbb {P}}} \ sigma}$
z definicji prawa $χ 2$

Bibliografia

Książki specjalistyczne

Bernstein 1996 , s. 127.
Dodge 2010 , s. 506
Saporta 2006 , s. 279-280
Saporta 2006 , s. 121
(w) David R. Anderson , Dennis J. Sweeney i Thomas A. Williams , „ statistics ” , Encyclopaedia Britannica Ultimate Reference Suite ,2010, Statystyka
Saporta 2006 , s. 16
Saporta 2006 , s. 30
Rioul 2008 , s. 45
Saporta 2006 , s. 31
Saporta 2006 , s. 38
Saporta 2006 , s. 39
Saporta 2006 , s. 33
Dodge 2010 , s. 71
(w) Warren H. Finlay , The Mechanics of Inhaled Pharmaceutical Aerosols: An Introduction , San Diego, Academic Press,2001, 320 s. ( ISBN 978-0-12-256971-5 , czytaj online ) , str. 5
Dodge 2010 , s. 60
Saporta 2006 , s. 23-25
Saporta 2006 , s. 26
Rioul 2008 , s. 146
Saporta 2006 , s. 43-44
Jean-Pierre Petit , La Bourse: Rupture et Renouveau , Paryż, gospodarka Odile Jacob,2003, 285 s. ( ISBN 978-2-7381-1338-2 , czytaj online ) , str. 36
Gautier i in. 1975 , s. 387
Saporta 2006 , s. 66
Rioul 2008 , s. 157
Rioul 2008 , s. 175
Rioul 2008 , s. 178
Saporta 2006 , s. 25
Jacquard 1976 , s. 28-29
Saporta 2006 , s. 289
Tufféry 2010 , s. 655
Rioul 2008 , s. 253
Dodge 2010 , s. 508-509
Dodge 2010 , s. 472
Vessereau 1976 , s. 56

Artykuły prasowe

(w) Ronald Aylmar Fisher , „ The Correlation entre Relatives on the Supposition of Mendelian Inheritance ” , Philosophical Transactions of the Royal Society of Edinburgh , vol. 52,1918, s. 399–433 ( czytaj online [PDF] )
Sylvie Méléard, „ Random: Wprowadzenie do teorii i rachunku prawdopodobieństwa ” [PDF] (dostęp 7 maja 2012 ) , s. 57,94
P. Ferignac , „ Kontrola odbioru ilościowa lub przez pomiar. », Journal of Applied Statistics , t. 7, N O 21959( czytaj online [PDF] , dostęp 26 marca 2012 )
P. Ferignac , „ Błędy pomiarowe i kontrola jakości. », Journal of Applied Statistics , t. 13 N O 21965( czytaj online [PDF] , dostęp 26 marca 2012 )
Rolf Heuer , „ An End to the Year Full of Suspense ”, CERN Weekly Bulletin , vol. 2012 N O 3,2012( czytaj online , sprawdzono 27 kwietnia 2012 )
(w) John Bollinger , „ Bollinger Bands Introduction ” (dostęp 27 kwietnia 2012 )
P Fery , „ Kalkulacja ryzyka i społeczno-ekonomiczna ”, Centrum Analiz Strategicznych ,2010( czytaj online [PDF] , dostęp 8 kwietnia 2012 )
Yves Meyer , „ Zasada nieoznaczoności, zasady Hilberta i algebry operatorów. », Seminarium Bourbaki , t. 662,Luty 1986( czytaj online [PDF] , dostęp: 4 kwietnia 2012 )
Emmanuel Grenier , „ Jaka jest„ właściwa ”formuła odchylenia standardowego? », Revue Modulad , n O 37,grudzień 2007( czytaj online [PDF] , dostęp 18 lutego 2012 )
Richard M. Brugger , „ Notatka o bezstronnej ocenie odchylenia standardowego ”, The American Statistician , tom. 23 N O 4,1 st październik 1969, s. 32–32 ( ISSN 0003-1305 , DOI 10.1080 / 00031305.1969.10481865 , czytaj online , dostęp: 29 marca 2019 )
W.E. Deming „ Niektóre metody badań. », Journal of Applied Statistics , t. 12 N O 4,1964( czytaj online [PDF] , dostęp 9 kwietnia 2012 )
(w) John D. Cook, „ Teoretyczne wyjaśnienie wyników liczbowych ” (dostęp: 20 kwietnia 2012 )
(w) John D. Cook, „ Porównanie trzech metod obliczania odchylenia standardowego ” (dostęp: 20 kwietnia 2012 r. )
(w) BP Welford , „ ocena była metodą obliczania skorygowanych sum kwadratów i produktów ” , Technometrics , vol. 4, n O 3,Sierpień 1962, s. 419-420 ( czytaj online [PDF] , dostęp: 4 kwietnia 2012 )
(w) John D. Cook, „ Accurately computing computing running variance ” (dostęp z 20 kwietnia 2012 r. )
(w) RJ Yamartino , " Porównanie kilku" jednoprzebiegowych "estymatorów odchylenia standardowego kierunku wiatru " , Journal of Climate and Stosowana meteorologia , lot. 23, Styczeń 1984, s. 1362-1366 ( czytaj online [PDF] , przeglądano 27 kwietnia 2012 r. )
(w) Mike Bagot, „ Victorian Urban Wind Resource Assessment ” [PDF] (dostęp: 24 kwietnia 2012 )

Inne referencje

„ Basics of Descriptive Statistics ” , na www.che.utah.edu (dostęp 18 kwietnia 2019 )

Zobacz też

Bibliografia

Gilbert Saporta , Prawdopodobieństwo, analiza danych i statystyka , Paryż, Éditions Technip,2006, 622, s. [ szczegóły wydań ] ( ISBN 978-2-7108-0814-5 , prezentacja online ), Druga edycja
Alain Monfort , Kurs statystyki matematycznej , Paryż, wydanie Economica,1997, 333 pkt. ( ISBN 2-7178-3217-3 ).
(en) Encyclopaedia Britannica Ultimate Reference Suite , Chicago, Encyclopædia Britannica,2010.
Olivier Rioul , Teoria prawdopodobieństwa , Paryż, wydania Hermes sciences,2008, 364 str. ( ISBN 978-2-7462-1720-1 ).
(en) Yadolah Dodge , The Concise Encyclopaedia of Statistics , Nowy Jork, Springer,2010, 622, s. ( ISBN 978-0-387-31742-7 , czytaj online ).
Stéphane Tufféry , Data Mining i statystyki podejmowania decyzji: data intelligence , Paryż, wydania Technip,2010, 705 pkt. ( ISBN 978-2-7108-0946-3 , czytaj online ).
(en) Peter L. Bernstein , Against the Gods: The Remarkable Story of Risk , Nowy Jork, John Wiley & sons, inc ,1996, 383 pkt. ( ISBN 978-0-471-12104-6 ).
Albert Jacquard , Les Probabilities , Paryż, Presses Universitaires de France , wyd. "Que sais-je" ( N O 1571),1976, 125 pkt. ( ISBN 2-13-036532-9 ).
C. Gautier , G. Girard , D. Gerll , C. Thiercé i A. Warusfel , Aleph1 Analyze , Paryż, éditions Hachette,1975, 465 str. ( ISBN 2-01-001370-0 ).
André Vessereau , La statistique , Paris, Presses Universitaires de France , pot. "Que sais-je" ( N O 281)1976, 128 str. ( ISBN 2-13-052942-9 ).
(en) Richard Herrnstein i Charles Murray , The Bell Curve: Intelligence and Class Structure in American Life , Nowy Jork, Simon & Schuster Ltd,1994, 896 s. ( ISBN 978-0-684-82429-1 ) , dodatek 1, „Statystyki dla osób, które są przekonane, że nie mogą się nauczyć statystyki”

Powiązane artykuły

Linki zewnętrzne

(en) Algorytmy obliczania wariancji