Statystyki zamówień

W statystykach The $k-$ Rank Statystyki porządek w próbce statystycznej jest równa $k-$ tej najmniejszej wartości. Wraz ze statystykami rang, statystyki zamówień są jednym z podstawowych narzędzi statystyki nieparametrycznej i wnioskowania statystycznego .

Dwa ważne przypadki statystyki rzędu to statystyki minimum i maksimum oraz, w mniejszym stopniu, mediana próby, a także różne kwantyle .

Kiedy używamy teorii prawdopodobieństwa do analizy statystyk porządkowych próby z ciągłego prawa prawdopodobieństwa , funkcja rozkładu służy do sprowadzenia analizy do przypadku, gdy statystyki porządkowe na jednolitym prawie idą dalej

Notacja i przykłady

Rozważ eksperyment prowadzący do obserwacji próbki 4 liczb, przyjmując następujące wartości:

6, 9, 3, 8,

że odnotowujemy zgodnie z konwencją:

{\ Displaystyle x_ {1} = 6; \ \ x_ {2} = 9; \ \ x_ {3} = 3; \ \ x_ {4} = 8 \,}

gdzie i w indeksie dolnym jest używane do identyfikacji obserwacji (według kolejności czasowej, numeru odpowiedniego elementu itp.) i nie jest a priori skorelowane z wartością obserwacji.

Zwracamy uwagę na statystykę zamówienia:

{\ Displaystyle x _ {(1)} = 3; \ \ x _ {(2)} = 6; \ \ x _ {(3)} = 8; \ \ x _ {(4)} = 9 \, }

gdzie indeks ( i ) oznacza statystykę i- tego rzędu próbki po zwykłej relacji rzędu na liczbach naturalnych .

Zgodnie z konwencją, odnotowana statystyka pierwszego rzędu jest zawsze minimum próbki, to znaczy: ${\ Displaystyle X _ {(1)}}$

{\ Displaystyle X _ {(1)} = \ min \ {\, X_ {1}, \ ldots, X_ {n} \, \}}

Zgodnie ze zwykłą konwencją, wielkie litery odnoszą się do zmiennych losowych , a małe litery do obserwowanych wartości (realizacji) tych zmiennych.

Podobnie dla próbki o rozmiarze n statystyka rzędu n (innymi słowy, maksimum) wynosi

{\ Displaystyle X _ {(n)} = \ max \ {\, X_ {1}, \ ldots, X_ {n} \, \}.}

Statystyka porządkowa jest loci nieciągłości funkcji dystrybucji empirycznej próbki.

Analiza probabilistyczna

Gęstość statystyki zamówienia

Biorąc pod uwagę próbkę , zanotowane statystyki porządkowe są zatem uzyskiwane przez sortowanie rosnąco. ${\ Displaystyle X = (X_ {1}, X_ {2}, \ ldots, X_ {n})}$ ${\ Displaystyle X _ {(1)}, X _ {(2)}, \ ldots, X _ {(n)}}$

Twierdzenie - Jeśli założymy próbki X być niezależne i jednakowo rozmieszczone zgodnie z prawem gęstość f i dystrybuantę F , to gęstość w k- statystyki rzędu TH

{\ Displaystyle f_ {X _ {(k)}} (x) = {n! \ over (k-1)! (nk)!} F (x) ^ {k-1} (1-F (x)) ^ {nk} f (x).}

Demonstracja Obliczanie za pomocą funkcji rozkładu

Dystrybucja statystyki k- tego rzędu to

{\ Displaystyle {\ rozpocząć {wyrównane} \ mathbb {P} \ lewo (X _ {(k)} \ równoważnik x \ prawej) & {} = F_ {X _ {(k)}} (x) \ quad = \ quad \ mathbb {P} (\ mathrm {au} \ \ mathrm {mniej} \ k \ \ mathrm {des} \ n \ X \ \ mathrm {are} \ \ leq x) \\ & = \ sum _ { j = k} ^ {n} {n \ wybierz j} \ mathbb {P} (X_ {1} \ leq x) ^ {j} (1- \ mathbb {P} (X_ {1} \ leq x)) ^ {nj} \\ & = \ sum _ {j = k} ^ {n} {n \ choose j} F (x) ^ {j} (1-F (x)) ^ {nj}. \ end { wyrównane}}}

Innymi słowy, liczba elementów próbki mniejszej niż x jest zgodna z prawem dwumianowym z parametrami n i F (x) , ponieważ są to n niezależnych eksperymentów, które mają dwa wyniki: „być mniejsze niż x ” i „być większe niż x ”, pierwszy z dwóch wyników mający prawdopodobieństwo F (x) , a drugi wynik mający prawdopodobieństwo 1-F (x) . Dryfując, znajdujemy sumę teleskopową, która daje gęstość:

{\ Displaystyle {\ rozpocząć {wyrównane} f_ {X _ {(k)}} (x) & {} = {d \ ponad dx} F_ {X _ {(k)}} (x) \\ & {} = \ suma _ {j = k} ^ {n} {n \ wybierz j} \ left (jF (x) ^ {j-1} f (x) (1-F (x)) ^ {nj} + F (x) ^ {j} (nj) (1-F (x)) ^ {nj-1} (- f (x)) \ right) \\ & {} = {n \ wybierz k} \, kF ( x) ^ {k-1} f (x) (1-F (x)) ^ {nk} \ + \ \ sum _ {j = k + 1} ^ {n} {n \ wybierz j} jF (x ) ^ {j-1} f (x) (1-F (x)) ^ {nj} \ - \ \ sum _ {j = k} ^ {n-1} (nj) {n \ wybierz j} \ F (x) ^ {j} f (x) (1-F (x)) ^ {nj-1} \\ & {} = {n \ wybierz k} \, kF (x) ^ {k-1} f (x) (1-F (x)) ^ {nk} \ + \ \ sum _ {j = k + 1} ^ {n} {n \ wybierz j} jF (x) ^ {j-1} f (x) (1-F (x)) ^ {nj} \ - \ \ sum _ {j = k + 1} ^ {n} (n-j + 1) {n \ wybierz j-1} \ F (x) ^ {j-1} f (x) (1-F (x)) ^ {nj} \\ & {} = {n \ wybierz k} \, kF (x) ^ {k-1} f (x) (1-F (x)) ^ {nk} \ + \ \ sum _ {j = k + 1} ^ {n} \ left ({n \ wybierz j} j- (nj + 1) {n \ wybierz j -1} \ right) \ F (x) ^ {j-1} f (x) (1-F (x)) ^ {nj} \\ & {} = {n \ wybierz k} \, kF (x ) ^ {k-1} f (x) (1-F (x)) ^ {nk}, \ end {aligned}}}

dlatego

{\ Displaystyle {n \ wybierz j} j \ = \ {\ Frac {n! \, j} {j! \, (nj)!}} \ = \ {\ Frac {n! \, (n-j + 1) } {(j-1)! \, (Nj + 1)!}} \ = \ (Nj + 1) {n \ wybierz j-1}.}

Wreszcie:

{\ Displaystyle f_ {X _ {(k)}} (x) = {n! \ over (k-1)! (nk)!} F (x) ^ {k-1} (1-F (x)) ^ {nk} f (x).}

Bezpośrednia kalkulacja

W serii n niezależnych i identycznych losowych eksperymentów, z których każdy ma trzy możliwe wyniki, powiedzmy a , b i c , z odpowiednimi prawdopodobieństwami p a , p b , p c , wspólne prawo liczb wyników N a (odpowiednio N b , N c ) typ ma (odpowiednio b , c ) jest wielomianowym rozkładem parametrów n i p = (p a , p b , p c ), opisanym przez:

{\ Displaystyle {\ rozpocząć {wyrównane} \ mathbb {P} \ lewo ((N_ {a}, N_ {b}, N_ {c}) = (k_ {a}, k_ {b}, k_ {c}) \ right) & = {n \ wybierz k_ {a}, k_ {b}, k_ {c}} \ p_ {a} ^ {k_ {a}} \, p_ {b} ^ {k_ {b}} \ , p_ {c} ^ {k_ {c}} \ 1 \! \! 1_ {k_ {a} + k_ {b} + k_ {c} = n} \\ & = {\ frac {n!} {k_ {a}! \, k_ {b}! \, k_ {c}!}} \ p_ {a} ^ {k_ {a}} \, p_ {b} ^ {k_ {b}} \, p_ {c } ^ {k_ {c}} \ 1 \! \! 1_ {k_ {a} + k_ {b} + k_ {c} = n}. \ end {aligned}}}

Zatem gęstość X (k) jest uzyskiwana przez rozpoznanie serii n niezależnych i identycznych losowych eksperymentów, z których każdy ma trzy możliwe wyniki, X i ≤ x , x <X i ≤ x + dx i X i > x + dx ' ' , z odpowiednimi prawdopodobieństwami F (x) , f (x) dx i 1-F (x) -f (x) dx . Więc,

{\ Displaystyle {\ rozpocząć {wyrównane} f_ {X _ {(k)}} (x) \ dx & {} = \ mathbb {P} \ lewo (X _ {(k)} \ w [x, \, x + dx] \ right) \\ & {} \ mathbb {P} \ left ({\ text {wśród}} n \ X_ {i}, {\ text {dokładnie}} \ k-1 \ {\ text {are}} \ \ leq x, {\ text {dokładnie jeden z}} X_ {i} \ in [x, \, x + dx], {\ text {i pozostałe to}} \ \ geq x + dx \ right) \\ & = {\ frac {n!} {(k-1)! \, 1! \, (nk)!}} \ F (x) ^ {k-1} \, f (x) \, dx \, (1-F (x)) ^ {nk} \\ & = {\ frac {n!} {(K-1)! \, (Nk)!}} \ F (x) ^ { k-1} \, (1-F (x)) ^ {nk} \, f (x) \, dx. \ End {aligned}}}

W szczególności

{\ Displaystyle f_ {X _ {(n)}} (x) = nF (x) ^ {n-1} \ f (x),}

wzór, który można znaleźć bezpośrednio, wyprowadzając wynik poniższego obliczenia:

{\ Displaystyle {\ rozpocząć {wyrównane} P \ lewo (X _ {(n)} \ równoważnik x \ prawej) & {} = F_ {X _ {(n)}} (x) \\ & = P \ lewo (\ max (X_ {1}, ..., X_ {n}) \ leq x \ right) \\ & = P \ left ({\ text {każdy z}} \ n \ X \ \ mathrm {est} \ \ leq x \ right) \\ & = P \ left (X_ {1} \ leq x \ right) ... P \ left (X_ {n} \ leq x \ right) \\ & = F \ left ( x \ right) ... F \ left (x \ right) \\ & = F \ left (x \ right) ^ {n} \ end {aligned}}}

W przypadku ciągłego prawa jednorodnego gęstość statystyki k-tego rzędu jest gęstością prawa beta z parametrami k i n + 1- k .

Łączna gęstość wszystkich statystyk zamówień

Twierdzenie - Jeśli założymy próbka X niezależnie identycznie rozmieszczone zgodnie z prawem gęstości f , a następnie do wspólnego gęstości z n statystykach porządkowym

{\ Displaystyle f (x _ {(1)}, \ kropki, x _ {(n)}) \ = \ n! \ \ lewo (\ prod _ {i = 1} ^ {n} f (x _ { (i)}) \ right) \ 1 \! \! 1_ {x _ {(1)} <x _ {(2)} <\ dots <x _ {(n-1)} <x _ {(n )}}.}

Demonstracja

Wystarczy pokazać, że dla dowolnej funkcji φ mierzalnej, ograniczonej i dodatniej lub zerowej,

{\ Displaystyle {\ rozpocząć {wyrównane} \ mathbb {E} \ lewo [\ varphi (X _ {(1)}, X _ {(2)}, \ kropki, X _ {(n)}) \ prawej] & = \ \ int _ {\ mathbb {R} ^ {n}} \ varphi (x _ {(1)}, x _ {(2)}, \ dots, x _ {(n)}) \, n ! \ \ left (\ prod _ {i = 1} ^ {n} f (x _ {(i)}) \ right) \ 1 \! \! 1_ {x _ {(1)} <x _ {( 2)} <\ dots <x_ {(n-1)} <x _ {(n)}} dx _ {(1)} \ dots dx _ {(n)}. \ End {aligned}}}

Ale ponieważ X i są niezależne i mają gęstości , mamy:

{\ Displaystyle {\ rozpocząć {wyrównane} \ mathbb {P} \ lewo (\ forall i \ neq j, \ X_ {i} \ neq X_ {j} \ prawej) i = 1. \ koniec {wyrównane}}}

Dlatego prawie na pewno

{\ Displaystyle {\ rozpocząć {wyrównane} \ varphi (X _ {(1)}, X _ {(2)}, \ kropki, X _ {(n)}) & = \ \ suma _ {\ sigma \ in {\ mathfrak {S}} _ {n}} \ varphi (X _ {\ sigma (1)}, X _ {\ sigma (2)}, \ dots, X _ {\ sigma (n)}) \ 1 \! \! 1_ {X _ {\ sigma (1)} <X _ {\ sigma (2)} <\ dots <X _ {\ sigma (n-1)} <X _ {\ sigma (n)} }. \ End {aligned}}}

Wreszcie:

{\ Displaystyle {\ rozpocząć {wyrównane} \ mathbb {E} \ lewo [\ varphi (X _ {\ sigma (1)}, X _ {\ sigma (2)}, \ kropki, X _ {\ sigma (n) )}) \, 1 \! \! 1_ {X _ {\ sigma (1)} <X _ {\ sigma (2)} <\ dots <X _ {\ sigma (n)}} \ right] & = \ \ mathbb {E} \ left [\ varphi (X_ {1}, X_ {2}, \ dots, X_ {n}) \, 1 \! \! 1_ {X_ {1} <X_ {2} <\ kropki <X_ {n}} \ right] \\ & = \ \ int _ {\ mathbb {R} ^ {n}} \ varphi (x_ {1}, x_ {2}, \ dots, x_ {n}) \ \ left (\ prod _ {i = 1} ^ {n} f (x_ {i}) \ right) \ 1 \! \! 1_ {x_ {1} <x_ {2} <\ dots <x_ {n }} dx_ {1} \ dots dx_ {n}, \ end {aligned}}}

ponieważ i mają tę samą gęstość Liniowość oczekiwania pozwala nam wnioskować. ${\ Displaystyle (X _ {\ sigma (1)}, X _ {\ sigma (2)}, \ kropki, X _ {\ sigma (n)})}$ ${\ displaystyle (X_ {1}, X_ {2}, \ kropki, X_ {n})}$ ${\ Displaystyle \ prod _ {i = 1} ^ {n} f (x_ {i}). \}$

Bibliografia

Herbert Aron David i Haikady N. Nagaraja, Order Statistics , Wiley ,sierpień 2003, 3 e ed. , 458 str. ( ISBN 978-0-471-38926-2 )