Podklasa | Metoda statystyczna ( d ) |
---|
Analiza dyskryminacyjna ( AFD ), albo po prostu analiza dyskryminacyjna to technika statystyki , które ma na celu przedstawienie, wyjaśnić i przewidzieć członkostwa w predefiniowanych grup (klasy, kategorie zmiennej do przewidzenia ...) z zestawu obserwacji (osoby fizyczne, przykłady ...) z szeregu zmiennych predykcyjnych (deskryptory, zmienne egzogeniczne…).
Analiza dyskryminacyjna jest wykorzystywana w wielu dziedzinach.
Analiza dyskryminacyjna jest znaną i akceptowaną techniką, jest opisywana w identyczny sposób przez różne środowiska przetwarzania danych: statystyczna eksploracyjna ( eksploracyjna analiza danych ) poprzez analizę danych w rozpoznawaniu wzorców ( rozpoznawanie wzorców ) w uczeniu maszynowym ( uczenie maszynowe ), eksploracja (eksploracja danych ) ...
W pliku Flea Beetles Dataset, do którego odwołuje się witryna DASL ( Biblioteka danych i historii ), obserwujemy trzy rodziny pcheł charakteryzujące się kątem i szerokością ich rogówki, męskiego organu rozrodczego w entomologii.
Mamy 74 obserwacje w tym pliku. Zmienna Gatunek wskazuje rodzinę, do której należy każdy chip, są trzy {Con - Concinna, Hei - Heikertingeri, Hep - Heptapotamica}. Pchły opisywane są za pomocą dwóch zmiennych ciągłych: szerokości ( szerokości ) i kąta ich edego.
Ponieważ dane są opisywane przez dwie zmienne, możliwe jest przedstawienie wykresu punktowego na wykresie XY z szerokością na odciętej i kątem (kątem) na rzędnej. Nie jest to już możliwe, gdy liczba deskryptorów jest większa niż dwa, jedną z ról analizy dyskryminacyjnej jest właśnie zaproponowanie odpowiedniej reprezentacji graficznej na ograniczonej przestrzeni.
Zasadniczo istnieją dwa główne podejścia:
Rozróżnienie między tymi dwoma podejściami nie jest tak wyraźne. Możliwe jest na przykład wyprowadzenie reguł przypisania geometrycznego z dyskryminacyjnej analizy czynnikowej.
Opisowa analiza dyskryminacyjna (kanoniczna analiza dyskryminacyjna) jest eksploracyjną techniką statystyczną, która działa na zestawie obserwacji opisywanych przez zmienne, podzielonych na grupy. Ma na celu stworzenie nowego systemu reprezentacji, składającego się z liniowych kombinacji zmiennych początkowych, który umożliwi jak najlepsze rozdzielenie kategorii.
W przeciwieństwie do predykcyjnej analizy dyskryminacyjnej nie jest oparta na żadnym probabilistycznym założeniu. Zasadniczo jest to metoda geometryczna.
Mamy próbkę obserwacji podzieloną na grupy liczb .
Zwróć uwagę na zmienną definiującą grupy, przyjmuje ona swoje wartości . Mamy zmienne .
Oznaczamy środki ciężkości warunkowych chmur punktów, ich macierz wariancji-kowariancji .
KrokiCelem analizy dyskryminacyjnej jest stworzenie nowej przestrzeni reprezentacji, która pozwoli najlepiej rozróżnić grupy K. Podejście to polega na wytworzeniu szeregu zmiennych rozróżniających , nieskorelowanych dwa na dwa, tak aby osoby z tej samej grupy rzutowane na te osie były jak najbliżej siebie, a osoby z różnych grup były jak najdalej.
Pierwsza oś silnia zostanie zatem zdefiniowana przez wektor kierujący w taki sposób, aby zmaksymalizować ilość . Wariancja międzyklasowa na tej pierwszej osi silni będzie maksymalna.
RozwiązanieRozwiązanie tego problemu optymalizacji liniowej wymaga rozwiązania równania . Odpowiedź jest bezpośrednio dostarczana przez obliczenie wartości własnych i wektorów własnych macierzy .
Ocena przebiega na dwóch poziomach: ocena mocy dyskryminacyjnej osi silni; ocenić moc dyskryminacyjną zbioru osi czynnikowych. Chodzi o to, aby móc określić liczbę osi wystarczającą do wyodrębnienia grup obserwacji w nowym systemie reprezentacji.
Oczywiście oceny te mają sens tylko wtedy, gdy grupy są dostrzegalne w początkowej przestrzeni reprezentacji. Dlatego musimy najpierw ocenić, w jakim stopniu środki ciężkości grup są różne. Innymi słowy, chodzi o sprawdzenie, czy część B w równaniu V = B + W jest na tyle duża, że warto ją później rozłożyć.
Test MANOVAOgólny test jest jak wielowymiarowa jednokierunkowa analiza wariancji. W tym kontekście wprowadzamy hipotezę, że obserwacje mają wielowymiarowy rozkład normalny. Ten test znajdujemy również w predykcyjnej analizie dyskryminacyjnej ( liniowej analizie dyskryminacyjnej ). Statystyka testu lambda Wilksa który jest równy stosunkowi (| | oznacza determinantę matrycy). Korzystając z transformacji Rao, która jest zgodna z prawem Fishera, możemy określić, czy powinniśmy przyjąć, czy odrzucić hipotezę o równości środków ciężkości grup.
Proporcja wyjaśnionej wariancjiKażda oś zgłasza część wariancji międzyklasowej B. Prostym podejściem do oceny ważności osi jest obliczenie części wyjaśnionej wariancji, którą niesie, przetłumaczonej przez wartość własną. Proporcja wartości własnej, tj. stosunek wartości własnej osi do całkowitej sumy wartości własnych wszystkich osi daje nam dobre wskazanie roli osi.
Raport korelacjiInnym sposobem określenia ważności osi jest obliczenie współczynnika korelacji. Opiera się na formule rozkładu wariancji. Dla osi silni jest ona równa stosunkowi (suma kwadratów międzygrupowych podzielona przez całkowitą sumę kwadratów reprezentuje obserwację).
Oś będzie tym ciekawsza, jeśli będzie miała wysoki współczynnik korelacji. W oprogramowaniu anglosaskim pierwiastek kwadratowy ze stosunku korelacji osi nazywany jest h-tą korelacją kanoniczną.
Kolejny test rootaWprowadzając ponownie hipotezę wielorakości i homoskedastyczności (patrz predykcyjna analiza dyskryminacyjna), możemy przetestować nieważność ostatnich współczynników korelacji. Test oparty jest na statystyce Wilksa . Hipoteza zerowa (nieważność współczynników korelacji) jest unieważniona dla małych wartości .
Jeśli chodzi o test globalny, zaimplementowano transformację, która opiera się na aktualnie używanych prawach dystrybucji. Transformacja Bartletta jest często oferowana w oprogramowaniu. Jest zgodny z prawem chi-kwadrat ze stopniami swobody. Hipoteza zerowa jest odrzucana, jeśli obliczone prawdopodobieństwo krytyczne jest niższe niż ryzyko pierwszego rodzaju (poziom ufności), które sami sobie postawiliśmy.
Wracamy do powyższego globalnego testu MANOVA (Lambda Wilksa), jeśli przetestujemy nieważność współczynników korelacji na wszystkich osiach czynników. Innymi słowy , co jest całkiem naturalne, ponieważ sprowadza się do przetestowania wszystkich osi.
Słynny plik IRIS ilustruje tę metodę. Został on zaproponowany i wykorzystany przez samego Fishera do zilustrowania analizy dyskryminacyjnej. Ma 150 kwiatów opisanych przez 4 zmienne (długość i szerokość płatków i działek) i pogrupowanych w 3 kategorie (Setosa, Versicolor i Virginica).
Celem jest stworzenie planu silni (3 kategorie ⇒ 2 osie) umożliwiającego jak najlepsze rozróżnienie tych kategorii, a następnie wyjaśnienie ich pozycji.
Osie czynnikoweObliczenie daje następujące wyniki.
Oś | Val. czysty | Proporcja | Kanoniczne R | Wilks | KHI-2 | DDL | wartość p |
---|---|---|---|---|---|---|---|
1 | 32,272 | 0,991 | 0.985 | 0,024 | 545,58 | 8 | 0.0 |
2 | 0,277 | 1.0 | 0,466 | 0,783 | 35.6 | 3 | 0.0 |
Te dwie osie mają globalne znaczenie. Rzeczywiście, lambda Wilksa nieważności dwóch osi jest równe 0,023525 ( tutaj). KHI-2 Bartletta jest równe 545,57, przy stopniu swobody równym (2 x (4-3 + 2 + 1)) = 8, jest bardzo znaczące ( bardzo mała wartość p ).
Zauważamy jednak, że pierwsza oś odzwierciedla 99,1% wyjaśnionej wariancji. Możemy zasadnie zapytać, czy druga oś ma znaczenie dla dyskryminacji grup. Wystarczy do tego przetestować nieważność ostatniej osi ( ). Lambda jest wyższa (0,78), co skutkuje niższym KHI-2 (35,64) przy (1 x (4-3 + 1 + 1)) = 3 stopnie swobody, niemniej pozostaje znacząca, jeśli postawimy sobie pewność poziom 5%.
Bazując na tym wyniku, musielibyśmy zachować obie osie. Zobaczymy poniżej, że ten wynik należy spojrzeć z perspektywy.
Reprezentacja graficznaRzutując punkty na płaszczyznę silni, uzyskujemy następujące pozycjonowanie.
Wyraźnie rozróżniamy trzy kategorie kwiatów. Zwracamy również uwagę, że pierwsza oś już umożliwia ich odpowiednie wyodrębnienie. Na drugiej osi, nawet jeśli środki ciężkości grup wydają się różne, zróżnicowanie nie jest tak wyraźne.
Na tym wykresie wyraźnie znajdujemy to, co wyczuliśmy z wyjaśnioną proporcją wariancji. Pierwsza oś jest w dużej mierze wystarczająca do rozróżnienia grup. Druga oś, nawet jeśli jest istotna statystycznie, nie dostarcza rzeczywistych dodatkowych informacji.
Bardzo często techniki wizualne stanowią bardzo istotny kontrapunkt dla surowych wyników liczbowych.
Projekcja dodatkowych osóbAby rzutować dodatkowe obserwacje na płaszczyznę silni, oprogramowanie zapewnia równania funkcji dyskryminacyjnych. Wystarczy zastosować je do opisu osoby, która ma być sklasyfikowana, aby uzyskać jej współrzędne w nowym układzie odniesienia.
W przykładzie IRIS otrzymujemy następujące współczynniki.
Zmienne | Oś 1 | Oś 2 |
---|---|---|
Długość działki | -0,819 | -0,033 |
Szerokość działki | -1,548 | -2,155 |
Długość płatka | 2,185 | 0.930 |
Szerokość płatka | 2.854 | -2,806 |
Stały | -2,119 | 6,640 |
Ostatni punkt, i nie mniej ważny, musimy zrozumieć względne umiejscowienie grup, to znaczy wyjaśnić za pomocą zmiennych początkowych przynależność do kategorii.
W tym celu, podobnie jak techniki czynnikowe, takie jak analiza głównych składowych (PCA) - dyskryminacyjna analiza czynnikowa może być ponadto traktowana jako szczególny przypadek PCA - oprogramowanie zapewnia macierz korelacji. W przeciwieństwie do PCA, można wytworzyć trzy typy korelacji: globalna korelacja między osiami a zmiennymi początkowymi; korelacja wewnątrzklasowa, obliczona w ramach grup; korelacja międzyklasowa obliczona na podstawie środków ciężkości grup ważonych ich częstotliwościami.
W przykładzie IRIS, jeśli trzymamy się pierwszej osi, otrzymujemy następujące korelacje.
Zmienne | Całkowity | Wewnątrzgrupowe | Międzygrupy |
---|---|---|---|
Długość wrz | 0,792 | 0.222 | 0,992 |
Wrz Szerokość | -0,523 | -0,116 | -0,822 |
Długość zwierzęcia | 0.985 | 0,705 | 1000 |
Szerokość zwierzaka | 0.973 | 0.632 | 0,994 |
Korelacja międzyklasowa, która przekłada się na położenie grup na osiach, wskazuje tutaj, że Virginica mają raczej długości działek, długości i szerokości ważnych płatków. Z drugiej strony Setosa ma zmniejszoną długość, długość i szerokość działek płatków. Versicolors zajmują pozycję pośrednią.
Odwrócono odczyt dotyczący szerokości działek.