Analiza dyskryminacyjna



Informacje, które udało nam się zgromadzić na temat Analiza dyskryminacyjna, zostały starannie sprawdzone i uporządkowane, aby były jak najbardziej przydatne. Prawdopodobnie trafiłeś tutaj, aby dowiedzieć się więcej na temat Analiza dyskryminacyjna. W Internecie łatwo zgubić się w gąszczu stron, które mówią o Analiza dyskryminacyjna, a jednocześnie nie podają tego, co chcemy wiedzieć o Analiza dyskryminacyjna. Mamy nadzieję, że dasz nam znać w komentarzach, czy podoba Ci się to, co przeczytałeś o Analiza dyskryminacyjna poniżej. Jeśli informacje o Analiza dyskryminacyjna, które podajemy, nie są tym, czego szukałeś, daj nam znać, abyśmy mogli codziennie ulepszać tę stronę.

.

Analiza dyskryminacyjna
Podklasa
Metoda statystyczna ( d )

Analiza dyskryminacyjna ( AFD ), albo po prostu analiza dyskryminacyjna to technika statystyki , które ma na celu przedstawienie, wyjani i przewidzie czonkostwa w predefiniowanych grup (klasy, kategorie zmiennej do przewidzenia ...) z zestawu obserwacji (osoby fizyczne, przykady ...) z szeregu zmiennych predykcyjnych (deskryptory, zmienne egzogeniczne).

Analiza dyskryminacyjna jest wykorzystywana w wielu dziedzinach.

  • W medycynie , na przykad w celu wykrycia grup o wysokim ryzyku sercowym na podstawie takich cech, jak dieta, palenie lub nie, historia rodziny itp.
  • W sektorze bankowym, gdy chcemy oceni wiarygodno kredytobiorcy na podstawie jego dochodów, liczby osób na utrzymaniu, posiadanych przez niego niespaconych poyczek itp.
  • W biologii , gdy chcemy przypisa obiekt do jego rodziny czonkostwa na podstawie jego cech fizycznych. Irysy Sir Ronalda Fishera - który jest ródem tej metody - s przykadem, jest to kwestia rozpoznania typu tczówki (setosa, virginica i versicolor) na podstawie dugoci / szerokoci jej patków i dziaek.
  • W informatyce do optycznego rozpoznawania znaków . Analiza dyskryminacyjna suy do rozpoznawania znaku drukowanego na podstawie prostych informacji, takich jak obecno lub brak symetrii, liczba koców itp.

Analiza dyskryminacyjna jest znan i akceptowan technik, jest opisywana w identyczny sposób przez róne rodowiska przetwarzania danych: statystyczna eksploracyjna ( eksploracyjna analiza danych ) poprzez analiz danych w rozpoznawaniu wzorców ( rozpoznawanie wzorców ) w uczeniu maszynowym ( uczenie maszynowe ), eksploracja (eksploracja danych ) ...

Tabela danych

W pliku Flea Beetles Dataset, do którego odwouje si witryna DASL ( Biblioteka danych i historii ), obserwujemy trzy rodziny pche charakteryzujce si ktem i szerokoci ich rogówki, mskiego organu rozrodczego w entomologii.

Mamy 74 obserwacje w tym pliku. Zmienna Gatunek wskazuje rodzin, do której naley kady chip, s trzy {Con - Concinna, Hei - Heikertingeri, Hep - Heptapotamica}. Pchy opisywane s za pomoc dwóch zmiennych cigych: szerokoci ( szerokoci ) i kta ich edego.

Poniewa dane s opisywane przez dwie zmienne, moliwe jest przedstawienie wykresu punktowego na wykresie XY z szerokoci na odcitej i ktem (ktem) na rzdnej. Nie jest to ju moliwe, gdy liczba deskryptorów jest wiksza ni dwa, jedn z ról analizy dyskryminacyjnej jest wanie zaproponowanie odpowiedniej reprezentacji graficznej na ograniczonej przestrzeni.

Róne podejcia w zalenoci od celów

Zasadniczo istniej dwa gówne podejcia:

  • Analiza dyskryminacyjna moe mie charakter predykcyjny. W tym przypadku chodzi o skonstruowanie funkcji klasyfikacyjnej (regua przypisania itp.), Która na podstawie wartoci przyjmowanych przez zmienne predykcyjne pozwoli przewidzie, do której grupy naley jednostka. W tym sensie technika ta jest podobna do nadzorowanych technik w uczeniu maszynowym, takich jak drzewa decyzyjne , sieci neuronowe itp. Opiera si na strukturze probabilistycznej. Najbardziej znan jest z pewnoci hipoteza o rozkadzie multormalnym (rozkad normalny). Dodajc zaoenie o homoskedastycznoci, warunkowe chmury punktów maj ten sam ksztat, otrzymujemy liniow analiz dyskryminacyjn . Jest to bardzo atrakcyjne w praktyce, poniewa funkcja rankingu jest wyraona jako liniowa kombinacja zmiennych predykcyjnych, atwa do analizy i interpretacji. Technika ta, obok regresji logistycznej , jest szeroko stosowana w scoringu , np. Gdy chcemy scharakteryzowa apetyt - skonno do zakupu - klienta w obliczu nowego produktu.

Rozrónienie midzy tymi dwoma podejciami nie jest tak wyrane. Moliwe jest na przykad wyprowadzenie regu przypisania geometrycznego z dyskryminacyjnej analizy czynnikowej.

Opisowa analiza dyskryminacyjna

Opisowa analiza dyskryminacyjna (kanoniczna analiza dyskryminacyjna) jest eksploracyjn technik statystyczn, która dziaa na zestawie obserwacji opisywanych przez zmienne, podzielonych na grupy. Ma na celu stworzenie nowego systemu reprezentacji, skadajcego si z liniowych kombinacji zmiennych pocztkowych, który umoliwi jak najlepsze rozdzielenie kategorii.

  • Opisowa analiza dyskryminacyjna jest technik opisow, poniewa oferuje reprezentacj graficzn, która pozwala na wizualizacj odlegoci midzy obserwacjami, nalecych do tej samej grupy lub nie.
  • Jest to równie technika wyjaniajca, poniewa mamy moliwo interpretacji osi silni, liniowych kombinacji zmiennych pocztkowych, a tym samym zrozumienia cech wyróniajcych róne grupy.

W przeciwiestwie do predykcyjnej analizy dyskryminacyjnej nie jest oparta na adnym probabilistycznym zaoeniu. Zasadniczo jest to metoda geometryczna.

Notacje - formuy

Dane i oceny

Mamy próbk obserwacji podzielon na grupy liczb .

Zwró uwag na zmienn definiujc grupy, przyjmuje ona swoje wartoci . Mamy zmienne .

Oznaczamy rodki cikoci warunkowych chmur punktów, ich macierz wariancji-kowariancji .

Kroki

Celem analizy dyskryminacyjnej jest stworzenie nowej przestrzeni reprezentacji, która pozwoli najlepiej rozróni grupy K. Podejcie to polega na wytworzeniu szeregu zmiennych rozróniajcych , nieskorelowanych dwa na dwa, tak aby osoby z tej samej grupy rzutowane na te osie byy jak najbliej siebie, a osoby z rónych grup byy jak najdalej.

  • Dyspersja w grupie jest opisana przez macierz kowariancji wariancji . Moemy wydedukowa (do wspóczynnika) macierz dyspersji wewntrzgrupowej
  • Odlego midzy grupami, midzy rodkami cikoci grup, jest wyraona za pomoc midzygrupowej macierzy kowariancji wariancji (do jednego czynnika) , gdzie jest rodkiem cikoci globalnej chmury punktów.
  • Cakowit dyspersj chmury uzyskuje si za pomoc cakowitej macierzy kowariancji wariancji . Na mocy twierdzenia Huyghensa (bdcego wielowymiarowym uogólnieniem wzoru na rozkad wariancji):

Pierwsza o silnia zostanie zatem zdefiniowana przez wektor kierujcy w taki sposób, aby zmaksymalizowa ilo . Wariancja midzyklasowa na tej pierwszej osi silni bdzie maksymalna.

Rozwizanie

Rozwizanie tego problemu optymalizacji liniowej wymaga rozwizania równania . Odpowied jest bezporednio dostarczana przez obliczenie wartoci wasnych i wektorów wasnych macierzy .

  • Pierwsza o silnia jest zatem uzyskiwana przy uyciu wektora wasnego odpowiadajcego najwikszej wartoci wasnej . Druga o silnia jest zdefiniowana przez nastpujcy wektor wasny itd.
  • Zbiór osi silni jest okrelony przez niezerowe wartoci wasne macierzy . W zwykym przypadku , gdy otrzymujemy osie silni.
  • Wreszcie wariancja midzyklasowa obliczona na osi silni , zwana równie moc dyskryminacyjn osi , jest równa powizanej wartoci wasnej .

Ocena

Ocena przebiega na dwóch poziomach: ocena mocy dyskryminacyjnej osi silni; oceni moc dyskryminacyjn zbioru osi czynnikowych. Chodzi o to, aby móc okreli liczb osi wystarczajc do wyodrbnienia grup obserwacji w nowym systemie reprezentacji.

Oczywicie oceny te maj sens tylko wtedy, gdy grupy s dostrzegalne w pocztkowej przestrzeni reprezentacji. Dlatego musimy najpierw oceni, w jakim stopniu rodki cikoci grup s róne. Innymi sowy, chodzi o sprawdzenie, czy cz B w równaniu V = B + W jest na tyle dua, e warto j póniej rozoy.

Test MANOVA

Ogólny test jest jak wielowymiarowa jednokierunkowa analiza wariancji. W tym kontekcie wprowadzamy hipotez, e obserwacje maj wielowymiarowy rozkad normalny. Ten test znajdujemy równie w predykcyjnej analizie dyskryminacyjnej ( liniowej analizie dyskryminacyjnej ). Statystyka testu lambda Wilksa który jest równy stosunkowi (| | oznacza determinant matrycy). Korzystajc z transformacji Rao, która jest zgodna z prawem Fishera, moemy okreli, czy powinnimy przyj, czy odrzuci hipotez o równoci rodków cikoci grup.

Proporcja wyjanionej wariancji

Kada o zgasza cz wariancji midzyklasowej B. Prostym podejciem do oceny wanoci osi jest obliczenie czci wyjanionej wariancji, któr niesie, przetumaczonej przez warto wasn. Proporcja wartoci wasnej, tj. stosunek wartoci wasnej osi do cakowitej sumy wartoci wasnych wszystkich osi daje nam dobre wskazanie roli osi.

Raport korelacji

Innym sposobem okrelenia wanoci osi jest obliczenie wspóczynnika korelacji. Opiera si na formule rozkadu wariancji. Dla osi silni jest ona równa stosunkowi (suma kwadratów midzygrupowych podzielona przez cakowit sum kwadratów reprezentuje obserwacj).

O bdzie tym ciekawsza, jeli bdzie miaa wysoki wspóczynnik korelacji. W oprogramowaniu anglosaskim pierwiastek kwadratowy ze stosunku korelacji osi nazywany jest h-t korelacj kanoniczn.

Kolejny test roota

Wprowadzajc ponownie hipotez wielorakoci i homoskedastycznoci (patrz predykcyjna analiza dyskryminacyjna), moemy przetestowa niewano ostatnich wspóczynników korelacji. Test oparty jest na statystyce Wilksa . Hipoteza zerowa (niewano wspóczynników korelacji) jest uniewaniona dla maych wartoci .

Jeli chodzi o test globalny, zaimplementowano transformacj, która opiera si na aktualnie uywanych prawach dystrybucji. Transformacja Bartletta jest czsto oferowana w oprogramowaniu. Jest zgodny z prawem chi-kwadrat ze stopniami swobody. Hipoteza zerowa jest odrzucana, jeli obliczone prawdopodobiestwo krytyczne jest nisze ni ryzyko pierwszego rodzaju (poziom ufnoci), które sami sobie postawilimy.

Wracamy do powyszego globalnego testu MANOVA (Lambda Wilksa), jeli przetestujemy niewano wspóczynników korelacji na wszystkich osiach czynników. Innymi sowy , co jest cakiem naturalne, poniewa sprowadza si do przetestowania wszystkich osi.

Przykad

Synny plik IRIS ilustruje t metod. Zosta on zaproponowany i wykorzystany przez samego Fishera do zilustrowania analizy dyskryminacyjnej. Ma 150 kwiatów opisanych przez 4 zmienne (dugo i szeroko patków i dziaek) i pogrupowanych w 3 kategorie (Setosa, Versicolor i Virginica).

Celem jest stworzenie planu silni (3 kategorie 2 osie) umoliwiajcego jak najlepsze rozrónienie tych kategorii, a nastpnie wyjanienie ich pozycji.

Osie czynnikowe

Obliczenie daje nastpujce wyniki.

O Val. czysty Proporcja Kanoniczne R Wilks KHI-2 DDL warto p
1 32,272 0,991 0.985 0,024 545,58 8 0.0
2 0,277 1.0 0,466 0,783 35.6 3 0.0

Te dwie osie maj globalne znaczenie. Rzeczywicie, lambda Wilksa niewanoci dwóch osi jest równe 0,023525 ( tutaj). KHI-2 Bartletta jest równe 545,57, przy stopniu swobody równym (2 x (4-3 + 2 + 1)) = 8, jest bardzo znaczce ( bardzo maa warto p ).

Zauwaamy jednak, e pierwsza o odzwierciedla 99,1% wyjanionej wariancji. Moemy zasadnie zapyta, czy druga o ma znaczenie dla dyskryminacji grup. Wystarczy do tego przetestowa niewano ostatniej osi ( ). Lambda jest wysza (0,78), co skutkuje niszym KHI-2 (35,64) przy (1 x (4-3 + 1 + 1)) = 3 stopnie swobody, niemniej pozostaje znaczca, jeli postawimy sobie pewno poziom 5%.

Bazujc na tym wyniku, musielibymy zachowa obie osie. Zobaczymy poniej, e ten wynik naley spojrze z perspektywy.

Reprezentacja graficzna

Rzutujc punkty na paszczyzn silni, uzyskujemy nastpujce pozycjonowanie.

Projekt czynnikowy - opisowa analiza dyskryminacyjna

Wyranie rozróniamy trzy kategorie kwiatów. Zwracamy równie uwag, e pierwsza o ju umoliwia ich odpowiednie wyodrbnienie. Na drugiej osi, nawet jeli rodki cikoci grup wydaj si róne, zrónicowanie nie jest tak wyrane.

Na tym wykresie wyranie znajdujemy to, co wyczulimy z wyjanion proporcj wariancji. Pierwsza o jest w duej mierze wystarczajca do rozrónienia grup. Druga o, nawet jeli jest istotna statystycznie, nie dostarcza rzeczywistych dodatkowych informacji.

Bardzo czsto techniki wizualne stanowi bardzo istotny kontrapunkt dla surowych wyników liczbowych.

Projekcja dodatkowych osób

Aby rzutowa dodatkowe obserwacje na paszczyzn silni, oprogramowanie zapewnia równania funkcji dyskryminacyjnych. Wystarczy zastosowa je do opisu osoby, która ma by sklasyfikowana, aby uzyska jej wspórzdne w nowym ukadzie odniesienia.

W przykadzie IRIS otrzymujemy nastpujce wspóczynniki.

Zmienne O 1 O 2
Dugo dziaki -0,819 -0,033
Szeroko dziaki -1,548 -2,155
Dugo patka 2,185 0.930
Szeroko patka 2.854 -2,806
Stay -2,119 6,640

Interpretacja osi

Ostatni punkt, i nie mniej wany, musimy zrozumie wzgldne umiejscowienie grup, to znaczy wyjani za pomoc zmiennych pocztkowych przynaleno do kategorii.

W tym celu, podobnie jak techniki czynnikowe, takie jak analiza gównych skadowych (PCA) - dyskryminacyjna analiza czynnikowa moe by ponadto traktowana jako szczególny przypadek PCA - oprogramowanie zapewnia macierz korelacji. W przeciwiestwie do PCA, mona wytworzy trzy typy korelacji: globalna korelacja midzy osiami a zmiennymi pocztkowymi; korelacja wewntrzklasowa, obliczona w ramach grup; korelacja midzyklasowa obliczona na podstawie rodków cikoci grup waonych ich czstotliwociami.

W przykadzie IRIS, jeli trzymamy si pierwszej osi, otrzymujemy nastpujce korelacje.

Zmienne Cakowity Wewntrzgrupowe Midzygrupy
Dugo wrz 0,792 0.222 0,992
Wrz Szeroko -0,523 -0,116 -0,822
Dugo zwierzcia 0.985 0,705 1000
Szeroko zwierzaka 0.973 0.632 0,994

Korelacja midzyklasowa, która przekada si na pooenie grup na osiach, wskazuje tutaj, e Virginica maj raczej dugoci dziaek, dugoci i szerokoci wanych patków. Z drugiej strony Setosa ma zmniejszon dugo, dugo i szeroko dziaek patków. Versicolors zajmuj pozycj poredni.

Odwrócono odczyt dotyczcy szerokoci dziaek.

Uwagi i odniesienia

Bibliografia


Mamy nadzieję, że informacje, które zgromadziliśmy na temat Analiza dyskryminacyjna, były dla Ciebie przydatne. Jeśli tak, nie zapomnij polecić nas swoim przyjaciołom i rodzinie oraz pamiętaj, że zawsze możesz się z nami skontaktować, jeśli będziesz nas potrzebować. Jeśli mimo naszych starań uznasz, że informacje podane na temat _title nie są całkowicie poprawne lub że powinniśmy coś dodać lub poprawić, będziemy wdzięczni za poinformowanie nas o tym. Dostarczanie najlepszych i najbardziej wyczerpujących informacji na temat Analiza dyskryminacyjna i każdego innego tematu jest istotą tej strony internetowej; kierujemy się tym samym duchem, który inspirował twórców Encyclopedia Project, i z tego powodu mamy nadzieję, że to, co znalazłeś o Analiza dyskryminacyjna na tej stronie pomogło Ci poszerzyć swoją wiedzę.

Opiniones de nuestros usuarios

Irmina Dobosz

Wreszcie artykuł o Analiza dyskryminacyjna, który jest łatwy do przeczytania.

Jaroslaw Stefański

Ten artykuł o zmiennej Analiza dyskryminacyjna przykuł moją uwagę. Zastanawia mnie, jak dobrze odmierzone są słowa, to jest jak... eleganckie.

Oksana Cybulski

Zawsze dobrze jest się uczyć. Dziękuję za artykuł o zmiennej Analiza dyskryminacyjna

Konrad Brzozowski

Ten wpis na Analiza dyskryminacyjna pomógł mi w ostatniej chwili dokończyć pracę na jutro. Już widziałem, jak znowu ciągnę Wikipedię, coś, czego nauczyciel nam zabronił. Dziękuję za uratowanie mnie.