Informacje, które udało nam się zgromadzić na temat Analiza dyskryminacyjna, zostały starannie sprawdzone i uporządkowane, aby były jak najbardziej przydatne. Prawdopodobnie trafiłeś tutaj, aby dowiedzieć się więcej na temat Analiza dyskryminacyjna. W Internecie łatwo zgubić się w gąszczu stron, które mówią o Analiza dyskryminacyjna, a jednocześnie nie podają tego, co chcemy wiedzieć o Analiza dyskryminacyjna. Mamy nadzieję, że dasz nam znać w komentarzach, czy podoba Ci się to, co przeczytałeś o Analiza dyskryminacyjna poniżej. Jeśli informacje o Analiza dyskryminacyjna, które podajemy, nie są tym, czego szukałeś, daj nam znać, abyśmy mogli codziennie ulepszać tę stronę.
.
Podklasa |
Metoda statystyczna ( d )
|
---|
Analiza dyskryminacyjna ( AFD ), albo po prostu analiza dyskryminacyjna to technika statystyki , które ma na celu przedstawienie, wyjani i przewidzie czonkostwa w predefiniowanych grup (klasy, kategorie zmiennej do przewidzenia ...) z zestawu obserwacji (osoby fizyczne, przykady ...) z szeregu zmiennych predykcyjnych (deskryptory, zmienne egzogeniczne).
Analiza dyskryminacyjna jest wykorzystywana w wielu dziedzinach.
Analiza dyskryminacyjna jest znan i akceptowan technik, jest opisywana w identyczny sposób przez róne rodowiska przetwarzania danych: statystyczna eksploracyjna ( eksploracyjna analiza danych ) poprzez analiz danych w rozpoznawaniu wzorców ( rozpoznawanie wzorców ) w uczeniu maszynowym ( uczenie maszynowe ), eksploracja (eksploracja danych ) ...
W pliku Flea Beetles Dataset, do którego odwouje si witryna DASL ( Biblioteka danych i historii ), obserwujemy trzy rodziny pche charakteryzujce si ktem i szerokoci ich rogówki, mskiego organu rozrodczego w entomologii.
Mamy 74 obserwacje w tym pliku. Zmienna Gatunek wskazuje rodzin, do której naley kady chip, s trzy {Con - Concinna, Hei - Heikertingeri, Hep - Heptapotamica}. Pchy opisywane s za pomoc dwóch zmiennych cigych: szerokoci ( szerokoci ) i kta ich edego.
Poniewa dane s opisywane przez dwie zmienne, moliwe jest przedstawienie wykresu punktowego na wykresie XY z szerokoci na odcitej i ktem (ktem) na rzdnej. Nie jest to ju moliwe, gdy liczba deskryptorów jest wiksza ni dwa, jedn z ról analizy dyskryminacyjnej jest wanie zaproponowanie odpowiedniej reprezentacji graficznej na ograniczonej przestrzeni.
Zasadniczo istniej dwa gówne podejcia:
Rozrónienie midzy tymi dwoma podejciami nie jest tak wyrane. Moliwe jest na przykad wyprowadzenie regu przypisania geometrycznego z dyskryminacyjnej analizy czynnikowej.
Opisowa analiza dyskryminacyjna (kanoniczna analiza dyskryminacyjna) jest eksploracyjn technik statystyczn, która dziaa na zestawie obserwacji opisywanych przez zmienne, podzielonych na grupy. Ma na celu stworzenie nowego systemu reprezentacji, skadajcego si z liniowych kombinacji zmiennych pocztkowych, który umoliwi jak najlepsze rozdzielenie kategorii.
W przeciwiestwie do predykcyjnej analizy dyskryminacyjnej nie jest oparta na adnym probabilistycznym zaoeniu. Zasadniczo jest to metoda geometryczna.
Mamy próbk obserwacji podzielon na grupy liczb .
Zwró uwag na zmienn definiujc grupy, przyjmuje ona swoje wartoci . Mamy zmienne .
Oznaczamy rodki cikoci warunkowych chmur punktów, ich macierz wariancji-kowariancji .
Celem analizy dyskryminacyjnej jest stworzenie nowej przestrzeni reprezentacji, która pozwoli najlepiej rozróni grupy K. Podejcie to polega na wytworzeniu szeregu zmiennych rozróniajcych , nieskorelowanych dwa na dwa, tak aby osoby z tej samej grupy rzutowane na te osie byy jak najbliej siebie, a osoby z rónych grup byy jak najdalej.
Pierwsza o silnia zostanie zatem zdefiniowana przez wektor kierujcy w taki sposób, aby zmaksymalizowa ilo . Wariancja midzyklasowa na tej pierwszej osi silni bdzie maksymalna.
Rozwizanie tego problemu optymalizacji liniowej wymaga rozwizania równania . Odpowied jest bezporednio dostarczana przez obliczenie wartoci wasnych i wektorów wasnych macierzy .
Ocena przebiega na dwóch poziomach: ocena mocy dyskryminacyjnej osi silni; oceni moc dyskryminacyjn zbioru osi czynnikowych. Chodzi o to, aby móc okreli liczb osi wystarczajc do wyodrbnienia grup obserwacji w nowym systemie reprezentacji.
Oczywicie oceny te maj sens tylko wtedy, gdy grupy s dostrzegalne w pocztkowej przestrzeni reprezentacji. Dlatego musimy najpierw oceni, w jakim stopniu rodki cikoci grup s róne. Innymi sowy, chodzi o sprawdzenie, czy cz B w równaniu V = B + W jest na tyle dua, e warto j póniej rozoy.
Ogólny test jest jak wielowymiarowa jednokierunkowa analiza wariancji. W tym kontekcie wprowadzamy hipotez, e obserwacje maj wielowymiarowy rozkad normalny. Ten test znajdujemy równie w predykcyjnej analizie dyskryminacyjnej ( liniowej analizie dyskryminacyjnej ). Statystyka testu lambda Wilksa który jest równy stosunkowi (| | oznacza determinant matrycy). Korzystajc z transformacji Rao, która jest zgodna z prawem Fishera, moemy okreli, czy powinnimy przyj, czy odrzuci hipotez o równoci rodków cikoci grup.
Kada o zgasza cz wariancji midzyklasowej B. Prostym podejciem do oceny wanoci osi jest obliczenie czci wyjanionej wariancji, któr niesie, przetumaczonej przez warto wasn. Proporcja wartoci wasnej, tj. stosunek wartoci wasnej osi do cakowitej sumy wartoci wasnych wszystkich osi daje nam dobre wskazanie roli osi.
Innym sposobem okrelenia wanoci osi jest obliczenie wspóczynnika korelacji. Opiera si na formule rozkadu wariancji. Dla osi silni jest ona równa stosunkowi (suma kwadratów midzygrupowych podzielona przez cakowit sum kwadratów reprezentuje obserwacj).
O bdzie tym ciekawsza, jeli bdzie miaa wysoki wspóczynnik korelacji. W oprogramowaniu anglosaskim pierwiastek kwadratowy ze stosunku korelacji osi nazywany jest h-t korelacj kanoniczn.
Wprowadzajc ponownie hipotez wielorakoci i homoskedastycznoci (patrz predykcyjna analiza dyskryminacyjna), moemy przetestowa niewano ostatnich wspóczynników korelacji. Test oparty jest na statystyce Wilksa . Hipoteza zerowa (niewano wspóczynników korelacji) jest uniewaniona dla maych wartoci .
Jeli chodzi o test globalny, zaimplementowano transformacj, która opiera si na aktualnie uywanych prawach dystrybucji. Transformacja Bartletta jest czsto oferowana w oprogramowaniu. Jest zgodny z prawem chi-kwadrat ze stopniami swobody. Hipoteza zerowa jest odrzucana, jeli obliczone prawdopodobiestwo krytyczne jest nisze ni ryzyko pierwszego rodzaju (poziom ufnoci), które sami sobie postawilimy.
Wracamy do powyszego globalnego testu MANOVA (Lambda Wilksa), jeli przetestujemy niewano wspóczynników korelacji na wszystkich osiach czynników. Innymi sowy , co jest cakiem naturalne, poniewa sprowadza si do przetestowania wszystkich osi.
Synny plik IRIS ilustruje t metod. Zosta on zaproponowany i wykorzystany przez samego Fishera do zilustrowania analizy dyskryminacyjnej. Ma 150 kwiatów opisanych przez 4 zmienne (dugo i szeroko patków i dziaek) i pogrupowanych w 3 kategorie (Setosa, Versicolor i Virginica).
Celem jest stworzenie planu silni (3 kategorie 2 osie) umoliwiajcego jak najlepsze rozrónienie tych kategorii, a nastpnie wyjanienie ich pozycji.
Obliczenie daje nastpujce wyniki.
O | Val. czysty | Proporcja | Kanoniczne R | Wilks | KHI-2 | DDL | warto p |
---|---|---|---|---|---|---|---|
1 | 32,272 | 0,991 | 0.985 | 0,024 | 545,58 | 8 | 0.0 |
2 | 0,277 | 1.0 | 0,466 | 0,783 | 35.6 | 3 | 0.0 |
Te dwie osie maj globalne znaczenie. Rzeczywicie, lambda Wilksa niewanoci dwóch osi jest równe 0,023525 ( tutaj). KHI-2 Bartletta jest równe 545,57, przy stopniu swobody równym (2 x (4-3 + 2 + 1)) = 8, jest bardzo znaczce ( bardzo maa warto p ).
Zauwaamy jednak, e pierwsza o odzwierciedla 99,1% wyjanionej wariancji. Moemy zasadnie zapyta, czy druga o ma znaczenie dla dyskryminacji grup. Wystarczy do tego przetestowa niewano ostatniej osi ( ). Lambda jest wysza (0,78), co skutkuje niszym KHI-2 (35,64) przy (1 x (4-3 + 1 + 1)) = 3 stopnie swobody, niemniej pozostaje znaczca, jeli postawimy sobie pewno poziom 5%.
Bazujc na tym wyniku, musielibymy zachowa obie osie. Zobaczymy poniej, e ten wynik naley spojrze z perspektywy.
Rzutujc punkty na paszczyzn silni, uzyskujemy nastpujce pozycjonowanie.
Wyranie rozróniamy trzy kategorie kwiatów. Zwracamy równie uwag, e pierwsza o ju umoliwia ich odpowiednie wyodrbnienie. Na drugiej osi, nawet jeli rodki cikoci grup wydaj si róne, zrónicowanie nie jest tak wyrane.
Na tym wykresie wyranie znajdujemy to, co wyczulimy z wyjanion proporcj wariancji. Pierwsza o jest w duej mierze wystarczajca do rozrónienia grup. Druga o, nawet jeli jest istotna statystycznie, nie dostarcza rzeczywistych dodatkowych informacji.
Bardzo czsto techniki wizualne stanowi bardzo istotny kontrapunkt dla surowych wyników liczbowych.
Aby rzutowa dodatkowe obserwacje na paszczyzn silni, oprogramowanie zapewnia równania funkcji dyskryminacyjnych. Wystarczy zastosowa je do opisu osoby, która ma by sklasyfikowana, aby uzyska jej wspórzdne w nowym ukadzie odniesienia.
W przykadzie IRIS otrzymujemy nastpujce wspóczynniki.
Zmienne | O 1 | O 2 |
---|---|---|
Dugo dziaki | -0,819 | -0,033 |
Szeroko dziaki | -1,548 | -2,155 |
Dugo patka | 2,185 | 0.930 |
Szeroko patka | 2.854 | -2,806 |
Stay | -2,119 | 6,640 |
Ostatni punkt, i nie mniej wany, musimy zrozumie wzgldne umiejscowienie grup, to znaczy wyjani za pomoc zmiennych pocztkowych przynaleno do kategorii.
W tym celu, podobnie jak techniki czynnikowe, takie jak analiza gównych skadowych (PCA) - dyskryminacyjna analiza czynnikowa moe by ponadto traktowana jako szczególny przypadek PCA - oprogramowanie zapewnia macierz korelacji. W przeciwiestwie do PCA, mona wytworzy trzy typy korelacji: globalna korelacja midzy osiami a zmiennymi pocztkowymi; korelacja wewntrzklasowa, obliczona w ramach grup; korelacja midzyklasowa obliczona na podstawie rodków cikoci grup waonych ich czstotliwociami.
W przykadzie IRIS, jeli trzymamy si pierwszej osi, otrzymujemy nastpujce korelacje.
Zmienne | Cakowity | Wewntrzgrupowe | Midzygrupy |
---|---|---|---|
Dugo wrz | 0,792 | 0.222 | 0,992 |
Wrz Szeroko | -0,523 | -0,116 | -0,822 |
Dugo zwierzcia | 0.985 | 0,705 | 1000 |
Szeroko zwierzaka | 0.973 | 0.632 | 0,994 |
Korelacja midzyklasowa, która przekada si na pooenie grup na osiach, wskazuje tutaj, e Virginica maj raczej dugoci dziaek, dugoci i szerokoci wanych patków. Z drugiej strony Setosa ma zmniejszon dugo, dugo i szeroko dziaek patków. Versicolors zajmuj pozycj poredni.
Odwrócono odczyt dotyczcy szerokoci dziaek.
Mamy nadzieję, że informacje, które zgromadziliśmy na temat Analiza dyskryminacyjna, były dla Ciebie przydatne. Jeśli tak, nie zapomnij polecić nas swoim przyjaciołom i rodzinie oraz pamiętaj, że zawsze możesz się z nami skontaktować, jeśli będziesz nas potrzebować. Jeśli mimo naszych starań uznasz, że informacje podane na temat _title nie są całkowicie poprawne lub że powinniśmy coś dodać lub poprawić, będziemy wdzięczni za poinformowanie nas o tym. Dostarczanie najlepszych i najbardziej wyczerpujących informacji na temat Analiza dyskryminacyjna i każdego innego tematu jest istotą tej strony internetowej; kierujemy się tym samym duchem, który inspirował twórców Encyclopedia Project, i z tego powodu mamy nadzieję, że to, co znalazłeś o Analiza dyskryminacyjna na tej stronie pomogło Ci poszerzyć swoją wiedzę.