Analiza gównych skadowych



Informacje, które udało nam się zgromadzić na temat Analiza gównych skadowych, zostały starannie sprawdzone i uporządkowane, aby były jak najbardziej przydatne. Prawdopodobnie trafiłeś tutaj, aby dowiedzieć się więcej na temat Analiza gównych skadowych. W Internecie łatwo zgubić się w gąszczu stron, które mówią o Analiza gównych skadowych, a jednocześnie nie podają tego, co chcemy wiedzieć o Analiza gównych skadowych. Mamy nadzieję, że dasz nam znać w komentarzach, czy podoba Ci się to, co przeczytałeś o Analiza gównych skadowych poniżej. Jeśli informacje o Analiza gównych skadowych, które podajemy, nie są tym, czego szukałeś, daj nam znać, abyśmy mogli codziennie ulepszać tę stronę.

.

Analiza gównych skadowych
Obraz w Infoboksie.
Natura
Metoda statystyczna ( d )
Podklasa
Akronimy
AKP, (en)  PCA

Analiza gównych skadowych ( ACP lub PCA w jzyku angielskim dla analizy gównych skadowych ) lub w zakresie Karhunen-Loeve ( KLT ) jest metod analizy rodziny danych i ogólniej statystyki wielowymiarowej , która polega na przeksztacaniu zmiennych powizanych ze sob ( nazywane w statystyce skorelowanymi) na nowe nieskorelowane zmienne. Te nowe zmienne nazywane s gównymi komponentami lub gównymi osiami. Pozwala to praktykowi zmniejszy liczb zmiennych i sprawi, e informacje bd mniej zbdne.

Jest to podejcie zarówno geometryczne (zmienne reprezentowane w nowej przestrzeni, zgodnie z kierunkami maksymalnej bezwadnoci), jak i statystyczne (badania na niezalenych osiach, które najlepiej wyjaniaj zmienno - wariancj - danych). Gdy chcesz skompresowa zbiór zmiennych losowych, pierwsze osie analizy skadowych gównych s lepszym wyborem z punktu widzenia bezwadnoci lub wariancji.

Narzdzie matematyczne jest stosowane w dziedzinach innych ni statystyka i jest czasami nazywane dekompozycj ortogonaln na wartoci wasne lub POD ( angielski  : odpowiednia dekompozycja ortogonalna ).

Historia i aplikacje

PCA wywodzi si z artykuu Karla Pearsona opublikowanego w 1901 roku. Ojciec testu ² kontynuowa swoj prac w dziedzinie regresji i korelacji midzy kilkoma zmiennymi. Pearson uywa tych korelacji ju nie do wyjanienia jednej zmiennej na podstawie innych (jak w regresji), ale do opisania i podsumowania informacji zawartych w tych zmiennych.

Wci znany jako transformata Karhunena-Loève'a lub transformata Hotellinga, PCA zostaa dalej rozwinita i sformalizowana w latach 30. XX wieku przez Harolda Hotellinga . Sia matematyczna amerykaskiego ekonomisty i statystyka doprowadzi go równie do rozwinicia kanonicznej analizy korelacji , uogólnienia analiz czynnikowych, których czci jest PCA.

Obecnie istnieje wiele dziedzin zastosowa, od biologii po badania ekonomiczne i spoeczne , a ostatnio przetwarzanie obrazów i uczenie maszynowe . PCA jest uywany gównie do:

  • opisywa i wizualizowa dane;
  • udekoruj je; nowa baza skada si z osi, które nie s ze sob skorelowane;
  • odszumianie , biorc pod uwag, e osie zdecydowalimy si zapomnie s osie haaliwe .
  • wykona redukcj wymiarów danych szkoleniowych w Machine Learning

Stosowana jest równie metoda dekompozycji ortogonalnych wartoci wasnych:

Przykady wprowadzajce

Pierwszy przykad

W przypadku obrazu, jak na rysunku obok, piksele s reprezentowane w paszczynie i traktowane jako dwuwymiarowa zmienna losowa . PCA okreli dwie osie, które najlepiej wyjaniaj rozproszenie obiektu, interpretowane jako chmura punktów. Uporzdkuje je równie wedug wyjanionej bezwadnoci, przy czym druga o jest prostopada do pierwszej.

Drugi przykad

W wyimaginowanej szkole uczy si tylko dwóch przedmiotów, z których uczniowie s oceniani: francuskiego i matematyki. Stosujc PCA do tabeli ocen, prawdopodobnie zidentyfikujemy na pierwszej osi wartoci na ucznia bardzo zblione do ich ogólnej redniej z obu przedmiotów. To wanie ta o najlepiej podsumowuje zmienno wyników wedug uczniów. Ale nauczyciela, który chcia dalej analizowa wyniki, zainteresowaa równie druga o, która porzdkuje uczniów wedug stopnia rónic midzy obiema ocenami i niezalenie od pierwszej osi.

Rozumiemy zainteresowanie metod PCA, gdy rozszerzamy analiz na 10 nauczanych przedmiotów: metoda obliczy dla kadego ucznia 10 nowych wartoci, wedug 10 osi, z których kada jest niezalena od pozostaych. Ostatnie osie dostarczaj bardzo mao informacji statystycznych: prawdopodobnie wyróni kilku uczniów o pojedynczym profilu. Zgodnie z jego punktem widzenia analizy, nauczyciel w swojej codziennej praktyce bdzie zatem zwraca szczególn uwag na tych uczniów, którzy zostan wyrónieni przez ostatnie osie metody PCA i by moe poprawi wkrady si bd. w swojej tabeli ocen, ale odwrotnie, nie bdzie bra pod uwag tych ostatnich osi, jeli prowadzi globaln refleksj skupiajc si na gównych, inaczej mówic, gównych cechach pedagogicznych. Jeeli wemiemy pod uwag klas 1 st S jako przykad, mamy dobr szans posiadania jako gównej osi do przegrupowania przedmiotów cisych, jak i drugiej osi tematy literackie. Te dwie zmienne wyjaniaj oceny uzyskane przez uczniów na zajciach.

Si PCA jest to, e potrafi równie uwzgldni dane o niejednorodnym charakterze: na przykad tabel rónych krajów wiata z PNB na mieszkaca, wskanik alfabetyzacji, wskanik wyposaenia w telefony komórkowe, rednia cena burgera itp. Pozwala nam to na szybkie wyczucie wspólnych efektów midzy tymi zmiennymi.

Próbka

Generalnie stosujemy PCA do zbioru N zmiennych losowych X 1 ,, X N znanych z próby wspólnych realizacji tych zmiennych.

Ta próbka tych N zmiennych losowych moe mie struktur macierzy M z K wierszami i N kolumnami.

Kada zmienna losowa X n , której X 1 , n ,, X K , n s niezalenymi realizacjami, ma redni i odchylenie standardowe Xn .

Waga

Jeeli realizacje (elementy macierzy M ) maj równe prawdopodobiestwa, to kada realizacja (element macierzy) ma takie samo znaczenie przy obliczaniu cech próby. Moemy równie zastosowa inn wag do kadej wspólnej realizacji zmiennych (przypadek skorygowanych próbek, dane zgrupowane, ...). Te wagi, które s liczbami dodatnimi sumy 1, s reprezentowane przez macierz diagonaln D o rozmiarze K :

W najczstszym przypadku równych wag, gdzie jest macierz tosamoci .

Przykadowe przeksztacenia

Wektor jest rodkiem cikoci chmury punktów; to jest czsto odnotowywane g . Mamy gdzie oznacza wektor, którego wspórzdne s równe 1.

Macierz M jest ogólnie wyrodkowana w rodku cikoci:

.

Mona go równie zmniejszy  :

.

Wybór redukcji chmury punktów (czyli K realizacji zmiennej losowej ( X 1 ,, X N )) to wybór modelu:

  • jeli nie zmniejszymy chmury: zmienna o duej wariancji przycignie do niej cay efekt PCA;
  • jeli zmniejszymy chmur: zmienna, która jest tylko szumem, bdzie miaa pozorn wariancj równ zmiennej informacyjnej.

Jeeli zmienne losowe s w rónych jednostkach, redukcja jest obowizkowa.

Obliczanie kowariancji i korelacji

W przypadku wag jednorodnych ( ) po przeksztaceniu macierzy w lub , wystarczy j pomnoy przez jej transpozycj, aby otrzyma:

  • macierz kowariancji wariancji z X 1 , ..., X N jeli M nie jest zmniejszona: ;
  • macierz korelacji z X 1 , ..., X N jeli M jest zmniejszona: .

Te dwie macierze s kwadratowe (o rozmiarze N ), symetryczne i rzeczywiste . S zatem diagonalizowalne w bazie ortonormalnej na mocy twierdzenia spektralnego .

Bardziej ogólnie, w przypadku wag niejednorodnych zapisywana jest macierz wariancji-kowariancji .

Ponadto, jeli oznaczymy macierz diagonaln odwrotnoci odchyle standardowych:

potem bdzie:

.

Macierz wspóczynników korelacji liniowej midzy N zmiennymi wzitymi parami, oznaczona R , jest zapisana:

.

Kryterium bezwadnoci

W dalszej czci tego artykuu rozwaymy, e chmura jest przeksztacana (w razie potrzeby wyrodkowana i zmniejszona). Kady X n jest zatem zastpiony przez lub . W ten sposób uyjemy macierzy do notatek lub w zalenoci od przypadku.

Zasada PCA polega na znalezieniu osi u , wynikajcej z liniowej kombinacji X n , tak aby wariancja chmury wokó tej osi bya maksymalna.

Aby poprawnie zrozumie, wyobra sobie, e wariancja u jest równa wariancji chmury; znalelibymy wtedy kombinacj X n, która zawiera ca rónorodno oryginalnej chmury (w kadym razie ca jej cz ujt przez wariancj).

Powszechnie stosowanym kryterium jest wariancja próby (chcemy zmaksymalizowa wariancj wyjanian przez wektor u ). Dla fizyków bardziej sensowne jest maksymalizowanie bezwadnoci wyjanianej przez u (tj. minimalizowanie bezwadnoci chmury wokó u ).

Wystp

Na koniec szukamy wektora u takiego, aby rzut chmury na mia maksymaln wariancj. Rzut próbki X na u jest napisany:

empiryczna wariancja wynosi zatem:

gdzie C jest macierz kowariancji.

Jak powyej, które widzielimy C jest diagonalizable w ortonormalnych podstawie oznaczymy przez P z powizan zmian podstawy i matrycy przektnej utworzonej przez jego widmo:

Wartoci przektnej s uoone w porzdku malejcym. Urzdzenie wektora u którego zwiksza to wektor wasny z C zwizanej z wartoci wasn  ; mamy wtedy:

Warto wasna to empiryczna wariancja na pierwszej osi PCA.

Moliwe jest równie zademonstrowanie tego wyniku poprzez maksymalizacj empirycznej wariancji danych rzutowanych na u pod warunkiem, e u ma norm 1 (za pomoc mnonika Lagrange'a ):

Mamy nadzieję, że informacje, które zgromadziliśmy na temat Analiza gównych skadowych, były dla Ciebie przydatne. Jeśli tak, nie zapomnij polecić nas swoim przyjaciołom i rodzinie oraz pamiętaj, że zawsze możesz się z nami skontaktować, jeśli będziesz nas potrzebować. Jeśli mimo naszych starań uznasz, że informacje podane na temat _title nie są całkowicie poprawne lub że powinniśmy coś dodać lub poprawić, będziemy wdzięczni za poinformowanie nas o tym. Dostarczanie najlepszych i najbardziej wyczerpujących informacji na temat Analiza gównych skadowych i każdego innego tematu jest istotą tej strony internetowej; kierujemy się tym samym duchem, który inspirował twórców Encyclopedia Project, i z tego powodu mamy nadzieję, że to, co znalazłeś o Analiza gównych skadowych na tej stronie pomogło Ci poszerzyć swoją wiedzę.

Opiniones de nuestros usuarios

Filip Ptak

Byłem zachwycony, że znalazłem ten artykuł na temat _zmienna.

Sara Wrona

Podoba mi się ta strona, a artykuł o Analiza gównych skadowych jest tym, którego szukałem.

Marcin Kujawa

Wreszcie artykuł o Analiza gównych skadowych, który jest łatwy do przeczytania.