Analiza danych (zwane również rozpoznawcza analiza danych lub EDA ) jest rodziną metod statystycznych, których główne cechy to być wielowymiarowy i opisowe. W sensie francuskim terminologia „analiza danych” oznacza zatem podzbiór tego, co bardziej ogólnie nazywa się statystyką wielowymiarową . Niektóre metody, w większości geometryczne , pomagają uwydatnić zależności, które mogą istnieć między różnymi danymi i uzyskać z nich informacje statystyczne, które umożliwiają bardziej zwięzłe opisanie głównych informacji zawartych w tych danych. Inne techniki pozwalają na grupowanie danych, aby jasno pokazać, co czyni je jednorodnymi , a tym samym lepiej je zrozumieć.
Analiza danych umożliwia przetwarzanie bardzo dużej ilości danych i identyfikację najciekawszych aspektów ich struktury. Sukces tej dyscypliny w ostatnich latach zawdzięczamy w dużej mierze zapewnionym przedstawieniom graficznym . Te wykresy mogą uwydatniać relacje, które są trudne do uchwycenia przez bezpośrednią analizę danych; ale przede wszystkim reprezentacje te nie są powiązane z poglądem „a priori” na temat praw analizowanych zjawisk, w przeciwieństwie do metod statystyki klasycznej.
Matematyczne podstawy analizy danych zaczęła się rozwijać na początku XX th wieku, ale jest to komputer , który popełnił tę dyscyplinę operacyjną i że pomógł w bardzo szerokim zastosowaniu. Matematyka i informatyka są tu ściśle powiązane.
W sensie francuskim terminologia „analiza danych” oznacza podzbiór tego, co bardziej ogólnie nazywa się statystyką wielowymiarową . Analiza danych to zbiór technik opisowych, z których głównym narzędziem matematycznym jest algebra macierzy i który wyraża się bez zakładania a priori modelu probabilistycznego.
Obejmuje analizę głównych składowych (PCA), wykorzystywaną do danych ilościowych, oraz metody pochodne: analizę korelacji czynnikowej (CFA) stosowaną na danych jakościowych (tabela asocjacji) i analizę korelacji czynnikowej, wielokrotności (AFCM lub ACM) uogólniające poprzednią. Analiza kanoniczna i uogólnione korelacja kanoniczna , które są bardziej teoretyczne ramy tak łatwo stosowane metody, przedłużyć kilka z tych metod i technik wykracza poza opis. Analiza wieloczynnikowa jest odpowiednia dla tabel, w których zmienne są zorganizowane w grupy i mogą być ilościowe i / lub jakościowe. Automatycznej klasyfikacji The analiza dyskryminacyjna (FDA) lub analiza dyskryminacyjna stosowane do identyfikacji grupy jednorodne w populacji z punktu widzenia zmienne badanych.
Oprócz analizy danych , nowsza niezależna analiza komponentów (ICA), wywodząca się z fizyki sygnału i początkowo znana jako metoda separacji ze źródeł ślepych , jest intuicyjnie bliższa metodom klasyfikacji bez nadzoru. Ikonografia korelacji dla danych jakościowych i ilościowych, organizuje korelacji pomiędzy zmiennymi w postaci wykresów. Analiza międzybaterii Tuckera jest pośrednia między analizą kanoniczną a analizą głównych składowych, analiza nadmiarowości zwana również analizą głównych składowych zmiennych instrumentalnych jest podobna do regresji, ponieważ zmienne jednej z analizowanych grup są uważane za zależne, inne za niezależne, oraz że funkcja, która ma zostać zmaksymalizowana, jest sumą współczynników korelacji między dwiema grupami.
Oprócz szkoły francuskiej, analizy wielowymiarowej danych jest zakończona metodą projekcji dążeniu do Johna Tukeya i metod kwantyfikacji Chikio Hayashi , którego ilościowe typu III jest podobna do analizy korespondencji. Anglosaska analiza czynnikowa lub „ analiza czynnikowa ” jest zbliżona do analizy w składowych głównych, ale nie jest równoważna, ponieważ wykorzystuje techniki regresji w celu wykrycia „zmiennych ukrytych”.
Metody te umożliwiają w szczególności manipulację i syntezę informacji pochodzących z dużych tabel danych, wykorzystując estymację korelacji między badanymi zmiennymi. Zastosowanym narzędziem statystycznym jest macierz korelacji lub macierz wariancji-kowariancji .
Ojcami współczesnej analizy danych są Jean-Paul Benzécri , Louis Guttman , Chikio Hayashi (projektant metod znanych jako „ Data Sciences ” ), Douglas Carroll i RN Shepard.
Ale na długo przed swoim czasem podstawowe techniki analizy danych były już znane. Na przykład tabele zdarzeń losowych są obecne na wczesnym etapie historii: niezwyciężona armada została opisana przez Alvareza Paz Salasa oraz w książce opublikowanej w 1588 r. W formie tabeli, w której rzędy przedstawiają floty statków, a kolumny cech charakterystycznych takie jak tonaż, liczba uzbrojonego personelu itp. Nicolas de Lamoignon de Basville, intendent króla Ludwika XIV , policzył i scharakteryzował klasztory w regionie Langwedocji w 1696 roku.
Klasyfikacja znajduje swojego mistrza, w latach 1735-1758, w osobie Carla von Linné, który w tym czasie stworzył podstawy nazewnictwa dwumianowego i nowoczesnej taksonomii. Robert R. Sokal i Peter HA Sneath w 1963 roku przedstawili metody ilościowe zastosowane w taksonomii .
Pojęcia potrzebne do analizy współczesnych danych zaczęła być opanowane na początku XIX th wieku. Adolphe Quetelet , belgijski astronom i statystyk, wykorzystuje to, co wie, od prawa Gaussa po antropometrię, aby zbadać rozproszenie wokół średniej ( wariancji ) pomiarów rozmiarów grupy mężczyzn. Z kolei Francis Galton , chcąc zbadać wielkość ojców i synów, jest zainteresowany wspólną zmiennością ( kowariancją i korelacją ) dwóch rozmiarów, która jest źródłem tego, co dziś nazywamy regresją hui.
Kiedy Karl Pearson i Raphael Weldon przejęli pracę Francisa Galtona, mogli uogólnić regresję Galtona na dane wielowymiarowe, wtedy Karl Pearson wpadł na pomysł zmiany osi prezentacji, aby wyrazić je jako funkcję zmiennych niezależnych w 1901 roku, ustanawiając w ten sposób przesłanki analizy głównych składowych . Zostało to opracowane w 1933 roku przez Harolda Hotellinga, który zdefiniował analizę kanoniczną w 1936 roku .
Marion Richardson i Frederic Kuder w 1933 r., Chcąc poprawić jakość sprzedawców „ Procter & Gamble ” , używają tak zwanego obecnie algorytmu ( „ Uśrednianie wzajemne ” ), dobrze znanego w krajach AKP. Herman Otto Hirschfeld w swojej publikacji „ Związek między korelacją a przypadkowością ” odkrywa równania analizy korespondencji.
To właśnie psychometria najbardziej rozwija analizę danych. Kiedy Alfred Binet zdefiniował swoje testy psychometryczne do pomiaru inteligencji u dzieci, Charles Spearman użył ich do zdefiniowania w 1904 roku swojej teorii ogólnych i szczegółowych czynników, które mierzą ogólne i szczególne uzdolnienia do wykonywania czynności. Louis Leon Thurstone opracował równania indukowane przez teorię czynników w postaci macierzy w 1931 r. I uzupełnił je, badając składnik błędu. Wprowadza również pojęcie głównych osi bezwładności. W 1933 roku Harold Hotelling zaproponował użycie iteracji do diagonalizacji macierzy i poszukiwania wektorów własnych.
Jean-Paul Benzécri i Brigitte Escofier-Cordier zaproponowali Factorial Correspondence Analysis w latach 1962-65, ale już w 1954 roku Chikio Hayashi stworzył podstawy tej metody pod nazwą kwantyfikacja typu III.
Analiza wielokrotnej korespondencji została zainicjowana przez Louisa Guttmana w 1941 r., Cyrila Burta w 1950 r. I Chikio Hayashiego w 1956 r. Technika ta została opracowana w Japonii w 1952 r. Przez Shizuhiko Nishisato pod nazwą „ Podwójne skalowanie ” oraz w Holandii w 1990 r. Pod nazwą „ Analiza jednorodności ” autorstwa kolektywu Albert Gifi.
Pojawienie się komputera, a zwłaszcza mikrokomputera, to skok technologiczny, który umożliwia złożone obliczenia, diagonalizacje, wyszukiwanie wartości własnych na dużych tabelach danych, z bardzo dużymi opóźnieniami w uzyskaniu wyników. Krótkie w porównaniu z tym, co zostało zrobione w przeszłość.
Analiza danych jest stosowana we wszystkich dziedzinach, gdy jest zbyt dużo danych, aby ludzki umysł mógł je zrozumieć.
W naukach humanistycznych technika ta jest wykorzystywana do identyfikacji wyników badań opinii, na przykład za pomocą analizy wielokrotnej korespondencji lub analizy korespondencji czynnikowej. Socjologia opiera się na analizie danych, aby zrozumieć życie i rozwój niektórych populacjach, takich jak Liban, którego ewolucja jest przedstawiony przez dwóch badaniach w roku 1960 i 1970, przedstawiony przez Jean-Paul Benzécri, a standard strukturze życia i jego ulepszanie analizowane za pomocą analizy głównych składników. Analiza wielokrotnej korespondencji jest często stosowana w socjologii do analizy odpowiedzi na kwestionariusz. Socjologowie Christian Baudelot i Michel Gollac wykorzystują analizę wielokrotnej korespondencji do badania związku Francuzów z ich pracą. Czerpiąc inspirację od Pierre'a Bourdieu do badania określonej „dziedziny”, socjolog Frédéric Lebaron zatrudnia MCA do analizy dziedziny francuskich ekonomistów, a Hjellbrekke i jego współautorzy stosują tę samą metodę do analizy pola norweskich elit. Podobnie François Denord i jego współautorzy używają ACM do analizy pola władzy we Francji na podstawie Who's Who. Wciąż w pracach inspirowanych Pierre'em Bourdieu jako przykład możemy posłużyć się także analizą pola francuskiego kina Juliena Duvala. W lingwiści korzystać z analizy tekstu techniki i analizy danych, aby zlokalizować członek politycznego spektrum badając częstotliwość stosowania pewnych słów. Brigitte Escofier-Cordier przestudiowała niektóre elementy słownictwa używanego w sztuce Racine'a „ Fèdre” , aby pokazać, jak autor używa słów, aby zakotwiczyć swoich bohaterów w społecznej hierarchii. W ekonomii C. Desroussilles zbadał bilanse przedsiębiorstw, aby opisać strukturę i wielkość tych organizacji za pomocą klasyfikacji rosnącej i analizy korespondencji. Strukturę spożycia gospodarstw domowych w EWG przedstawili Jean-Paul Benzécri i in. na dwóch osiach analizy korespondencji i pierwszy krok w ustaleniu klasyfikacji działalności gospodarczej w przemyśle wskazuje na przydatność analizy korespondencji i hierarchicznej klasyfikacji w tego typu operacjach.
W dziedzinie nauki i technologii niektórzy badacze stosują te metody statystyczne do rozszyfrowania kilku cech genomu . Inni używają analizy danych do skonfigurowania niezbędnego procesu rozpoznawania twarzy . W epidemiologii , Inserm zapewnia swoje dane, które Husson et al. poprzez analizę korespondencji czynnikowej w celu opisania grup wiekowych we Francji według ich przyczyn śmiertelności . Jean-Paul Benzécri podaje również przykłady zastosowania analizy korespondencji w kontekście uczenia się , hydrologii i biochemii . Przykładem w naukach o środowisku jest badanie śladów metali w pszenicy w funkcji gleb uprawnych, które wykorzystuje analizę korelacji kanonicznych, zwykle uznawanych za narzędzie raczej teoretyczne. W pierwszej dekadzie tego stulecia Observatoire des Maladies du Bois de la Vigne starało się zmierzyć ewolucję trzech chorób winorośli, stosując między innymi analizę wielu odpowiedników i analizę głównych elementów epidemiologii roślin. projekt .
Dziedzina sportu bardzo lubi statystyki: lekarz sportowy zastanawia się nad wiekiem praktykujących, ich motywacjami i sportem, który uprawiają. W innym badaniu sport jest zainteresowany motywacjami sportowców, od przyjaźni i koleżeństwa po asertywność reprezentowaną na jednej osi oraz od natury i piękna po waleczność na drugiej osi. Socjolog stara się dowiedzieć, czy na towarzyskość wyznawców sportu ma wpływ jego praktyka, biometria człowieka charakteryzuje morfologię sportowca według uprawianego przez niego sportu, aw przypadku sportów zespołowych pozycję, jaką zajmuje w drużynie, itp.
Mikrofinansowania również uchwycone analizy danych do oceny ryzyka i identyfikacji populacji kredytobiorców. Branża ubezpieczeniowa wykorzystuje analityki danych dla świadomości ryzyka i ustalonymi cen.
Reprezentowanie danych wielowymiarowych w zredukowanej przestrzeni wymiarowej jest dziedziną analiz czynnikowych, analizy czynnikowej korespondencji, analizy głównych składowych, analizy wielu korespondencji. Metody te pozwalają na przedstawienie chmury punktów do analizy w płaszczyźnie lub w przestrzeni trójwymiarowej, bez zbytniej utraty informacji i bez wcześniejszego założenia statystycznego. W matematyce wykorzystują obliczenia macierzowe oraz analizę wektorów i wartości własnych .
Analiza głównych składowych służy do zredukowania skorelowanych zmiennych p do liczby q zmiennych nieskorelowanych, tak że q zmiennych jest liniowymi kombinacjami pierwotnych zmiennych p, ich wariancja jest maksymalna, a nowe zmienne są ortogonalne między nimi podążają za określoną odległością. W PCA zmienne są ilościowe.
Komponenty, nowe zmienne, definiują q-wymiarową podprzestrzeń, na którą rzutowane są jednostki przy minimalnej utracie informacji. W tej przestrzeni chmura punktów jest łatwiejsza do przedstawienia, a analiza jest łatwiejsza. W analizie korespondencji reprezentacja osób i zmiennych nie odbywa się w tej samej przestrzeni.
Pomiar jakości reprezentacji danych można przeprowadzić, obliczając udział bezwładności każdego składnika w całkowitej bezwładności. W przykładzie podanym na dwóch obrazach obok, pierwsza składowa odpowiada 45,89% całkowitej bezwładności, a druga 21,2%.
Im bliżej składników są zmienne, tym bardziej są z nimi skorelowane. Analityk wykorzystuje tę właściwość do interpretacji osi. Na przykładzie z rys. 01 dwa główne składniki reprezentują główną i najczęstszą działalność drugorzędną, w której kobiety (K) i mężczyźni (M) pozostali w związku małżeńskim (M) lub stanu wolnego (C) w USA (U) lub Europie Zachodniej (W) podziel się swoim dniem. Na rys. 02 zilustrowano koło korelacji, w którym zmienne są reprezentowane zgodnie z ich rzutem na płaszczyznę dwóch pierwszych składowych. Im więcej zmiennych jest dobrze reprezentowanych, tym bliżej koła znajdują się. Cosinus kąta utworzonego przez dwie zmienne jest równy współczynnikowi korelacji między tymi dwiema zmiennymi.
Podobnie, im mniejszy kąt generowany przez jednostkę i oś komponentu, tym lepiej reprezentowana jest jednostka. Jeśli dwie osoby, dobrze reprezentowane przez oś, są blisko, to są blisko w swojej przestrzeni. Jeśli dwie osoby są odległe w projekcji, są odlegle w swojej przestrzeni.
Celem AFC - zdefiniowanego przez Jean-Paula Benzécri i jego zespoły - jest znalezienie powiązań lub odpowiedników między dwiema jakościowymi (nominalnymi) zmiennymi. Ta technika przetwarza tabele awaryjności tych dwóch zmiennych. W rzeczywistości AFC to PCA w tych tabelach wyprowadzone z początkowej tabeli dostarczonej z metryką du . Zasada AFC jest identyczna z zasadą PCA. Osie objaśniające, na których opiera się tabela częstości dwóch zmiennych jakościowych, zostały wyszukane i przedstawione na wykresie.
Istnieją co najmniej dwie różnice między PCA i CFA: pierwsza polega na tym, że możemy przedstawić osoby i zmienne na tym samym wykresie, a druga dotyczy podobieństwa. W reprezentacji graficznej dwa punkty linii znajdują się blisko siebie, jeśli profile słupów są podobne. Na przykład na wykresie na rys. 03 Paryż i Yvelines głosowały w podobny sposób, co nie jest oczywiste, gdy spojrzymy na wstępną tabelę kontyngentów, ponieważ liczba wyborców jest zupełnie inna w obu departamentach. Podobnie, dwa punkty w kolumnach (w przykładzie z fig. 03 i 04 punkty w kolumnach są kandydatami) są graficznie zbliżone, jeśli profile wierszy są podobne. W przykładzie (rys. 04) departamenty głosowały na Bayrou i Le Pen w ten sam sposób. Punkty wierszy i punktów kolumn nie mogą być porównywane w prosty sposób.
Jeśli chodzi o interpretację czynników, Jean-Paul Benzécri jest bardzo jasny:
„... interpretować oś to znaleźć to, co jest analogiczne z jednej strony między wszystkim, co jest napisane na prawo od początku, z drugiej strony między wszystkim, co odchyla się w lewo; i wyrażają, zwięźle i dokładnie, opozycję między dwoma skrajnościami ..... Często interpretacja czynnika jest udoskonalana przez rozważenie tych, którzy po nim przyjdą. "
- Jean-Paul Benzécri, Analiza danych: 2 analizy korespondencji
Jakość reprezentacji graficznej można ocenić globalnie przez część objaśnioną przez każdą oś (pomiar jakości ogólnej), przez bezwładność punktu rzutowanego na oś podzieloną przez całkowitą bezwładność punktu (pomiar jakości dla każdej modalności), udział osi w całkowitej bezwładności lub stosunek między bezwładnością chmury (line_profiles lub column_profiles) rzutowanej na oś przez całkowitą bezwładność tej samej chmury.
Analiza wielokrotnej korespondencji (MCA) jest rozszerzeniem AFC.
ACM proponuje analizę jakościowych zmiennych p (p ≥ 2) obserwacji n osobników. Ponieważ jest to analiza czynnikowa, skutkuje ona reprezentacją danych w przestrzeni o zmniejszonych wymiarach, generowanej przez czynniki. MCA jest odpowiednikiem PCA dla zmiennych jakościowych i jest redukowana do AFC, gdy liczba zmiennych jakościowych jest równa 2.
Formalnie ACM to AFC zastosowane do całej tabeli rozłącznej lub AFC zastosowane do tabeli Burta , przy czym te dwie tabele są pobierane z tabeli początkowej. Kompletna tabela rozłączna to tabela, w której zmienne są zastępowane przez ich modalności, a elementy przez 1, jeśli modalność jest spełniona 0 w innym przypadku dla każdej osoby. Tablica Burta to tablica kontyngencji składająca się z zmiennych p wziętych w pary.
Interpretacji dokonuje się na poziomie modalności, których bliskość jest badana. Wartości własne są używane tylko do określenia liczby osi albo metodą łokcia, albo przyjmując tylko wartości własne większe niż . Wkład bezwładności modalności do bezwładności różnych osi jest analizowany tak jak w AFC.
Zastosowanie dodatkowych zmiennych, zmiennych, które nie uczestniczą w tworzeniu osi ani w obliczaniu wartości własnych, może pomóc w interpretacji osi.
Jakość reprezentacji osobnika na osi silni jest mierzona gdzie jest kątem utworzonym przez rzut pojedynczego wektora na przestrzeń silnią z osią silni. Im bliżej wartości 1, tym lepsza jakość.
Analiza kanoniczna umożliwia porównanie dwóch grup zmiennych ilościowych, obie odnoszące się do tych samych osób. Celem analizy kanonicznej jest porównanie tych dwóch grup zmiennych, aby sprawdzić, czy opisują to samo zjawisko. W takim przypadku analityk może się obejść bez jednej z dwóch grup zmiennych.
Wymownym przykładem są analizy medyczne przeprowadzone na tych samych próbkach przez dwa różne laboratoria. Analiza kanoniczna uogólnia metody tak różnorodne, jak regresja liniowa , analiza dyskryminacyjna i analiza korespondencji czynnikowej .
Bardziej formalnie, jeśli i są dwiema grupami zmiennych, analiza kanoniczna szuka par wektorów , liniowych kombinacji zmiennych odpowiednio i , najbardziej skorelowanych z możliwych. Te zmienne nazywane są zmiennymi kanonicznymi. W przestrzeni są to wektory własne rzutów i odpowiednio w podprzestrzeni i , gdzie p i q reprezentują liczbę zmiennych z dwóch grup, wygenerowanych przez dwa zbiory zmiennych. mierzy korelację między dwiema grupami. Im wyższa jest ta miara, tym bardziej dwie grupy zmiennych są skorelowane i tym bardziej wyrażają to samo zjawisko na jednostkach.
Na ilustracji na rys. 08 korelacje między zmiennymi w obu grupach są reprezentowane przez górne korelogramy, korelacja między dwiema grupami jest wyjaśniona poniżej. Gdyby kolor dominujący był jasnozielony, nie wykrytoby żadnej korelacji. Na rys. 07 obie grupy zmiennych są zebrane w kręgu korelacji związanych z dwoma pierwszymi zmiennymi kanonicznymi.
Wreszcie uogólniona analiza kanoniczna w sensie Caroll (za JDCarollem) rozszerza zwykłą analizę kanoniczną na badanie grup zmiennych p (p> 2) zastosowanych do tej samej przestrzeni jednostek. Dopuszcza jako przypadki szczególne PCA, AFC i MCA, prostą analizę kanoniczną, ale także prostą i wielokrotną regresję , analizę wariancji , analizę kowariancji i analizę dyskryminacyjną.
Aby zastosować tę technikę, tabele nie mogą być zmiennymi charakterystycznymi dla osób, ale „odległościami” między osobami. Analityk chce zbadać podobieństwa i różnice między tymi osobami.
Pozycjonowanie wielowymiarowe ( „ skalowanie wielowymiarowe ” lub MDS) jest zatem metodą czynnikową mającą zastosowanie do macierzy odległości między osobami. Ta metoda nie jest częścią tego, co zwykle nazywa się analizą danych „w stylu francuskim”. Ale ma te same cechy, co poprzednie metody: opiera się na obliczeniach macierzowych i nie wymaga hipotez probabilistycznych. Danymi mogą być pomiary p zmiennych ilościowych n osobników, w tym przypadku analityk oblicza macierz odległości lub bezpośrednio tabelę odległości między osobami.
W klasycznym tzw. Przypadku metrycznym, miarą niepodobieństw jest odległość euklidesowa. Umożliwia przybliżenie odmienności między jednostkami w zredukowanej przestrzeni wymiarowej. W przypadku niemetrycznym dane są porządkowe, typu rank. Analityka bardziej interesuje kolejność różnic niż ich zakres. Niemetryczny MDS wykorzystuje wskaźnik niepodobieństwa (równoważny odległości, ale bez nierówności trójkątnej) i pozwala na przybliżenie kolejności wpisów w macierzy podobieństw o rząd odległości w przestrzeni o zredukowanym wymiarze.
Podobnie jak w PCA, konieczne jest określenie liczby wymiarów przestrzeni docelowej, a jakość odwzorowania mierzona jest stosunkiem sumy bezwładności zredukowanej wymiarowo podprzestrzeni do całkowitej bezwładności. W rzeczywistości metryka MDS jest równoważna PCA, w której obiektami analizy MDS byłyby jednostki PCA. W przeciwnym przykładzie miasta byłyby osobami z PCA, a pozycjonowanie GPS zastąpiłoby odległości między miastami. Jednak MDS Analysis rozszerza PCA, ponieważ może wykorzystywać funkcje podobieństwa / niepodobieństwa mniej restrykcyjne niż odległości.
Dzięki wielowymiarowemu pozycjonowaniu, wizualizacja macierzy odmienności, analiza wzorców i wizualne wykonanie podziału na dane lub macierze odmienności to łatwe do wykonania operacje.
Analiza wieloczynnikowa (MFA) jest dedykowana tabelom, w których zbiór jednostek jest opisywany przez kilka grup zmiennych, niezależnie od tego, czy są to zmienne ilościowe, jakościowe czy mieszane. Ta metoda jest mniej znana niż poprzednie, ale jej bardzo duży potencjał w zastosowaniu zasługuje na szczególne wyróżnienie.
Przykłady zastosowańWe wszystkich tych przykładach warto wziąć pod uwagę, w samej analizie, a nie tylko w interpretacji, strukturę zmiennych w grupach. Oto, co robi AFM, co:
Metody te, opracowane niedawno, są mniej znane niż poprzednie.
Klasyfikacja jednostek jest domeną automatycznej klasyfikacji i analizy dyskryminacyjnej. Klasyfikacja polega na definiowaniu klas, klasyfikacja to operacja pozwalająca na umieszczenie obiektu w zdefiniowanej wcześniej klasie. Automatyczna klasyfikacja jest znana jako eksploracja danych ( „ eksploracja danych ” ) nienadzorowanej klasyfikacji, analiza dyskryminacyjna to jedna z technik statystycznych znana jako nazwa klastra eksploracji danych.
Celem automatycznej klasyfikacji jest podzielenie wszystkich badanych danych na jeden lub więcej podzbiorów zwanych klasami, przy czym każdy podzbiór musi być jak najbardziej jednorodny. Członkowie jednej klasy są bardziej podobni do innych członków tej samej klasy niż członkowie innej klasy. Można wyróżnić dwa rodzaje klasyfikacji: z jednej strony klasyfikacja (partycjonowanie lub nakładanie się) „płaska”, z drugiej hierarchiczna partycjonowanie. W obu przypadkach klasyfikacja kwot polega na wyborze miary podobieństwa / niepodobieństwa, kryterium jednorodności, algorytmu, a niekiedy szeregu klas tworzących podział.
Klasyfikacja „płaskie”Podobieństwo (podobieństwo / niepodobieństwo) osób jest mierzone za pomocą wskaźnika podobieństwa, wskaźnika niepodobieństwa lub odległości. Na przykład w przypadku danych binarnych często stosuje się indeksy podobieństwa, takie jak indeks Jaccarda, indeks Dice'a, indeks zgodności lub indeks Tanimoto . W przypadku danych ilościowych najbardziej odpowiednia jest odległość euklidesowa , ale czasami przyjmuje się odległość Mahalanobisa . Dane są albo macierzami p zmiennych jakościowych lub ilościowych mierzonych dla n osobników lub bezpośrednio danymi dotyczącymi odległości lub danych o odmienności.
Kryterium jednorodności klas jest generalnie wyrażane przez przekątną międzyklasowej lub wewnątrzklasowej macierzy wariancji-kowariancji (bezwładności). To kryterium umożliwia zbieżność algorytmów dynamicznej realokacji, które minimalizują bezwładność wewnątrzklasową lub maksymalizują bezwładność międzyklasową.
Głównymi algorytmy używają dynamicznego realokacji stosując metodę BW Forgy z ośrodków komórkowych lub jeden z jego wariantów: z k-średnich metodę , z cloud metody dynamicznej lub PAM ( „ Podział Około Medoids (PAM) ” ).
Do budowy klasyfikacji wykorzystuje się również metody oparte na metodzie Condorceta , algorytmie maksymalizacji oczekiwań , gęstości.
Nie ma lepszej klasyfikacji niż inne, zwłaszcza gdy liczba klas w partycji nie jest z góry określona. Dlatego musimy mierzyć jakość klasyfikacji i iść na kompromisy. Jakość klasyfikacji można mierzyć za pomocą wskaźnika będącego stosunkiem bezwładności międzyklasowej do bezwładności całkowitej, obliczonego dla kilku wartości z ogólnej liczby klas, kompromis uzyskuje się metodą łokcia.
Interpretację zajęć, umożliwiającą zrozumienie partytury, można przeprowadzić na podstawie analizy poszczególnych osób tworzących poszczególne zajęcia. Statystyk może policzyć osobniki w każdej klasie, obliczyć średnicę klas - czyli maksymalną odległość między osobnikami w każdej klasie. Potrafi zidentyfikować osoby znajdujące się blisko środka ciężkości, ustalić podział między dwiema klasami - operacja polegająca na pomiarze minimalnej odległości między dwoma członkami tych klas. Potrafi również analizować zmienne, na przykład obliczając częstotliwość pewnych wartości zmiennych przyjmowanych przez osoby z każdej klasy lub charakteryzując klasy za pomocą pewnych wartości zmiennych przyjmowanych przez indywidua z każdej klasy.
Klasyfikacja hierarchicznaDane wejściowe hierarchicznej klasyfikacji rosnącej (HAC) są prezentowane w postaci tabeli odmienności lub tabeli odległości między osobami.
Najpierw musieliśmy wybrać odległość (euklidesowa, Manhattan, Czebyszewa lub inny) lub wskaźnik podobieństwa (Jacard, Sokal, Sorensen, współczynnik korelacji liniowej lub inny).
Klasyfikacja rosnąca proponuje klasyfikację osób za pomocą algorytmu iteracyjnego. Na każdym kroku algorytm tworzy partycję poprzez agregację dwóch klas partycji uzyskanej w poprzednim kroku.
Kryterium wyboru dwóch klas zależy od metody agregacji. Najpowszechniej stosowana jest metoda Warda, polegająca na agregacji dwóch klas, które najmniej obniżają bezwładność międzyklasową. Istnieją inne wskaźniki agregacji, takie jak minimalny skok ( „ połączenie pojedyncze ” ), w którym agregowane są dwie partycje, dla których dwa elementy - pierwszy należący do pierwszej klasy, drugi do drugiej - są najbliżej odległości. lub średnica ( „ pełne połączenie ” ), dla której dwie klasy, które mają być agregowane, to te, które mają najbardziej odległą parę elementów.
Algorytm oddolny kończy się, gdy pozostała tylko jedna klasa.
Jakość klasyfikacji mierzy się stosunkiem bezwładności międzyklasowej do całkowitej bezwładności.
Strategie mieszane, łączące klasyfikację „płaską” z klasyfikacją hierarchiczną, mają pewne zalety. Przeprowadzenie ACH na jednorodnych klasach uzyskanych w wyniku klasyfikacji metodą dynamicznej realokacji umożliwia przetwarzanie dużych tabel liczących kilka tysięcy osób, co nie jest możliwe w przypadku samego ACH. Przeprowadzenie ACH po pobraniu próbek i analizie czynnikowej pozwala na uzyskanie jednorodnych klas w zakresie pobierania próbek.
Dyskryminacyjna analiza czynnikowa (DFA), która jest opisową częścią analizy dyskryminacyjnej, jest również znana jako liniowa analiza dyskryminacyjna, analiza dyskryminacyjna Fishera i kanoniczna analiza dyskryminacyjna. Ta technika projektuje predefiniowane klasy na planach silniowych, które w jak największym stopniu dyskryminują. Tabela danych opisuje n osób, na których mierzono p zmiennych ilościowych i zmienną jakościową z modalnościami q. Zmienna jakościowa umożliwia zdefiniowanie klas q oraz grupowanie jednostek w tych klasach. AFD proponuje znaleźć zmienne q-1, zwane zmiennymi dyskryminacyjnymi, których osie najbardziej oddzielają rzuty q klas przecinających chmurę punktów.
Podobnie jak we wszystkich opisowych analizach czynnikowych, nie poczyniono wcześniej żadnych założeń statystycznych; tylko w prognostycznej części analizy dyskryminacyjnej przyjmuje się założenia a priori .
Pomiar jakości dyskryminacji jest wykonywany przy użyciu metody Wilksa, która jest równa stosunkowi wyznacznika macierzy wewnątrzklasy wariancja-kowariancja do wyznaczenia całkowitej macierzy wariancji-kowariancji. Słaby Wilks wskazuje na silną dyskryminacji ze czynnikowych. Na przykład w danych Iris jest to 0,0234 dla pierwszych dwóch czynników. Co więcej, jeśli pierwsza wartość własna jest bliska 1, AFD ma jakość.
Korelacja między zmiennymi a czynnikami umożliwia ich interpretację.
AFD to PCA przeprowadzane na środkach barycentrum klas osobników utworzonych przy użyciu modalności zmiennej jakościowej. Jest to również analiza kanoniczna między grupą zmiennych ilościowych a grupą składającą się z rozłącznej tabeli zmiennej jakościowej.
Opierając się na tym, co piszą Henry Rouanet i jego współautorzy, opisowa analiza danych i analiza predykcyjna mogą się uzupełniać i czasami dawać podobne wyniki.
Podejście PLS jest bardziej predykcyjną niż opisowy, ale związki z niektórymi analizami, że właśnie widzieliśmy zostały jasno ustalone.
Algorytm Hermana Wolda , nazwany najpierw NILES ( „ Estymacja nieliniowa przez iteracyjne najmniejsze kwadraty ” ), a następnie NIPALS ( „ Estymacja nieliniowa przez iteracyjne częściowe najmniejsze kwadraty ” ) został najpierw zaprojektowany do analizy komponentów. Main .
Ponadto PLS umożliwia znalezienie analizy kanonicznej z dwoma blokami zmiennych, międzybaterii analizy Tuckera, analizy redundancji i uogólnionej analizy kanonicznej w sensie Carrolla. Praktyka pokazuje, że algorytm PLS zbiega się w kierunku pierwszych wartości własnych w przypadku analizy międzybaterii Tuckera, analizy kanonicznej z dwoma blokami zmiennych i analizy redundancji.
Principal Components regresji (PCR) z użyciem PCR, aby zmniejszyć liczbę zmiennych, zastępując je z głównych elementów, które mają tę zaletę, że nie są skorelowane. PLS i PCR są często porównywane w literaturze.
Wspomniano już wcześniej w tym artykule, analiza kanoniczna jest równoważna regresji liniowej, gdy jedna z dwóch grup redukuje się do jednej zmiennej.
Nowoczesnej analizy danych nie można oddzielić od korzystania z komputerów; można przytoczyć wiele programów umożliwiających wykorzystanie metod analizy danych przedstawionych w tym artykule. SPSS , Statistica , HyperCube , SAS i CORICO zapewniają kompletne moduły do analizy danych; Oprogramowanie R również z bibliotekami takimi jak FactoMineR, Ade4 lub MASS; Braincube, rozwiązanie do analizy dużych zbiorów danych dla przemysłu.