Analiza danych



Informacje, które udało nam się zgromadzić na temat Analiza danych, zostały starannie sprawdzone i uporządkowane, aby były jak najbardziej przydatne. Prawdopodobnie trafiłeś tutaj, aby dowiedzieć się więcej na temat Analiza danych. W Internecie łatwo zgubić się w gąszczu stron, które mówią o Analiza danych, a jednocześnie nie podają tego, co chcemy wiedzieć o Analiza danych. Mamy nadzieję, że dasz nam znać w komentarzach, czy podoba Ci się to, co przeczytałeś o Analiza danych poniżej. Jeśli informacje o Analiza danych, które podajemy, nie są tym, czego szukałeś, daj nam znać, abyśmy mogli codziennie ulepszać tę stronę.

.

Analiza danych (zwane równie rozpoznawcza analiza danych lub EDA ) jest rodzin metod statystycznych, których gówne cechy to by wielowymiarowy i opisowe. W sensie francuskim terminologia analiza danych oznacza zatem podzbiór tego, co bardziej ogólnie nazywa si statystyk wielowymiarow . Niektóre metody, w wikszoci geometryczne , pomagaj uwydatni zalenoci, które mog istnie midzy rónymi danymi i uzyska z nich informacje statystyczne, które umoliwiaj bardziej zwize opisanie gównych informacji zawartych w tych danych. Inne techniki pozwalaj na grupowanie danych, aby jasno pokaza, co czyni je jednorodnymi , a tym samym lepiej je zrozumie.

Analiza danych umoliwia przetwarzanie bardzo duej iloci danych i identyfikacj najciekawszych aspektów ich struktury. Sukces tej dyscypliny w ostatnich latach zawdziczamy w duej mierze zapewnionym przedstawieniom graficznym . Te wykresy mog uwydatnia relacje, które s trudne do uchwycenia przez bezporedni analiz danych; ale przede wszystkim reprezentacje te nie s powizane z pogldem a priori na temat praw analizowanych zjawisk, w przeciwiestwie do metod statystyki klasycznej.

Matematyczne podstawy analizy danych zacza si rozwija na pocztku XX th  wieku, ale jest to komputer , który popeni t dyscyplin operacyjn i e pomóg w bardzo szerokim zastosowaniu. Matematyka i informatyka s tu cile powizane.

rys.18 - Spektralne mapowanie tczówek Fishera, które dao pocztek licznym badaniom w analizie danych.

Definicja

W sensie francuskim terminologia analiza danych oznacza podzbiór tego, co bardziej ogólnie nazywa si statystyk wielowymiarow . Analiza danych to zbiór technik opisowych, z których gównym narzdziem matematycznym jest algebra macierzy i który wyraa si bez zakadania a priori modelu probabilistycznego.

Obejmuje analiz gównych skadowych (PCA), wykorzystywan do danych ilociowych, oraz metody pochodne: analiz korelacji czynnikowej (CFA) stosowan na danych jakociowych (tabela asocjacji) i analiz korelacji czynnikowej, wielokrotnoci (AFCM lub ACM) uogólniajce poprzedni. Analiza kanoniczna i uogólnione korelacja kanoniczna , które s bardziej teoretyczne ramy tak atwo stosowane metody, przeduy kilka z tych metod i technik wykracza poza opis. Analiza wieloczynnikowa jest odpowiednia dla tabel, w których zmienne s zorganizowane w grupy i mog by ilociowe i / lub jakociowe. Automatycznej klasyfikacji The analiza dyskryminacyjna (FDA) lub analiza dyskryminacyjna stosowane do identyfikacji grupy jednorodne w populacji z punktu widzenia zmienne badanych.

Oprócz analizy danych , nowsza niezalena analiza komponentów (ICA), wywodzca si z fizyki sygnau i pocztkowo znana jako metoda separacji ze róde lepych , jest intuicyjnie blisza metodom klasyfikacji bez nadzoru. Ikonografia korelacji dla danych jakociowych i ilociowych, organizuje korelacji pomidzy zmiennymi w postaci wykresów. Analiza midzybaterii Tuckera jest porednia midzy analiz kanoniczn a analiz gównych skadowych, analiza nadmiarowoci zwana równie analiz gównych skadowych zmiennych instrumentalnych jest podobna do regresji, poniewa zmienne jednej z analizowanych grup s uwaane za zalene, inne za niezalene, oraz e funkcja, która ma zosta zmaksymalizowana, jest sum wspóczynników korelacji midzy dwiema grupami.

Oprócz szkoy francuskiej, analizy wielowymiarowej danych jest zakoczona metod projekcji deniu do Johna Tukeya i metod kwantyfikacji Chikio Hayashi , którego ilociowe typu III jest podobna do analizy korespondencji. Anglosaska analiza czynnikowa lub   analiza czynnikowa   jest zbliona do analizy w skadowych gównych, ale nie jest równowana, poniewa wykorzystuje techniki regresji w celu wykrycia zmiennych ukrytych.

Metody te umoliwiaj w szczególnoci manipulacj i syntez informacji pochodzcych z duych tabel danych, wykorzystujc estymacj korelacji midzy badanymi zmiennymi. Zastosowanym narzdziem statystycznym jest macierz korelacji lub macierz wariancji-kowariancji .

Historia

Ojcami wspóczesnej analizy danych s Jean-Paul Benzécri , Louis Guttman , Chikio Hayashi (projektant metod znanych jako   Data Sciences   ), Douglas Carroll i RN Shepard.

Ale na dugo przed swoim czasem podstawowe techniki analizy danych byy ju znane. Na przykad tabele zdarze losowych s obecne na wczesnym etapie historii: niezwyciona armada zostaa opisana przez Alvareza Paz Salasa oraz w ksice opublikowanej w 1588 r. W formie tabeli, w której rzdy przedstawiaj floty statków, a kolumny cech charakterystycznych takie jak tona, liczba uzbrojonego personelu itp. Nicolas de Lamoignon de Basville, intendent króla Ludwika XIV , policzy i scharakteryzowa klasztory w regionie Langwedocji w 1696 roku.

Klasyfikacja znajduje swojego mistrza, w latach 1735-1758, w osobie Carla von Linné, który w tym czasie stworzy podstawy nazewnictwa dwumianowego i nowoczesnej taksonomii. Robert R. Sokal i Peter HA Sneath w 1963 roku przedstawili metody ilociowe zastosowane w taksonomii .

Pojcia potrzebne do analizy wspóczesnych danych zacza by opanowane na pocztku XIX th  wieku. Adolphe Quetelet , belgijski astronom i statystyk, wykorzystuje to, co wie, od prawa Gaussa po antropometri, aby zbada rozproszenie wokó redniej ( wariancji ) pomiarów rozmiarów grupy mczyzn. Z kolei Francis Galton , chcc zbada wielko ojców i synów, jest zainteresowany wspóln zmiennoci ( kowariancj i korelacj ) dwóch rozmiarów, która jest ródem tego, co dzi nazywamy regresj hui.

Kiedy Karl Pearson i Raphael Weldon przejli prac Francisa Galtona, mogli uogólni regresj Galtona na dane wielowymiarowe, wtedy Karl Pearson wpad na pomys zmiany osi prezentacji, aby wyrazi je jako funkcj zmiennych niezalenych w 1901 roku, ustanawiajc w ten sposób przesanki analizy gównych skadowych . Zostao to opracowane w 1933 roku przez Harolda Hotellinga, który zdefiniowa analiz kanoniczn w 1936 roku .

Marion Richardson i Frederic Kuder w 1933 r., Chcc poprawi jako sprzedawców   Procter & Gamble   , uywaj tak zwanego obecnie algorytmu (   Urednianie wzajemne   ), dobrze znanego w krajach AKP. Herman Otto Hirschfeld w swojej publikacji   Zwizek midzy korelacj a przypadkowoci   odkrywa równania analizy korespondencji.

To wanie psychometria najbardziej rozwija analiz danych. Kiedy Alfred Binet zdefiniowa swoje testy psychometryczne do pomiaru inteligencji u dzieci, Charles Spearman uy ich do zdefiniowania w 1904 roku swojej teorii ogólnych i szczegóowych czynników, które mierz ogólne i szczególne uzdolnienia do wykonywania czynnoci. Louis Leon Thurstone opracowa równania indukowane przez teori czynników w postaci macierzy w 1931 r. I uzupeni je, badajc skadnik bdu. Wprowadza równie pojcie gównych osi bezwadnoci. W 1933 roku Harold Hotelling zaproponowa uycie iteracji do diagonalizacji macierzy i poszukiwania wektorów wasnych.

Jean-Paul Benzécri i Brigitte Escofier-Cordier zaproponowali Factorial Correspondence Analysis w latach 1962-65, ale ju w 1954 roku Chikio Hayashi stworzy podstawy tej metody pod nazw kwantyfikacja typu III.

Analiza wielokrotnej korespondencji zostaa zainicjowana przez Louisa Guttmana w 1941 r., Cyrila Burta w 1950 r. I Chikio Hayashiego w 1956 r. Technika ta zostaa opracowana w Japonii w 1952 r. Przez Shizuhiko Nishisato pod nazw   Podwójne skalowanie   oraz w Holandii w 1990 r. Pod nazw   Analiza jednorodnoci   autorstwa kolektywu Albert Gifi.

Pojawienie si komputera, a zwaszcza mikrokomputera, to skok technologiczny, który umoliwia zoone obliczenia, diagonalizacje, wyszukiwanie wartoci wasnych na duych tabelach danych, z bardzo duymi opónieniami w uzyskaniu wyników. Krótkie w porównaniu z tym, co zostao zrobione w przeszo.

Obszary zastosowa

Analiza danych jest stosowana we wszystkich dziedzinach, gdy jest zbyt duo danych, aby ludzki umys móg je zrozumie.

W naukach humanistycznych technika ta jest wykorzystywana do identyfikacji wyników bada opinii, na przykad za pomoc analizy wielokrotnej korespondencji lub analizy korespondencji czynnikowej. Socjologia opiera si na analizie danych, aby zrozumie ycie i rozwój niektórych populacjach, takich jak Liban, którego ewolucja jest przedstawiony przez dwóch badaniach w roku 1960 i 1970, przedstawiony przez Jean-Paul Benzécri, a standard strukturze ycia i jego ulepszanie analizowane za pomoc analizy gównych skadników. Analiza wielokrotnej korespondencji jest czsto stosowana w socjologii do analizy odpowiedzi na kwestionariusz. Socjologowie Christian Baudelot i Michel Gollac wykorzystuj analiz wielokrotnej korespondencji do badania zwizku Francuzów z ich prac. Czerpic inspiracj od Pierre'a Bourdieu do badania okrelonej dziedziny, socjolog Frédéric Lebaron zatrudnia MCA do analizy dziedziny francuskich ekonomistów, a Hjellbrekke i jego wspóautorzy stosuj t sam metod do analizy pola norweskich elit. Podobnie François Denord i jego wspóautorzy uywaj ACM do analizy pola wadzy we Francji na podstawie Who's Who. Wci w pracach inspirowanych Pierre'em Bourdieu jako przykad moemy posuy si take analiz pola francuskiego kina Juliena Duvala. W lingwici korzysta z analizy tekstu techniki i analizy danych, aby zlokalizowa czonek politycznego spektrum badajc czstotliwo stosowania pewnych sów. Brigitte Escofier-Cordier przestudiowaa niektóre elementy sownictwa uywanego w sztuce Racine'a Fèdre , aby pokaza, jak autor uywa sów, aby zakotwiczy swoich bohaterów w spoecznej hierarchii. W ekonomii C. Desroussilles zbada bilanse przedsibiorstw, aby opisa struktur i wielko tych organizacji za pomoc klasyfikacji rosncej i analizy korespondencji. Struktur spoycia gospodarstw domowych w EWG przedstawili Jean-Paul Benzécri i in. na dwóch osiach analizy korespondencji i pierwszy krok w ustaleniu klasyfikacji dziaalnoci gospodarczej w przemyle wskazuje na przydatno analizy korespondencji i hierarchicznej klasyfikacji w tego typu operacjach.

W dziedzinie nauki i technologii niektórzy badacze stosuj te metody statystyczne do rozszyfrowania kilku cech genomu . Inni uywaj analizy danych do skonfigurowania niezbdnego procesu rozpoznawania twarzy . W epidemiologii , Inserm zapewnia swoje dane, które Husson et al. poprzez analiz korespondencji czynnikowej w celu opisania grup wiekowych we Francji wedug ich przyczyn miertelnoci . Jean-Paul Benzécri podaje równie przykady zastosowania analizy korespondencji w kontekcie uczenia si , hydrologii i biochemii . Przykadem w naukach o rodowisku jest badanie ladów metali w pszenicy w funkcji gleb uprawnych, które wykorzystuje analiz korelacji kanonicznych, zwykle uznawanych za narzdzie raczej teoretyczne. W pierwszej dekadzie tego stulecia Observatoire des Maladies du Bois de la Vigne starao si zmierzy ewolucj trzech chorób winoroli, stosujc midzy innymi analiz wielu odpowiedników i analiz gównych elementów epidemiologii rolin. projekt .

Dziedzina sportu bardzo lubi statystyki: lekarz sportowy zastanawia si nad wiekiem praktykujcych, ich motywacjami i sportem, który uprawiaj. W innym badaniu sport jest zainteresowany motywacjami sportowców, od przyjani i koleestwa po asertywno reprezentowan na jednej osi oraz od natury i pikna po waleczno na drugiej osi. Socjolog stara si dowiedzie, czy na towarzysko wyznawców sportu ma wpyw jego praktyka, biometria czowieka charakteryzuje morfologi sportowca wedug uprawianego przez niego sportu, aw przypadku sportów zespoowych pozycj, jak zajmuje w druynie,  itp.

Mikrofinansowania równie uchwycone analizy danych do oceny ryzyka i identyfikacji populacji kredytobiorców. Brana ubezpieczeniowa wykorzystuje analityki danych dla wiadomoci ryzyka i ustalonymi cen.

Analiza poprzez redukcj wymiarów

Reprezentowanie danych wielowymiarowych w zredukowanej przestrzeni wymiarowej jest dziedzin analiz czynnikowych, analizy czynnikowej korespondencji, analizy gównych skadowych, analizy wielu korespondencji. Metody te pozwalaj na przedstawienie chmury punktów do analizy w paszczynie lub w przestrzeni trójwymiarowej, bez zbytniej utraty informacji i bez wczeniejszego zaoenia statystycznego. W matematyce wykorzystuj obliczenia macierzowe oraz analiz wektorów i wartoci wasnych .

Analiza gównych skadowych

Analiza gównych skadowych suy do zredukowania skorelowanych zmiennych p do liczby q zmiennych nieskorelowanych, tak e q zmiennych jest liniowymi kombinacjami pierwotnych zmiennych p, ich wariancja jest maksymalna, a nowe zmienne s ortogonalne midzy nimi podaj za okrelon odlegoci. W PCA zmienne s ilociowe.

Komponenty, nowe zmienne, definiuj q-wymiarow podprzestrze, na któr rzutowane s jednostki przy minimalnej utracie informacji. W tej przestrzeni chmura punktów jest atwiejsza do przedstawienia, a analiza jest atwiejsza. W analizie korespondencji reprezentacja osób i zmiennych nie odbywa si w tej samej przestrzeni.

Pomiar jakoci reprezentacji danych mona przeprowadzi, obliczajc udzia bezwadnoci kadego skadnika w cakowitej bezwadnoci. W przykadzie podanym na dwóch obrazach obok, pierwsza skadowa odpowiada 45,89% cakowitej bezwadnoci, a druga 21,2%.

Im bliej skadników s zmienne, tym bardziej s z nimi skorelowane. Analityk wykorzystuje t waciwo do interpretacji osi. Na przykadzie z rys. 01 dwa gówne skadniki reprezentuj gówn i najczstsz dziaalno drugorzdn, w której kobiety (K) i mczyni (M) pozostali w zwizku maeskim (M) lub stanu wolnego (C) w USA (U) lub Europie Zachodniej (W) podziel si swoim dniem. Na rys. 02 zilustrowano koo korelacji, w którym zmienne s reprezentowane zgodnie z ich rzutem na paszczyzn dwóch pierwszych skadowych. Im wicej zmiennych jest dobrze reprezentowanych, tym bliej koa znajduj si. Cosinus kta utworzonego przez dwie zmienne jest równy wspóczynnikowi korelacji midzy tymi dwiema zmiennymi.

Podobnie, im mniejszy kt generowany przez jednostk i o komponentu, tym lepiej reprezentowana jest jednostka. Jeli dwie osoby, dobrze reprezentowane przez o, s blisko, to s blisko w swojej przestrzeni. Jeli dwie osoby s odlege w projekcji, s odlegle w swojej przestrzeni.

Analiza korespondencji czynnikowej

Celem AFC - zdefiniowanego przez Jean-Paula Benzécri i jego zespoy - jest znalezienie powiza lub odpowiedników midzy dwiema jakociowymi (nominalnymi) zmiennymi. Ta technika przetwarza tabele awaryjnoci tych dwóch zmiennych. W rzeczywistoci AFC to PCA w tych tabelach wyprowadzone z pocztkowej tabeli dostarczonej z metryk du . Zasada AFC jest identyczna z zasad PCA. Osie objaniajce, na których opiera si tabela czstoci dwóch zmiennych jakociowych, zostay wyszukane i przedstawione na wykresie.

Istniej co najmniej dwie rónice midzy PCA i CFA: pierwsza polega na tym, e moemy przedstawi osoby i zmienne na tym samym wykresie, a druga dotyczy podobiestwa. W reprezentacji graficznej dwa punkty linii znajduj si blisko siebie, jeli profile supów s podobne. Na przykad na wykresie na rys. 03 Pary i Yvelines gosoway w podobny sposób, co nie jest oczywiste, gdy spojrzymy na wstpn tabel kontyngentów, poniewa liczba wyborców jest zupenie inna w obu departamentach. Podobnie, dwa punkty w kolumnach (w przykadzie z fig. 03 i 04 punkty w kolumnach s kandydatami) s graficznie zblione, jeli profile wierszy s podobne. W przykadzie (rys. 04) departamenty gosoway na Bayrou i Le Pen w ten sam sposób. Punkty wierszy i punktów kolumn nie mog by porównywane w prosty sposób.

Jeli chodzi o interpretacj czynników, Jean-Paul Benzécri jest bardzo jasny:

... interpretowa o to znale to, co jest analogiczne z jednej strony midzy wszystkim, co jest napisane na prawo od pocztku, z drugiej strony midzy wszystkim, co odchyla si w lewo; i wyraaj, zwile i dokadnie, opozycj midzy dwoma skrajnociami ..... Czsto interpretacja czynnika jest udoskonalana przez rozwaenie tych, którzy po nim przyjd. "

- Jean-Paul Benzécri, Analiza danych: 2 analizy korespondencji

Jako reprezentacji graficznej mona oceni globalnie przez cz objanion przez kad o (pomiar jakoci ogólnej), przez bezwadno punktu rzutowanego na o podzielon przez cakowit bezwadno punktu (pomiar jakoci dla kadej modalnoci), udzia osi w cakowitej bezwadnoci lub stosunek midzy bezwadnoci chmury (line_profiles lub column_profiles) rzutowanej na o przez cakowit bezwadno tej samej chmury.

Analiza wielu korespondencji

Analiza wielokrotnej korespondencji (MCA) jest rozszerzeniem AFC.

ACM proponuje analiz jakociowych zmiennych p (p 2) obserwacji n osobników. Poniewa jest to analiza czynnikowa, skutkuje ona reprezentacj danych w przestrzeni o zmniejszonych wymiarach, generowanej przez czynniki. MCA jest odpowiednikiem PCA dla zmiennych jakociowych i jest redukowana do AFC, gdy liczba zmiennych jakociowych jest równa 2.

Formalnie ACM to AFC zastosowane do caej tabeli rozcznej lub AFC zastosowane do tabeli Burta , przy czym te dwie tabele s pobierane z tabeli pocztkowej. Kompletna tabela rozczna to tabela, w której zmienne s zastpowane przez ich modalnoci, a elementy przez 1, jeli modalno jest speniona 0 w innym przypadku dla kadej osoby. Tablica Burta to tablica kontyngencji skadajca si z zmiennych p wzitych w pary.

Interpretacji dokonuje si na poziomie modalnoci, których blisko jest badana. Wartoci wasne s uywane tylko do okrelenia liczby osi albo metod okcia, albo przyjmujc tylko wartoci wasne wiksze ni . Wkad bezwadnoci modalnoci do bezwadnoci rónych osi jest analizowany tak jak w AFC.

Zastosowanie dodatkowych zmiennych, zmiennych, które nie uczestnicz w tworzeniu osi ani w obliczaniu wartoci wasnych, moe pomóc w interpretacji osi.

Jako reprezentacji osobnika na osi silni jest mierzona gdzie jest ktem utworzonym przez rzut pojedynczego wektora na przestrze silni z osi silni. Im bliej wartoci 1, tym lepsza jako.

Analiza kanoniczna

Analiza kanoniczna umoliwia porównanie dwóch grup zmiennych ilociowych, obie odnoszce si do tych samych osób. Celem analizy kanonicznej jest porównanie tych dwóch grup zmiennych, aby sprawdzi, czy opisuj to samo zjawisko. W takim przypadku analityk moe si obej bez jednej z dwóch grup zmiennych.

Wymownym przykadem s analizy medyczne przeprowadzone na tych samych próbkach przez dwa róne laboratoria. Analiza kanoniczna uogólnia metody tak rónorodne, jak regresja liniowa , analiza dyskryminacyjna i analiza korespondencji czynnikowej .

Bardziej formalnie, jeli i s dwiema grupami zmiennych, analiza kanoniczna szuka par wektorów , liniowych kombinacji zmiennych odpowiednio i , najbardziej skorelowanych z moliwych. Te zmienne nazywane s zmiennymi kanonicznymi. W przestrzeni s to wektory wasne rzutów i odpowiednio w podprzestrzeni i , gdzie p i q reprezentuj liczb zmiennych z dwóch grup, wygenerowanych przez dwa zbiory zmiennych. mierzy korelacj midzy dwiema grupami. Im wysza jest ta miara, tym bardziej dwie grupy zmiennych s skorelowane i tym bardziej wyraaj to samo zjawisko na jednostkach.

Na ilustracji na rys. 08 korelacje midzy zmiennymi w obu grupach s reprezentowane przez górne korelogramy, korelacja midzy dwiema grupami jest wyjaniona poniej. Gdyby kolor dominujcy by jasnozielony, nie wykrytoby adnej korelacji. Na rys. 07 obie grupy zmiennych s zebrane w krgu korelacji zwizanych z dwoma pierwszymi zmiennymi kanonicznymi.

Wreszcie uogólniona analiza kanoniczna w sensie Caroll (za JDCarollem) rozszerza zwyk analiz kanoniczn na badanie grup zmiennych p (p> 2) zastosowanych do tej samej przestrzeni jednostek. Dopuszcza jako przypadki szczególne PCA, AFC i MCA, prost analiz kanoniczn, ale take prost i wielokrotn regresj , analiz wariancji , analiz kowariancji i analiz dyskryminacyjn.

Pozycjonowanie wielowymiarowe

Aby zastosowa t technik, tabele nie mog by zmiennymi charakterystycznymi dla osób, ale odlegociami midzy osobami. Analityk chce zbada podobiestwa i rónice midzy tymi osobami.

Pozycjonowanie wielowymiarowe (   skalowanie wielowymiarowe   lub MDS) jest zatem metod czynnikow majc zastosowanie do macierzy odlegoci midzy osobami. Ta metoda nie jest czci tego, co zwykle nazywa si analiz danych w stylu francuskim. Ale ma te same cechy, co poprzednie metody: opiera si na obliczeniach macierzowych i nie wymaga hipotez probabilistycznych. Danymi mog by pomiary p zmiennych ilociowych n osobników, w tym przypadku analityk oblicza macierz odlegoci lub bezporednio tabel odlegoci midzy osobami.

W klasycznym tzw. Przypadku metrycznym, miar niepodobiestw jest odlego euklidesowa. Umoliwia przyblienie odmiennoci midzy jednostkami w zredukowanej przestrzeni wymiarowej. W przypadku niemetrycznym dane s porzdkowe, typu rank. Analityka bardziej interesuje kolejno rónic ni ich zakres. Niemetryczny MDS wykorzystuje wskanik niepodobiestwa (równowany odlegoci, ale bez nierównoci trójktnej) i pozwala na przyblienie kolejnoci wpisów w macierzy podobiestw o rzd odlegoci w przestrzeni o zredukowanym wymiarze.

Podobnie jak w PCA, konieczne jest okrelenie liczby wymiarów przestrzeni docelowej, a jako odwzorowania mierzona jest stosunkiem sumy bezwadnoci zredukowanej wymiarowo podprzestrzeni do cakowitej bezwadnoci. W rzeczywistoci metryka MDS jest równowana PCA, w której obiektami analizy MDS byyby jednostki PCA. W przeciwnym przykadzie miasta byyby osobami z PCA, a pozycjonowanie GPS zastpioby odlegoci midzy miastami. Jednak MDS Analysis rozszerza PCA, poniewa moe wykorzystywa funkcje podobiestwa / niepodobiestwa mniej restrykcyjne ni odlegoci.

Dziki wielowymiarowemu pozycjonowaniu, wizualizacja macierzy odmiennoci, analiza wzorców i wizualne wykonanie podziau na dane lub macierze odmiennoci to atwe do wykonania operacje.

Analiza wieloczynnikowa

Analiza wieloczynnikowa (MFA) jest dedykowana tabelom, w których zbiór jednostek jest opisywany przez kilka grup zmiennych, niezalenie od tego, czy s to zmienne ilociowe, jakociowe czy mieszane. Ta metoda jest mniej znana ni poprzednie, ale jej bardzo duy potencja w zastosowaniu zasuguje na szczególne wyrónienie.

Przykady zastosowa

  • W sondaach ankiety zawsze maj struktur tematyczn. Moesz chcie analizowa kilka tematów jednoczenie.
  • W przypadku kategorii produktów spoywczych istniej oceny wystawione przez ekspertów oraz oceny wystawione przez konsumentów w odniesieniu do rónych aspektów produktów. Moesz chcie jednoczenie analizowa dane ekspertów i dane konsumentów.
  • W przypadku zestawu rodowisk naturalnych dysponujemy danymi biologicznymi (liczebno okrelonej liczby gatunków) i danymi rodowiskowymi (charakterystyka gleby, rzeba terenu itp.). Moesz chcie analizowa te dwa typy danych jednoczenie.
  • W przypadku zestawu sklepów mamy obrót wedug produktów w rónych terminach. Kada data stanowi grup zmiennych. Moesz studiowa te daty jednoczenie.

Zainteresowanie

We wszystkich tych przykadach warto wzi pod uwag, w samej analizie, a nie tylko w interpretacji, struktur zmiennych w grupach. Oto, co robi AFM, co:

  • way zmienne, aby zrównoway wpyw rónych grup, co jest szczególnie cenne w przypadku grup ilociowych i jakociowych;
  • podaje klasyczne wyniki analiz czynnikowych: reprezentacja jednostek, zmienne ilociowe i modalnoci zmiennych jakociowych;
  • dostarcza konkretnych wyników struktury grupowej: reprezentacja samych grup (jeden punkt = jedna grupa), jednostki widziane przez kad z grup (jedna osoba = tyle punktów ile jest grup), czynniki odrbnych analiz grup (PCA lub ACM w zalenoci od charakteru grup).

Inne metody

Metody te, opracowane niedawno, s mniej znane ni poprzednie.

  • Hierarchiczna analiza wieloczynnikowa (   Hierarchiczna analiza wieloczynnikowa   ) bierze pod uwag hierarchi zmiennych zmiennych, a nie tylko podzia, podobnie jak AFM
  • Analiza Uogólnione prokrust (   Ogólny Analiza Procustean   ) zestawia najlepsze wielu reprezentacje tej samej chmury punktów.
  • Analiza wieloczynnikowa Duale (   Analiza podwójna i wieloczynnikowa   ) bierze pod uwag wynik osób.
  • Analiza mieszanych danych czynnikowych (   Analiza czynnikowa mieszanych danych   ) jest dostosowana do tabel pokazujcych zarówno zmienne ilociowe, jak i jakociowe.
  • Ikonografia korelacji przedstawia korelacje midzy zmiennymi (jakociowych i ilociowych) oraz znaczce osoby. Ta nienadzorowana metoda dobrze nadaje si do restytucji organizacji, niezalenie od tego, czy ma ona struktur drzewiast, czy jest zaptlona, hierarchiczna czy nie. Niezalenie od rozmiaru danych, na powierzchni kuli znajduj si niezwyke zmienne i osoby; nie ma zatem potrzeby interpretowania osi. Bardziej ni na pozycji punktów, interpretacja opiera si zasadniczo na organizacji powiza.
  • ACI rozkada wielowymiarowej zmiennej do liniowo i statystycznie niezalenych komponentów.
  • Algorytm t-SNE umoliwia wizualizacj danych w dwu- lub trójwymiarowej przestrzeni przez rozliczania lokalnych proximities.

Analiza klasyfikacyjna

Klasyfikacja jednostek jest domen automatycznej klasyfikacji i analizy dyskryminacyjnej. Klasyfikacja polega na definiowaniu klas, klasyfikacja to operacja pozwalajca na umieszczenie obiektu w zdefiniowanej wczeniej klasie. Automatyczna klasyfikacja jest znana jako eksploracja danych (   eksploracja danych   ) nienadzorowanej klasyfikacji, analiza dyskryminacyjna to jedna z technik statystycznych znana jako nazwa klastra eksploracji danych.

Automatyczna klasyfikacja

Celem automatycznej klasyfikacji jest podzielenie wszystkich badanych danych na jeden lub wicej podzbiorów zwanych klasami, przy czym kady podzbiór musi by jak najbardziej jednorodny. Czonkowie jednej klasy s bardziej podobni do innych czonków tej samej klasy ni czonkowie innej klasy. Mona wyróni dwa rodzaje klasyfikacji: z jednej strony klasyfikacja (partycjonowanie lub nakadanie si) paska, z drugiej hierarchiczna partycjonowanie. W obu przypadkach klasyfikacja kwot polega na wyborze miary podobiestwa / niepodobiestwa, kryterium jednorodnoci, algorytmu, a niekiedy szeregu klas tworzcych podzia.

Klasyfikacja paskie

Podobiestwo (podobiestwo / niepodobiestwo) osób jest mierzone za pomoc wskanika podobiestwa, wskanika niepodobiestwa lub odlegoci. Na przykad w przypadku danych binarnych czsto stosuje si indeksy podobiestwa, takie jak indeks Jaccarda, indeks Dice'a, indeks zgodnoci lub indeks Tanimoto . W przypadku danych ilociowych najbardziej odpowiednia jest odlego euklidesowa , ale czasami przyjmuje si odlego Mahalanobisa . Dane s albo macierzami p zmiennych jakociowych lub ilociowych mierzonych dla n osobników lub bezporednio danymi dotyczcymi odlegoci lub danych o odmiennoci.

Kryterium jednorodnoci klas jest generalnie wyraane przez przektn midzyklasowej lub wewntrzklasowej macierzy wariancji-kowariancji (bezwadnoci). To kryterium umoliwia zbieno algorytmów dynamicznej realokacji, które minimalizuj bezwadno wewntrzklasow lub maksymalizuj bezwadno midzyklasow.

Gównymi algorytmy uywaj dynamicznego realokacji stosujc metod BW Forgy z orodków komórkowych lub jeden z jego wariantów: z k-rednich metod , z cloud metody dynamicznej lub PAM (   Podzia Okoo Medoids (PAM)   ).

Do budowy klasyfikacji wykorzystuje si równie metody oparte na metodzie Condorceta , algorytmie maksymalizacji oczekiwa , gstoci.

Nie ma lepszej klasyfikacji ni inne, zwaszcza gdy liczba klas w partycji nie jest z góry okrelona. Dlatego musimy mierzy jako klasyfikacji i i na kompromisy. Jako klasyfikacji mona mierzy za pomoc wskanika bdcego stosunkiem bezwadnoci midzyklasowej do bezwadnoci cakowitej, obliczonego dla kilku wartoci z ogólnej liczby klas, kompromis uzyskuje si metod okcia.

Interpretacj zaj, umoliwiajc zrozumienie partytury, mona przeprowadzi na podstawie analizy poszczególnych osób tworzcych poszczególne zajcia. Statystyk moe policzy osobniki w kadej klasie, obliczy rednic klas - czyli maksymaln odlego midzy osobnikami w kadej klasie. Potrafi zidentyfikowa osoby znajdujce si blisko rodka cikoci, ustali podzia midzy dwiema klasami - operacja polegajca na pomiarze minimalnej odlegoci midzy dwoma czonkami tych klas. Potrafi równie analizowa zmienne, na przykad obliczajc czstotliwo pewnych wartoci zmiennych przyjmowanych przez osoby z kadej klasy lub charakteryzujc klasy za pomoc pewnych wartoci zmiennych przyjmowanych przez indywidua z kadej klasy.

Klasyfikacja hierarchiczna

Dane wejciowe hierarchicznej klasyfikacji rosncej (HAC) s prezentowane w postaci tabeli odmiennoci lub tabeli odlegoci midzy osobami.

Najpierw musielimy wybra odlego (euklidesowa, Manhattan, Czebyszewa lub inny) lub wskanik podobiestwa (Jacard, Sokal, Sorensen, wspóczynnik korelacji liniowej lub inny).

Klasyfikacja rosnca proponuje klasyfikacj osób za pomoc algorytmu iteracyjnego. Na kadym kroku algorytm tworzy partycj poprzez agregacj dwóch klas partycji uzyskanej w poprzednim kroku.

Kryterium wyboru dwóch klas zaley od metody agregacji. Najpowszechniej stosowana jest metoda Warda, polegajca na agregacji dwóch klas, które najmniej obniaj bezwadno midzyklasow. Istniej inne wskaniki agregacji, takie jak minimalny skok (   poczenie pojedyncze   ), w którym agregowane s dwie partycje, dla których dwa elementy - pierwszy nalecy do pierwszej klasy, drugi do drugiej - s najbliej odlegoci. lub rednica (   pene poczenie   ), dla której dwie klasy, które maj by agregowane, to te, które maj najbardziej odleg par elementów.

Algorytm oddolny koczy si, gdy pozostaa tylko jedna klasa.

Jako klasyfikacji mierzy si stosunkiem bezwadnoci midzyklasowej do cakowitej bezwadnoci.

Strategie mieszane, czce klasyfikacj pask z klasyfikacj hierarchiczn, maj pewne zalety. Przeprowadzenie ACH na jednorodnych klasach uzyskanych w wyniku klasyfikacji metod dynamicznej realokacji umoliwia przetwarzanie duych tabel liczcych kilka tysicy osób, co nie jest moliwe w przypadku samego ACH. Przeprowadzenie ACH po pobraniu próbek i analizie czynnikowej pozwala na uzyskanie jednorodnych klas w zakresie pobierania próbek.

Dyskryminacyjna analiza czynnikowa

Dyskryminacyjna analiza czynnikowa (DFA), która jest opisow czci analizy dyskryminacyjnej, jest równie znana jako liniowa analiza dyskryminacyjna, analiza dyskryminacyjna Fishera i kanoniczna analiza dyskryminacyjna. Ta technika projektuje predefiniowane klasy na planach silniowych, które w jak najwikszym stopniu dyskryminuj. Tabela danych opisuje n osób, na których mierzono p zmiennych ilociowych i zmienn jakociow z modalnociami q. Zmienna jakociowa umoliwia zdefiniowanie klas q oraz grupowanie jednostek w tych klasach. AFD proponuje znale zmienne q-1, zwane zmiennymi dyskryminacyjnymi, których osie najbardziej oddzielaj rzuty q klas przecinajcych chmur punktów.

Podobnie jak we wszystkich opisowych analizach czynnikowych, nie poczyniono wczeniej adnych zaoe statystycznych; tylko w prognostycznej czci analizy dyskryminacyjnej przyjmuje si zaoenia a priori .

Pomiar jakoci dyskryminacji jest wykonywany przy uyciu metody Wilksa, która jest równa stosunkowi wyznacznika macierzy wewntrzklasy wariancja-kowariancja do wyznaczenia cakowitej macierzy wariancji-kowariancji. Saby Wilks wskazuje na siln dyskryminacji ze czynnikowych. Na przykad w danych Iris jest to 0,0234 dla pierwszych dwóch czynników. Co wicej, jeli pierwsza warto wasna jest bliska 1, AFD ma jako.

Korelacja midzy zmiennymi a czynnikami umoliwia ich interpretacj.

AFD to PCA przeprowadzane na rodkach barycentrum klas osobników utworzonych przy uyciu modalnoci zmiennej jakociowej. Jest to równie analiza kanoniczna midzy grup zmiennych ilociowych a grup skadajc si z rozcznej tabeli zmiennej jakociowej.

Analiza danych i regresje

Opierajc si na tym, co pisz Henry Rouanet i jego wspóautorzy, opisowa analiza danych i analiza predykcyjna mog si uzupenia i czasami dawa podobne wyniki.

Podejcie PLS

Podejcie PLS jest bardziej predykcyjn ni opisowy, ale zwizki z niektórymi analizami, e wanie widzielimy zostay jasno ustalone.

Algorytm Hermana Wolda , nazwany najpierw NILES (   Estymacja nieliniowa przez iteracyjne najmniejsze kwadraty   ), a nastpnie NIPALS (   Estymacja nieliniowa przez iteracyjne czciowe najmniejsze kwadraty   ) zosta najpierw zaprojektowany do analizy komponentów. Main .

Ponadto PLS umoliwia znalezienie analizy kanonicznej z dwoma blokami zmiennych, midzybaterii analizy Tuckera, analizy redundancji i uogólnionej analizy kanonicznej w sensie Carrolla. Praktyka pokazuje, e algorytm PLS zbiega si w kierunku pierwszych wartoci wasnych w przypadku analizy midzybaterii Tuckera, analizy kanonicznej z dwoma blokami zmiennych i analizy redundancji.

Regresje

Principal Components regresji (PCR) z uyciem PCR, aby zmniejszy liczb zmiennych, zastpujc je z gównych elementów, które maj t zalet, e nie s skorelowane. PLS i PCR s czsto porównywane w literaturze.

Wspomniano ju wczeniej w tym artykule, analiza kanoniczna jest równowana regresji liniowej, gdy jedna z dwóch grup redukuje si do jednej zmiennej.

Oprogramowanie

Nowoczesnej analizy danych nie mona oddzieli od korzystania z komputerów; mona przytoczy wiele programów umoliwiajcych wykorzystanie metod analizy danych przedstawionych w tym artykule. SPSS , Statistica , HyperCube , SAS i CORICO zapewniaj kompletne moduy do analizy danych; Oprogramowanie R równie z bibliotekami takimi jak FactoMineR, Ade4 lub MASS; Braincube, rozwizanie do analizy duych zbiorów danych dla przemysu.

Uwagi i odniesienia

Uwagi

  1. W   obcienia   moe by postrzegane jako wspóczynniki regresji ekspresj zmienne w funkcji czynników.
  2. Czynniki w modelu   Analiza czynnikowa   uwaane za zmienne ukryte istniej przed pomiarami; podczas gdy w analizie gównych skadowych skadowymi s zmienne, konsekwencje dziaa, pozwalajce na redukcj wymiarów.
  3. AFC mona równie postrzega jako szczególn analiz kanoniczn.
  4. S to nazywane tabelami profili wierszy i profili kolumn. Jeli pocztkowa tabela ma p wierszy i q kolumn i jeli jest jej elementem ogólnym, tabela profili wierszy ma jako element ogólny, tabel profili kolumn . Linie profilu tworz chmur punktów p, w których podajemy metryk . Do profili supów stosowana jest równowana metryka
  5. Wicej informacji na temat przykadu obok znajduje si w analizie FG Carpentier z Uniwersytetu w Brzeciu, FG Carpentier,   Analyze Factorielle des korespondences   [PDF] , na stronie geai.univ-brest.fr ,(dostp 12 listopada 2011 ) .
  6. Aby zrozumie specyficzny wkad MCA, patrz Saporta 2006 , str.  227.
  7. Cakowita bezwadno chmury punktów jest równa , bezwadno zmiennej majcej modalnoci jest okrelona przez, a bezwadno modalnoci ja dla wzoru .
  8. Dwie ksiki zawieraj szczegóowy opis AFM: Escofier & Pagès 2008 i Pagès 2013 .
  9. Zobacz ten dokument, aby porówna PCA i ACI.
  10. Wywietl dane na stronie University of Koln, Data Sets for Clustering Techniques  "  " na uni-koeln.de (dostp: 29 listopada 2011 ) .
  11. Zobacz   Glosariusz eksploracji danych  .
  12. PLS oznacza   Czciowe najmniejsze kwadraty   lub Czciowe najmniejsze kwadraty lub   Projekcja do struktury ukrytej   lub Projekcja na Struktur ukryt, w zalenoci od przypadku.

Bibliografia

  1. Elizabeth Garrett-Mayer,   Statistics in Psychosocial Research: Lecture 8: Factor Analysis I   , w ocw.jhsph.edu ,(dostp 29 stycznia 2012 ) .
  2.   Publications  , na witrynie bearingpoint.com (dostp: 31 sierpnia 2020 r . ) .
  3.   Braincube Cloud Solution   , na www.ipleanware.com

Ksiki specjalistyczne

  1. Husson 2009 , s.  iii
  2. Saporta 2006 , s.  190
  3. Lebart 2008 , s.  38
  4. Lebart 2008 , s.  418-419
  5. Tenenhaus 1998 , s.  23
  6. Tenenhaus 1998 , s.  35
  7. Lebart 2008 , s.  131
  8. Benzécri 1976 , s.  91 i nastpne. (Tom I)
  9. Benzécri 1976 , s.  63 i nastpne. (Tom I)
  10. Husson 2009 , s.  155
  11. Benzécri 1976 , s.  339 (Tom II)
  12. Benzécri 1976 , s.  372 (Tom II)
  13. Frédéric Lebaron , La Croyance économique , Le Seuil , pot.  "Liber",, 1 st  ed. , 260  str. ( ISBN  978-2-02-041171-4 )
  14. Benzécri 1976 , s.  329 (Tom II)
  15. Benzécri 1976 , s.  467 (Tom II)
  16. Benzécri 1976 , s.  485 (tom I)
  17. Husson 2009 , s.  58
  18. Husson 2009 , s.  110
  19. Benzécri 1976 , s.  29 (tom I)
  20. Benzécri 1976 , s.  31 (tom I)
  21. Benzécri 1976 , s.  37 (tom I)
  22. Benzécri 1976 , s.  55 (tom I)
  23. Lebart 2008 , s.  6
  24. Saporta 2006 , s.  162
  25. Saporta 2006 , s.  178
  26. Lebart 2008 , s.  93
  27. Saporta 2006 , s.  212.
  28. Saporta 2006 , s.  201-204
  29. Husson 2009 , s.  70
  30. Benzécri 1976 , s.  47 (tom II)
  31. Husson 2009 , s.  81-83
  32. Husson 2009 , s.  155
  33. Lebart 2008 , s.  187
  34. Saporta 2006 , s.  220
  35. Husson 2009 , s.  140-141
  36. Lebart 2008 , s.  37
  37. Saporta 2006 , s.  189-190
  38. Husson 2009 , s.  172
  39. Saporta 2006 , s.  250-251
  40. Saporta 2006 , s.  243
  41. Tufféry 2010 , s.  240
  42. Saporta 2006 , s.  258
  43. Saporta 2006 , s.  256
  44. Lebart 2008 , s.  329
  45. Tufféry 2010 , s.  329
  46. Tufféry 2010 , s.  342
  47. Saporta 2006 , s.  444
  48. Tenenhaus 1998 , s.  243
  49. Tenenhaus 1998 , s.  61
  50. Tenenhaus 1998 , s.  237 i nastpne.

Artykuy opublikowane w internecie

  1. Jean-Paul Benzécri ,   Historia i prehistoria analizy danych: cz 5  , Notebooki analizy danych , t.  2 n o  1,, s.  9-40 ( czytaj online [PDF] , dostp 30 stycznia 2012 )
  2. (w) N. Zainol , J. Salihon i R. Abdul-Rahman ,   Produkcja biogazu z odpadów przy uyciu reaktora biofilmowego: analiza czynnikowa w systemie dwustopniowym   , wiatowa Akademia Nauk, Inynierii i Technologii , tom.  54 N O  2, s.  30-34 ( czytaj online [PDF] , przegldano 2 lutego 2012 r. )
  3. (w) Reza Nadimi i Fariborz Jolai ,   Joint Use of Factor Analysis (FA) and Data wrapment analysis (DEA) for Ranking of Data Envelopment Analysis   , International Journal of Mathematical, Physical and Engineering Science , tom.  2, n O  4,, s.  218-222 ( czytaj online [PDF] , dostp: 2 lutego 2012 )
  4. (en) Noboru Ohsumi i Charles-Albert Lehalle,   Benzecri, Tukey and Hayashi (matematyka)   , na lehalle.blogspot.com ,(dostp 6 listopada 2011 )
  5. (w) Antoine de Falguerolles ,   Analiza danych: przed i wokó   , Historia elektronicznego dziennika prawdopodobiestwa i statystyk , t.  4, N O  2( czytaj online [PDF] , dostp 7 stycznia 2012 )
  6. Jean-Paul Benzécri ,   Historia i prehistoria analizy danych: cz 2  , The Data Analysis Notebooks , vol.  1, N O  2, s.  101-120 ( czytaj online , przegldano 22 stycznia 2012 )
  7. Ludovic Lebart   Analiza danych z pocztków 1980: niektóre elementy  , elektroniczny Journal Historii prawdopodobiestwa i statystyki , vol.  4, N O  2( czytaj online [PDF] , dostp 6 stycznia 2012 )
  8. Gilbert Saporta,   Dodatkowe dane dotyczce analizy danych   [PDF] , na cedric.cnam.fr ,(dostp 6 listopada 2011 )
  9. Jean-Paul Benzécri ,   Historia i prehistoria analizy danych: cz 4  , Notebooki analizy danych , t.  1, N O  4,, s.  343-366 ( czytaj online [PDF] , dostp: 22 stycznia 2012 )
  10. (w) Louis Leon Thurstone , Analiza wieloczynnikowa. Przegld psychologiczny, 38 ,, s.  406427
  11. (w) Shizuhiko Nishisato ,   Elementy podwójnego skalowania: wprowadzenie do praktycznej analizy danych   , Applied Psychological Measurement , tom.  18 N O  4,, s.  379-382 ( prezentacja online , przeczytaj online [PDF] )
  12. (w) George Michailidis i Jan de Leeuw , The GIFI Descriptive System of Multivariate Analysis  " , Statistical Science , tom.  4, n O  13,, s.  307-336 ( czytaj online [PDF] , dostp: 6 stycznia 2012 )
  13. Christian Baudelot i Michel Gollac :   Czy musimy pracowa, aby by szczliwym  », Insee Première , n o  560,( czytaj online , sprawdzono 7 stycznia 2012 )
  14. (w) Johs Hjellbrekke Brigitte Le Roux Olav Korsnes Frédéric Lebaron , Henry Rouanet i Lennart Rosenlund ,   Norweskie pole wadzy Anno 2000   , European Societies , Vol.  9 N O  2, s.  245-273 ( czytaj online , przegldano 7 stycznia 2012 )
  15. François Denord Pawe Lagneau-Ymonet i Sylvain ThineLe Champ duouvoir en France  ", Proceedings of bada w naukach spoecznych , n o  190,, s.  24-57 ( czytaj online , przegldano 30 stycznia 2012 )
  16. Julien Duval ,   Realizm sztuki  , Proceedings of the Social Science Research , n os  161-162,, s.  96-195 ( czyt. Online , przegldano 21 stycznia 2012 r. )
  17. E. Boukherissa ,   Wkad w badanie struktury spektakli: Analiza macierzy obecnoci postaci na scenie  , Les Cahiers de l'Analyse des data , t.  20 N O  2, s.  153-168 ( czytaj online [PDF] , dostp: 7 stycznia 2012 )
  18. C. Desroussilles ,   Wielko i struktura badanych przedsibiorstw wedug ich bilansów  , Les Cahiers de l'Analyse des data , vol.  5, n O  1, , s.  45-63 ( czytaj online [PDF] , dostp 23 stycznia 2012 )
  19. (w) Zhang Yan i Yu Bin ,   Non-negative Principal Component Analysis for Face Recognition   , wiatowa Akademia Nauk, Inynierii i Technologii , vol.  48,, s.  577-581 ( czytaj online [PDF] , dostp: 7 stycznia 2012 )
  20. L. Bellanger , D. Baize i R. Tomassone ,   Analiza korelacji kanonicznych stosowanych do danych rodowiskowych  , Revue de Statistics Appliqué , t.  Liv n O  4,, s.  7-40 ( czytaj online [PDF] , dostp 24 stycznia 2012 )
  21. F. Bertrand , M. Maumy , L. Fussler , N. Kobes , S. Savary i J. Grossman , "  Statystyczne badanie danych zebranych przez Obserwatorium chorób Bois de la Vigne  ", Journal of the French Society of Statystyki , t.  149 n O  4,, s.  73-106 ( czytaj online [PDF] , dostp: 24 stycznia 2012 )
  22. H. Seiffolahi ,   Charakterystyka przedmiotów uprawiajcych róne sporty w regionie paryskim  , Les Cahiers de l'Analyse des Data , vol.  6, n O  4,, s.  493-497 ( czytaj online [PDF] , dostp 25 stycznia 2012 )
  23. Renaud Laporte ,   Praktyki sportowe i towarzysko  , Matematyka i nauki spoeczne , t.  43, n o  170, s.  79-94 ( czytaj online [PDF] , dostp: 7 stycznia 2012 )
  24. Anne-Béatrice Dufour, Jacques Pontier i Annie Rouard,   Morphology and Performance in High Level Athletes: Case of Handball and Swimming   [PDF] , na pbil.univ-lyon1.fr ,(dostp 11 listopada 2011 )
  25. Carla Henry, Manohar Sharma, Cecile Lapenu i Manfred Zeller,   Microfinance Poverty Assessment Tool   [PDF] , na lamicrofinance.org ,(dostp 20 listopada 2011 )
  26. Arthur Charpentier i Michel Denuit , Matematyka ubezpiecze innych ni na ycie , t.  II, Economica ,, 596,  str. ( ISBN  978-2-7178-4860-1 )
  27. Dominique Desbois   miejsce a priori w analizie danych o tym silne programu metody indukcyjnych w subie heterodoksji   Modulad , n O  32, , s.  176-181 ( czytaj online [PDF] , dostp 21 stycznia 2012 )
  28. FG Carpentier,   Principal component analysis with R   , na geai.univ-brest.fr ,(dostp 19 listopada 2011 )
  29. C. Duby i S. Robin,   Principal Component Analysis   [PDF] , na agroparistech.fr ,(dostp 3 listopada 2011 )
  30. Christine Decaestecker i Marco Saerens,   Principal component analysis   [PDF] , na isys.ucl.ac.be (dostp: 3 listopada 2011 )
  31. (w) Hossein Arsham, Topics in Statistical Data Analysis: Revealing Facts From Data  "  " na home.ubalt.edu (dostp 3 listopada 2011 )
  32. FG Carpentier,   Factorial analysis ofrespondences with R   , na geai.univ-brest.fr (dostp 18 grudnia 2011 )
  33. R. Ramousse, M. Le Berre i L. Le Guelte,   Introduction to Statistics   , na cons-dev.org ,(dostp 12 listopada 2011 )
  34. Pierre et Marie Curie University, Pary,   Factorial analysis of multiple korespondences: 4.3 Formulaire   , na obs-vlfr.fr (dostp 13 listopada 2011 )
  35. (en) Ignacio Gonzalez, Sébastien DEJEAN Pascal GP Martin i Alain Baccini, CCA: R Pakiet do analizy korelacji kanonicznej Extend  "  " [PDF] , na jstatsoft.org ,(dostp 19 listopada 2011 )
  36. Ph. Casin i JC Turlot ,   Prezentacja uogólnionej analizy kanonicznej w przestrzeni jednostek  , Revue de Statistical Appliqué , vol.  34, n o  3, , s.  65-75 ( czytaj online [PDF] , dostp 8 stycznia 2012 )
  37. (en) A. Mead ,   Review of the Development of Multidimensional Scaling Methods   , Statistician , vol.  41, n o  1,, s.  27-39 ( czytaj online [PDF] , dostp: 8 stycznia 2012 )
  38. Dominique Desbois ,   Wprowadzenie do wielowymiarowego pozycjonowania.  », Modulad , t.  32,, s.  1-28 ( czytaj online [PDF] , dostp: 20 stycznia 2012 )
  39. Sébastien le Dien i Jérôme Pagès ,   Hierarchical Multiple Factor Analysis  , Revue de Statistique Appliqué , vol.  51 N O  2, s.  47-73 ( czytaj online [PDF] , dostp: 8 stycznia 2012 )
  40. Jérôme Pagès ,   Multiple Factor Analysis and Procustean Analysis  , Revue de Statistical Appliqué , vol.  LIII, n O  4, , s.  61-86url = http://smf4.emath.fr/Publications/JSFdS/RSA/53_4/pdf/sfds_rsa_53_4_61-86.pdf
  41. Jérôme Pagès ,   Factorial Analysis of Mixed Data  , Revue de Statistical Appliqué , t.  52, n o  4,, s.  93-111 ( czytaj online , przegldano 8 stycznia 2012 )
  42. Michel Lesty ,   Czciowe korelacje i podwójne korelacje  , Modulad , tom.  39,, s.  1-22 ( czytaj online , sprawdzono 8 stycznia 2012 )
  43. Jean-François Cardoso,   Independent component analysis   [PDF] , na perso.telecom-paristech.fr (dostp 12 grudnia 2011 )
  44. Laurence Reboul,   CH 3: Classification   [PDF] , na iml.univ-mrs.fr (dostp 24 listopada 2011 )
  45. J.M Loubes, Multidimensional Statistical Exploration Chapter 8: Unsupervised Classi kation  " [PDF] , na math.univ-toulouse.fr (dostp 25 listopada 2011 )
  46. (w), UNESCO, partycjonowania Around Medoids  "  " na unesco.org (dostp 27 listopada 2011 )
  47. Christel Vrain,   Unsupervised Classification   [PDF] , na univ-orleans.fr (dostp 24 listopada 2011 )
  48. Catherine Aaron,   EM Algorytm and Unsupervised Classification   [PDF] , na samos.univ-paris1.fr (dostp 25 listopada 2011 )
  49. Mireille Summa-Gettler i Catherine Pardoux, La Klasyfikacja Automatic  " [PDF] , na ceremade.dauphine.fr (dostp 26 listopada 2011 )
  50. Jean-Yves Baudot,   AFD Linear Model   , na jybaudot.fr ,(dostp 11 grudnia 2011 )
  51. Henry Rouanet , Frederic Lebaron Viviane Le tamowy Werner Ackermann i Brigitte Le Rouxregresji i geometryczne Analiza danych: Odbicia i sugestie  " Mathematics humanistyczne , n O  160. , s.  13-45 ( czytaj online , przegldano 4 stycznia 2012 )
  52. Séverine Vancolen,   Regression PLS   [PDF] , na doc.rero.ch ,(dostp 17 grudnia 2011 )
  53. Michel TenenhausPodejcie PLS  ", Revue de aplikacja Statistics , tom.  47 N O  2 , s.  5-40 ( czytaj online [PDF] , dostp: 8 stycznia 2012 )
  54. J. Obadia ,   Analiza w komponentach objaniajcych  , Revue de statistique zastosowana , t.  26 N O  4,, s.  5-28 ( czytaj online [PDF] , dostp: 8 stycznia 2012 )

Zobacz te

Bibliografia

Powizane artykuy

Linki zewntrzne

Wersja tego artykuu z 28 lutego 2012 r. Zostaa uznana za   dobry artyku  , co oznacza, e spenia kryteria jakoci dotyczce stylu, przejrzystoci, trafnoci, cytowania róde i jakoci rysunku.

Mamy nadzieję, że informacje, które zgromadziliśmy na temat Analiza danych, były dla Ciebie przydatne. Jeśli tak, nie zapomnij polecić nas swoim przyjaciołom i rodzinie oraz pamiętaj, że zawsze możesz się z nami skontaktować, jeśli będziesz nas potrzebować. Jeśli mimo naszych starań uznasz, że informacje podane na temat _title nie są całkowicie poprawne lub że powinniśmy coś dodać lub poprawić, będziemy wdzięczni za poinformowanie nas o tym. Dostarczanie najlepszych i najbardziej wyczerpujących informacji na temat Analiza danych i każdego innego tematu jest istotą tej strony internetowej; kierujemy się tym samym duchem, który inspirował twórców Encyclopedia Project, i z tego powodu mamy nadzieję, że to, co znalazłeś o Analiza danych na tej stronie pomogło Ci poszerzyć swoją wiedzę.

Opiniones de nuestros usuarios

Bohdan Muszyński

Zawsze dobrze jest się uczyć. Dziękuję za artykuł o zmiennej Analiza danych

Ryszard Kujawa

Informacje o zmiennej Analiza danych są bardzo ciekawe i rzetelne, podobnie jak pozostałe artykuły, które przeczytałem do tej pory, a jest ich już wiele, bo na randkę na Tinderze czekam prawie godzinę i się nie pojawia, więc daje mi to, że mnie to wystawiło. Korzystam z okazji, aby zostawić kilka gwiazdek dla firmy i srać na moje pieprzone życie.