Informacje, które udało nam się zgromadzić na temat Analiza danych, zostały starannie sprawdzone i uporządkowane, aby były jak najbardziej przydatne. Prawdopodobnie trafiłeś tutaj, aby dowiedzieć się więcej na temat Analiza danych. W Internecie łatwo zgubić się w gąszczu stron, które mówią o Analiza danych, a jednocześnie nie podają tego, co chcemy wiedzieć o Analiza danych. Mamy nadzieję, że dasz nam znać w komentarzach, czy podoba Ci się to, co przeczytałeś o Analiza danych poniżej. Jeśli informacje o Analiza danych, które podajemy, nie są tym, czego szukałeś, daj nam znać, abyśmy mogli codziennie ulepszać tę stronę.
.
Analiza danych (zwane równie rozpoznawcza analiza danych lub EDA ) jest rodzin metod statystycznych, których gówne cechy to by wielowymiarowy i opisowe. W sensie francuskim terminologia analiza danych oznacza zatem podzbiór tego, co bardziej ogólnie nazywa si statystyk wielowymiarow . Niektóre metody, w wikszoci geometryczne , pomagaj uwydatni zalenoci, które mog istnie midzy rónymi danymi i uzyska z nich informacje statystyczne, które umoliwiaj bardziej zwize opisanie gównych informacji zawartych w tych danych. Inne techniki pozwalaj na grupowanie danych, aby jasno pokaza, co czyni je jednorodnymi , a tym samym lepiej je zrozumie.
Analiza danych umoliwia przetwarzanie bardzo duej iloci danych i identyfikacj najciekawszych aspektów ich struktury. Sukces tej dyscypliny w ostatnich latach zawdziczamy w duej mierze zapewnionym przedstawieniom graficznym . Te wykresy mog uwydatnia relacje, które s trudne do uchwycenia przez bezporedni analiz danych; ale przede wszystkim reprezentacje te nie s powizane z pogldem a priori na temat praw analizowanych zjawisk, w przeciwiestwie do metod statystyki klasycznej.
Matematyczne podstawy analizy danych zacza si rozwija na pocztku XX th wieku, ale jest to komputer , który popeni t dyscyplin operacyjn i e pomóg w bardzo szerokim zastosowaniu. Matematyka i informatyka s tu cile powizane.
W sensie francuskim terminologia analiza danych oznacza podzbiór tego, co bardziej ogólnie nazywa si statystyk wielowymiarow . Analiza danych to zbiór technik opisowych, z których gównym narzdziem matematycznym jest algebra macierzy i który wyraa si bez zakadania a priori modelu probabilistycznego.
Obejmuje analiz gównych skadowych (PCA), wykorzystywan do danych ilociowych, oraz metody pochodne: analiz korelacji czynnikowej (CFA) stosowan na danych jakociowych (tabela asocjacji) i analiz korelacji czynnikowej, wielokrotnoci (AFCM lub ACM) uogólniajce poprzedni. Analiza kanoniczna i uogólnione korelacja kanoniczna , które s bardziej teoretyczne ramy tak atwo stosowane metody, przeduy kilka z tych metod i technik wykracza poza opis. Analiza wieloczynnikowa jest odpowiednia dla tabel, w których zmienne s zorganizowane w grupy i mog by ilociowe i / lub jakociowe. Automatycznej klasyfikacji The analiza dyskryminacyjna (FDA) lub analiza dyskryminacyjna stosowane do identyfikacji grupy jednorodne w populacji z punktu widzenia zmienne badanych.
Oprócz analizy danych , nowsza niezalena analiza komponentów (ICA), wywodzca si z fizyki sygnau i pocztkowo znana jako metoda separacji ze róde lepych , jest intuicyjnie blisza metodom klasyfikacji bez nadzoru. Ikonografia korelacji dla danych jakociowych i ilociowych, organizuje korelacji pomidzy zmiennymi w postaci wykresów. Analiza midzybaterii Tuckera jest porednia midzy analiz kanoniczn a analiz gównych skadowych, analiza nadmiarowoci zwana równie analiz gównych skadowych zmiennych instrumentalnych jest podobna do regresji, poniewa zmienne jednej z analizowanych grup s uwaane za zalene, inne za niezalene, oraz e funkcja, która ma zosta zmaksymalizowana, jest sum wspóczynników korelacji midzy dwiema grupami.
Oprócz szkoy francuskiej, analizy wielowymiarowej danych jest zakoczona metod projekcji deniu do Johna Tukeya i metod kwantyfikacji Chikio Hayashi , którego ilociowe typu III jest podobna do analizy korespondencji. Anglosaska analiza czynnikowa lub analiza czynnikowa jest zbliona do analizy w skadowych gównych, ale nie jest równowana, poniewa wykorzystuje techniki regresji w celu wykrycia zmiennych ukrytych.
Metody te umoliwiaj w szczególnoci manipulacj i syntez informacji pochodzcych z duych tabel danych, wykorzystujc estymacj korelacji midzy badanymi zmiennymi. Zastosowanym narzdziem statystycznym jest macierz korelacji lub macierz wariancji-kowariancji .
Ojcami wspóczesnej analizy danych s Jean-Paul Benzécri , Louis Guttman , Chikio Hayashi (projektant metod znanych jako Data Sciences ), Douglas Carroll i RN Shepard.
Ale na dugo przed swoim czasem podstawowe techniki analizy danych byy ju znane. Na przykad tabele zdarze losowych s obecne na wczesnym etapie historii: niezwyciona armada zostaa opisana przez Alvareza Paz Salasa oraz w ksice opublikowanej w 1588 r. W formie tabeli, w której rzdy przedstawiaj floty statków, a kolumny cech charakterystycznych takie jak tona, liczba uzbrojonego personelu itp. Nicolas de Lamoignon de Basville, intendent króla Ludwika XIV , policzy i scharakteryzowa klasztory w regionie Langwedocji w 1696 roku.
Klasyfikacja znajduje swojego mistrza, w latach 1735-1758, w osobie Carla von Linné, który w tym czasie stworzy podstawy nazewnictwa dwumianowego i nowoczesnej taksonomii. Robert R. Sokal i Peter HA Sneath w 1963 roku przedstawili metody ilociowe zastosowane w taksonomii .
Pojcia potrzebne do analizy wspóczesnych danych zacza by opanowane na pocztku XIX th wieku. Adolphe Quetelet , belgijski astronom i statystyk, wykorzystuje to, co wie, od prawa Gaussa po antropometri, aby zbada rozproszenie wokó redniej ( wariancji ) pomiarów rozmiarów grupy mczyzn. Z kolei Francis Galton , chcc zbada wielko ojców i synów, jest zainteresowany wspóln zmiennoci ( kowariancj i korelacj ) dwóch rozmiarów, która jest ródem tego, co dzi nazywamy regresj hui.
Kiedy Karl Pearson i Raphael Weldon przejli prac Francisa Galtona, mogli uogólni regresj Galtona na dane wielowymiarowe, wtedy Karl Pearson wpad na pomys zmiany osi prezentacji, aby wyrazi je jako funkcj zmiennych niezalenych w 1901 roku, ustanawiajc w ten sposób przesanki analizy gównych skadowych . Zostao to opracowane w 1933 roku przez Harolda Hotellinga, który zdefiniowa analiz kanoniczn w 1936 roku .
Marion Richardson i Frederic Kuder w 1933 r., Chcc poprawi jako sprzedawców Procter & Gamble , uywaj tak zwanego obecnie algorytmu ( Urednianie wzajemne ), dobrze znanego w krajach AKP. Herman Otto Hirschfeld w swojej publikacji Zwizek midzy korelacj a przypadkowoci odkrywa równania analizy korespondencji.
To wanie psychometria najbardziej rozwija analiz danych. Kiedy Alfred Binet zdefiniowa swoje testy psychometryczne do pomiaru inteligencji u dzieci, Charles Spearman uy ich do zdefiniowania w 1904 roku swojej teorii ogólnych i szczegóowych czynników, które mierz ogólne i szczególne uzdolnienia do wykonywania czynnoci. Louis Leon Thurstone opracowa równania indukowane przez teori czynników w postaci macierzy w 1931 r. I uzupeni je, badajc skadnik bdu. Wprowadza równie pojcie gównych osi bezwadnoci. W 1933 roku Harold Hotelling zaproponowa uycie iteracji do diagonalizacji macierzy i poszukiwania wektorów wasnych.
Jean-Paul Benzécri i Brigitte Escofier-Cordier zaproponowali Factorial Correspondence Analysis w latach 1962-65, ale ju w 1954 roku Chikio Hayashi stworzy podstawy tej metody pod nazw kwantyfikacja typu III.
Analiza wielokrotnej korespondencji zostaa zainicjowana przez Louisa Guttmana w 1941 r., Cyrila Burta w 1950 r. I Chikio Hayashiego w 1956 r. Technika ta zostaa opracowana w Japonii w 1952 r. Przez Shizuhiko Nishisato pod nazw Podwójne skalowanie oraz w Holandii w 1990 r. Pod nazw Analiza jednorodnoci autorstwa kolektywu Albert Gifi.
Pojawienie si komputera, a zwaszcza mikrokomputera, to skok technologiczny, który umoliwia zoone obliczenia, diagonalizacje, wyszukiwanie wartoci wasnych na duych tabelach danych, z bardzo duymi opónieniami w uzyskaniu wyników. Krótkie w porównaniu z tym, co zostao zrobione w przeszo.
Analiza danych jest stosowana we wszystkich dziedzinach, gdy jest zbyt duo danych, aby ludzki umys móg je zrozumie.
W naukach humanistycznych technika ta jest wykorzystywana do identyfikacji wyników bada opinii, na przykad za pomoc analizy wielokrotnej korespondencji lub analizy korespondencji czynnikowej. Socjologia opiera si na analizie danych, aby zrozumie ycie i rozwój niektórych populacjach, takich jak Liban, którego ewolucja jest przedstawiony przez dwóch badaniach w roku 1960 i 1970, przedstawiony przez Jean-Paul Benzécri, a standard strukturze ycia i jego ulepszanie analizowane za pomoc analizy gównych skadników. Analiza wielokrotnej korespondencji jest czsto stosowana w socjologii do analizy odpowiedzi na kwestionariusz. Socjologowie Christian Baudelot i Michel Gollac wykorzystuj analiz wielokrotnej korespondencji do badania zwizku Francuzów z ich prac. Czerpic inspiracj od Pierre'a Bourdieu do badania okrelonej dziedziny, socjolog Frédéric Lebaron zatrudnia MCA do analizy dziedziny francuskich ekonomistów, a Hjellbrekke i jego wspóautorzy stosuj t sam metod do analizy pola norweskich elit. Podobnie François Denord i jego wspóautorzy uywaj ACM do analizy pola wadzy we Francji na podstawie Who's Who. Wci w pracach inspirowanych Pierre'em Bourdieu jako przykad moemy posuy si take analiz pola francuskiego kina Juliena Duvala. W lingwici korzysta z analizy tekstu techniki i analizy danych, aby zlokalizowa czonek politycznego spektrum badajc czstotliwo stosowania pewnych sów. Brigitte Escofier-Cordier przestudiowaa niektóre elementy sownictwa uywanego w sztuce Racine'a Fèdre , aby pokaza, jak autor uywa sów, aby zakotwiczy swoich bohaterów w spoecznej hierarchii. W ekonomii C. Desroussilles zbada bilanse przedsibiorstw, aby opisa struktur i wielko tych organizacji za pomoc klasyfikacji rosncej i analizy korespondencji. Struktur spoycia gospodarstw domowych w EWG przedstawili Jean-Paul Benzécri i in. na dwóch osiach analizy korespondencji i pierwszy krok w ustaleniu klasyfikacji dziaalnoci gospodarczej w przemyle wskazuje na przydatno analizy korespondencji i hierarchicznej klasyfikacji w tego typu operacjach.
W dziedzinie nauki i technologii niektórzy badacze stosuj te metody statystyczne do rozszyfrowania kilku cech genomu . Inni uywaj analizy danych do skonfigurowania niezbdnego procesu rozpoznawania twarzy . W epidemiologii , Inserm zapewnia swoje dane, które Husson et al. poprzez analiz korespondencji czynnikowej w celu opisania grup wiekowych we Francji wedug ich przyczyn miertelnoci . Jean-Paul Benzécri podaje równie przykady zastosowania analizy korespondencji w kontekcie uczenia si , hydrologii i biochemii . Przykadem w naukach o rodowisku jest badanie ladów metali w pszenicy w funkcji gleb uprawnych, które wykorzystuje analiz korelacji kanonicznych, zwykle uznawanych za narzdzie raczej teoretyczne. W pierwszej dekadzie tego stulecia Observatoire des Maladies du Bois de la Vigne starao si zmierzy ewolucj trzech chorób winoroli, stosujc midzy innymi analiz wielu odpowiedników i analiz gównych elementów epidemiologii rolin. projekt .
Dziedzina sportu bardzo lubi statystyki: lekarz sportowy zastanawia si nad wiekiem praktykujcych, ich motywacjami i sportem, który uprawiaj. W innym badaniu sport jest zainteresowany motywacjami sportowców, od przyjani i koleestwa po asertywno reprezentowan na jednej osi oraz od natury i pikna po waleczno na drugiej osi. Socjolog stara si dowiedzie, czy na towarzysko wyznawców sportu ma wpyw jego praktyka, biometria czowieka charakteryzuje morfologi sportowca wedug uprawianego przez niego sportu, aw przypadku sportów zespoowych pozycj, jak zajmuje w druynie, itp.
Mikrofinansowania równie uchwycone analizy danych do oceny ryzyka i identyfikacji populacji kredytobiorców. Brana ubezpieczeniowa wykorzystuje analityki danych dla wiadomoci ryzyka i ustalonymi cen.
Reprezentowanie danych wielowymiarowych w zredukowanej przestrzeni wymiarowej jest dziedzin analiz czynnikowych, analizy czynnikowej korespondencji, analizy gównych skadowych, analizy wielu korespondencji. Metody te pozwalaj na przedstawienie chmury punktów do analizy w paszczynie lub w przestrzeni trójwymiarowej, bez zbytniej utraty informacji i bez wczeniejszego zaoenia statystycznego. W matematyce wykorzystuj obliczenia macierzowe oraz analiz wektorów i wartoci wasnych .
Analiza gównych skadowych suy do zredukowania skorelowanych zmiennych p do liczby q zmiennych nieskorelowanych, tak e q zmiennych jest liniowymi kombinacjami pierwotnych zmiennych p, ich wariancja jest maksymalna, a nowe zmienne s ortogonalne midzy nimi podaj za okrelon odlegoci. W PCA zmienne s ilociowe.
Komponenty, nowe zmienne, definiuj q-wymiarow podprzestrze, na któr rzutowane s jednostki przy minimalnej utracie informacji. W tej przestrzeni chmura punktów jest atwiejsza do przedstawienia, a analiza jest atwiejsza. W analizie korespondencji reprezentacja osób i zmiennych nie odbywa si w tej samej przestrzeni.
Pomiar jakoci reprezentacji danych mona przeprowadzi, obliczajc udzia bezwadnoci kadego skadnika w cakowitej bezwadnoci. W przykadzie podanym na dwóch obrazach obok, pierwsza skadowa odpowiada 45,89% cakowitej bezwadnoci, a druga 21,2%.
Im bliej skadników s zmienne, tym bardziej s z nimi skorelowane. Analityk wykorzystuje t waciwo do interpretacji osi. Na przykadzie z rys. 01 dwa gówne skadniki reprezentuj gówn i najczstsz dziaalno drugorzdn, w której kobiety (K) i mczyni (M) pozostali w zwizku maeskim (M) lub stanu wolnego (C) w USA (U) lub Europie Zachodniej (W) podziel si swoim dniem. Na rys. 02 zilustrowano koo korelacji, w którym zmienne s reprezentowane zgodnie z ich rzutem na paszczyzn dwóch pierwszych skadowych. Im wicej zmiennych jest dobrze reprezentowanych, tym bliej koa znajduj si. Cosinus kta utworzonego przez dwie zmienne jest równy wspóczynnikowi korelacji midzy tymi dwiema zmiennymi.
Podobnie, im mniejszy kt generowany przez jednostk i o komponentu, tym lepiej reprezentowana jest jednostka. Jeli dwie osoby, dobrze reprezentowane przez o, s blisko, to s blisko w swojej przestrzeni. Jeli dwie osoby s odlege w projekcji, s odlegle w swojej przestrzeni.
Celem AFC - zdefiniowanego przez Jean-Paula Benzécri i jego zespoy - jest znalezienie powiza lub odpowiedników midzy dwiema jakociowymi (nominalnymi) zmiennymi. Ta technika przetwarza tabele awaryjnoci tych dwóch zmiennych. W rzeczywistoci AFC to PCA w tych tabelach wyprowadzone z pocztkowej tabeli dostarczonej z metryk du . Zasada AFC jest identyczna z zasad PCA. Osie objaniajce, na których opiera si tabela czstoci dwóch zmiennych jakociowych, zostay wyszukane i przedstawione na wykresie.
Istniej co najmniej dwie rónice midzy PCA i CFA: pierwsza polega na tym, e moemy przedstawi osoby i zmienne na tym samym wykresie, a druga dotyczy podobiestwa. W reprezentacji graficznej dwa punkty linii znajduj si blisko siebie, jeli profile supów s podobne. Na przykad na wykresie na rys. 03 Pary i Yvelines gosoway w podobny sposób, co nie jest oczywiste, gdy spojrzymy na wstpn tabel kontyngentów, poniewa liczba wyborców jest zupenie inna w obu departamentach. Podobnie, dwa punkty w kolumnach (w przykadzie z fig. 03 i 04 punkty w kolumnach s kandydatami) s graficznie zblione, jeli profile wierszy s podobne. W przykadzie (rys. 04) departamenty gosoway na Bayrou i Le Pen w ten sam sposób. Punkty wierszy i punktów kolumn nie mog by porównywane w prosty sposób.
Jeli chodzi o interpretacj czynników, Jean-Paul Benzécri jest bardzo jasny:
... interpretowa o to znale to, co jest analogiczne z jednej strony midzy wszystkim, co jest napisane na prawo od pocztku, z drugiej strony midzy wszystkim, co odchyla si w lewo; i wyraaj, zwile i dokadnie, opozycj midzy dwoma skrajnociami ..... Czsto interpretacja czynnika jest udoskonalana przez rozwaenie tych, którzy po nim przyjd. "
- Jean-Paul Benzécri, Analiza danych: 2 analizy korespondencji
Jako reprezentacji graficznej mona oceni globalnie przez cz objanion przez kad o (pomiar jakoci ogólnej), przez bezwadno punktu rzutowanego na o podzielon przez cakowit bezwadno punktu (pomiar jakoci dla kadej modalnoci), udzia osi w cakowitej bezwadnoci lub stosunek midzy bezwadnoci chmury (line_profiles lub column_profiles) rzutowanej na o przez cakowit bezwadno tej samej chmury.
Analiza wielokrotnej korespondencji (MCA) jest rozszerzeniem AFC.
ACM proponuje analiz jakociowych zmiennych p (p 2) obserwacji n osobników. Poniewa jest to analiza czynnikowa, skutkuje ona reprezentacj danych w przestrzeni o zmniejszonych wymiarach, generowanej przez czynniki. MCA jest odpowiednikiem PCA dla zmiennych jakociowych i jest redukowana do AFC, gdy liczba zmiennych jakociowych jest równa 2.
Formalnie ACM to AFC zastosowane do caej tabeli rozcznej lub AFC zastosowane do tabeli Burta , przy czym te dwie tabele s pobierane z tabeli pocztkowej. Kompletna tabela rozczna to tabela, w której zmienne s zastpowane przez ich modalnoci, a elementy przez 1, jeli modalno jest speniona 0 w innym przypadku dla kadej osoby. Tablica Burta to tablica kontyngencji skadajca si z zmiennych p wzitych w pary.
Interpretacji dokonuje si na poziomie modalnoci, których blisko jest badana. Wartoci wasne s uywane tylko do okrelenia liczby osi albo metod okcia, albo przyjmujc tylko wartoci wasne wiksze ni . Wkad bezwadnoci modalnoci do bezwadnoci rónych osi jest analizowany tak jak w AFC.
Zastosowanie dodatkowych zmiennych, zmiennych, które nie uczestnicz w tworzeniu osi ani w obliczaniu wartoci wasnych, moe pomóc w interpretacji osi.
Jako reprezentacji osobnika na osi silni jest mierzona gdzie jest ktem utworzonym przez rzut pojedynczego wektora na przestrze silni z osi silni. Im bliej wartoci 1, tym lepsza jako.
Analiza kanoniczna umoliwia porównanie dwóch grup zmiennych ilociowych, obie odnoszce si do tych samych osób. Celem analizy kanonicznej jest porównanie tych dwóch grup zmiennych, aby sprawdzi, czy opisuj to samo zjawisko. W takim przypadku analityk moe si obej bez jednej z dwóch grup zmiennych.
Wymownym przykadem s analizy medyczne przeprowadzone na tych samych próbkach przez dwa róne laboratoria. Analiza kanoniczna uogólnia metody tak rónorodne, jak regresja liniowa , analiza dyskryminacyjna i analiza korespondencji czynnikowej .
Bardziej formalnie, jeli i s dwiema grupami zmiennych, analiza kanoniczna szuka par wektorów , liniowych kombinacji zmiennych odpowiednio i , najbardziej skorelowanych z moliwych. Te zmienne nazywane s zmiennymi kanonicznymi. W przestrzeni s to wektory wasne rzutów i odpowiednio w podprzestrzeni i , gdzie p i q reprezentuj liczb zmiennych z dwóch grup, wygenerowanych przez dwa zbiory zmiennych. mierzy korelacj midzy dwiema grupami. Im wysza jest ta miara, tym bardziej dwie grupy zmiennych s skorelowane i tym bardziej wyraaj to samo zjawisko na jednostkach.
Na ilustracji na rys. 08 korelacje midzy zmiennymi w obu grupach s reprezentowane przez górne korelogramy, korelacja midzy dwiema grupami jest wyjaniona poniej. Gdyby kolor dominujcy by jasnozielony, nie wykrytoby adnej korelacji. Na rys. 07 obie grupy zmiennych s zebrane w krgu korelacji zwizanych z dwoma pierwszymi zmiennymi kanonicznymi.
Wreszcie uogólniona analiza kanoniczna w sensie Caroll (za JDCarollem) rozszerza zwyk analiz kanoniczn na badanie grup zmiennych p (p> 2) zastosowanych do tej samej przestrzeni jednostek. Dopuszcza jako przypadki szczególne PCA, AFC i MCA, prost analiz kanoniczn, ale take prost i wielokrotn regresj , analiz wariancji , analiz kowariancji i analiz dyskryminacyjn.
Aby zastosowa t technik, tabele nie mog by zmiennymi charakterystycznymi dla osób, ale odlegociami midzy osobami. Analityk chce zbada podobiestwa i rónice midzy tymi osobami.
Pozycjonowanie wielowymiarowe ( skalowanie wielowymiarowe lub MDS) jest zatem metod czynnikow majc zastosowanie do macierzy odlegoci midzy osobami. Ta metoda nie jest czci tego, co zwykle nazywa si analiz danych w stylu francuskim. Ale ma te same cechy, co poprzednie metody: opiera si na obliczeniach macierzowych i nie wymaga hipotez probabilistycznych. Danymi mog by pomiary p zmiennych ilociowych n osobników, w tym przypadku analityk oblicza macierz odlegoci lub bezporednio tabel odlegoci midzy osobami.
W klasycznym tzw. Przypadku metrycznym, miar niepodobiestw jest odlego euklidesowa. Umoliwia przyblienie odmiennoci midzy jednostkami w zredukowanej przestrzeni wymiarowej. W przypadku niemetrycznym dane s porzdkowe, typu rank. Analityka bardziej interesuje kolejno rónic ni ich zakres. Niemetryczny MDS wykorzystuje wskanik niepodobiestwa (równowany odlegoci, ale bez nierównoci trójktnej) i pozwala na przyblienie kolejnoci wpisów w macierzy podobiestw o rzd odlegoci w przestrzeni o zredukowanym wymiarze.
Podobnie jak w PCA, konieczne jest okrelenie liczby wymiarów przestrzeni docelowej, a jako odwzorowania mierzona jest stosunkiem sumy bezwadnoci zredukowanej wymiarowo podprzestrzeni do cakowitej bezwadnoci. W rzeczywistoci metryka MDS jest równowana PCA, w której obiektami analizy MDS byyby jednostki PCA. W przeciwnym przykadzie miasta byyby osobami z PCA, a pozycjonowanie GPS zastpioby odlegoci midzy miastami. Jednak MDS Analysis rozszerza PCA, poniewa moe wykorzystywa funkcje podobiestwa / niepodobiestwa mniej restrykcyjne ni odlegoci.
Dziki wielowymiarowemu pozycjonowaniu, wizualizacja macierzy odmiennoci, analiza wzorców i wizualne wykonanie podziau na dane lub macierze odmiennoci to atwe do wykonania operacje.
Analiza wieloczynnikowa (MFA) jest dedykowana tabelom, w których zbiór jednostek jest opisywany przez kilka grup zmiennych, niezalenie od tego, czy s to zmienne ilociowe, jakociowe czy mieszane. Ta metoda jest mniej znana ni poprzednie, ale jej bardzo duy potencja w zastosowaniu zasuguje na szczególne wyrónienie.
We wszystkich tych przykadach warto wzi pod uwag, w samej analizie, a nie tylko w interpretacji, struktur zmiennych w grupach. Oto, co robi AFM, co:
Metody te, opracowane niedawno, s mniej znane ni poprzednie.
Klasyfikacja jednostek jest domen automatycznej klasyfikacji i analizy dyskryminacyjnej. Klasyfikacja polega na definiowaniu klas, klasyfikacja to operacja pozwalajca na umieszczenie obiektu w zdefiniowanej wczeniej klasie. Automatyczna klasyfikacja jest znana jako eksploracja danych ( eksploracja danych ) nienadzorowanej klasyfikacji, analiza dyskryminacyjna to jedna z technik statystycznych znana jako nazwa klastra eksploracji danych.
Celem automatycznej klasyfikacji jest podzielenie wszystkich badanych danych na jeden lub wicej podzbiorów zwanych klasami, przy czym kady podzbiór musi by jak najbardziej jednorodny. Czonkowie jednej klasy s bardziej podobni do innych czonków tej samej klasy ni czonkowie innej klasy. Mona wyróni dwa rodzaje klasyfikacji: z jednej strony klasyfikacja (partycjonowanie lub nakadanie si) paska, z drugiej hierarchiczna partycjonowanie. W obu przypadkach klasyfikacja kwot polega na wyborze miary podobiestwa / niepodobiestwa, kryterium jednorodnoci, algorytmu, a niekiedy szeregu klas tworzcych podzia.
Podobiestwo (podobiestwo / niepodobiestwo) osób jest mierzone za pomoc wskanika podobiestwa, wskanika niepodobiestwa lub odlegoci. Na przykad w przypadku danych binarnych czsto stosuje si indeksy podobiestwa, takie jak indeks Jaccarda, indeks Dice'a, indeks zgodnoci lub indeks Tanimoto . W przypadku danych ilociowych najbardziej odpowiednia jest odlego euklidesowa , ale czasami przyjmuje si odlego Mahalanobisa . Dane s albo macierzami p zmiennych jakociowych lub ilociowych mierzonych dla n osobników lub bezporednio danymi dotyczcymi odlegoci lub danych o odmiennoci.
Kryterium jednorodnoci klas jest generalnie wyraane przez przektn midzyklasowej lub wewntrzklasowej macierzy wariancji-kowariancji (bezwadnoci). To kryterium umoliwia zbieno algorytmów dynamicznej realokacji, które minimalizuj bezwadno wewntrzklasow lub maksymalizuj bezwadno midzyklasow.
Gównymi algorytmy uywaj dynamicznego realokacji stosujc metod BW Forgy z orodków komórkowych lub jeden z jego wariantów: z k-rednich metod , z cloud metody dynamicznej lub PAM ( Podzia Okoo Medoids (PAM) ).
Do budowy klasyfikacji wykorzystuje si równie metody oparte na metodzie Condorceta , algorytmie maksymalizacji oczekiwa , gstoci.
Nie ma lepszej klasyfikacji ni inne, zwaszcza gdy liczba klas w partycji nie jest z góry okrelona. Dlatego musimy mierzy jako klasyfikacji i i na kompromisy. Jako klasyfikacji mona mierzy za pomoc wskanika bdcego stosunkiem bezwadnoci midzyklasowej do bezwadnoci cakowitej, obliczonego dla kilku wartoci z ogólnej liczby klas, kompromis uzyskuje si metod okcia.
Interpretacj zaj, umoliwiajc zrozumienie partytury, mona przeprowadzi na podstawie analizy poszczególnych osób tworzcych poszczególne zajcia. Statystyk moe policzy osobniki w kadej klasie, obliczy rednic klas - czyli maksymaln odlego midzy osobnikami w kadej klasie. Potrafi zidentyfikowa osoby znajdujce si blisko rodka cikoci, ustali podzia midzy dwiema klasami - operacja polegajca na pomiarze minimalnej odlegoci midzy dwoma czonkami tych klas. Potrafi równie analizowa zmienne, na przykad obliczajc czstotliwo pewnych wartoci zmiennych przyjmowanych przez osoby z kadej klasy lub charakteryzujc klasy za pomoc pewnych wartoci zmiennych przyjmowanych przez indywidua z kadej klasy.
Dane wejciowe hierarchicznej klasyfikacji rosncej (HAC) s prezentowane w postaci tabeli odmiennoci lub tabeli odlegoci midzy osobami.
Najpierw musielimy wybra odlego (euklidesowa, Manhattan, Czebyszewa lub inny) lub wskanik podobiestwa (Jacard, Sokal, Sorensen, wspóczynnik korelacji liniowej lub inny).
Klasyfikacja rosnca proponuje klasyfikacj osób za pomoc algorytmu iteracyjnego. Na kadym kroku algorytm tworzy partycj poprzez agregacj dwóch klas partycji uzyskanej w poprzednim kroku.
Kryterium wyboru dwóch klas zaley od metody agregacji. Najpowszechniej stosowana jest metoda Warda, polegajca na agregacji dwóch klas, które najmniej obniaj bezwadno midzyklasow. Istniej inne wskaniki agregacji, takie jak minimalny skok ( poczenie pojedyncze ), w którym agregowane s dwie partycje, dla których dwa elementy - pierwszy nalecy do pierwszej klasy, drugi do drugiej - s najbliej odlegoci. lub rednica ( pene poczenie ), dla której dwie klasy, które maj by agregowane, to te, które maj najbardziej odleg par elementów.
Algorytm oddolny koczy si, gdy pozostaa tylko jedna klasa.
Jako klasyfikacji mierzy si stosunkiem bezwadnoci midzyklasowej do cakowitej bezwadnoci.
Strategie mieszane, czce klasyfikacj pask z klasyfikacj hierarchiczn, maj pewne zalety. Przeprowadzenie ACH na jednorodnych klasach uzyskanych w wyniku klasyfikacji metod dynamicznej realokacji umoliwia przetwarzanie duych tabel liczcych kilka tysicy osób, co nie jest moliwe w przypadku samego ACH. Przeprowadzenie ACH po pobraniu próbek i analizie czynnikowej pozwala na uzyskanie jednorodnych klas w zakresie pobierania próbek.
Dyskryminacyjna analiza czynnikowa (DFA), która jest opisow czci analizy dyskryminacyjnej, jest równie znana jako liniowa analiza dyskryminacyjna, analiza dyskryminacyjna Fishera i kanoniczna analiza dyskryminacyjna. Ta technika projektuje predefiniowane klasy na planach silniowych, które w jak najwikszym stopniu dyskryminuj. Tabela danych opisuje n osób, na których mierzono p zmiennych ilociowych i zmienn jakociow z modalnociami q. Zmienna jakociowa umoliwia zdefiniowanie klas q oraz grupowanie jednostek w tych klasach. AFD proponuje znale zmienne q-1, zwane zmiennymi dyskryminacyjnymi, których osie najbardziej oddzielaj rzuty q klas przecinajcych chmur punktów.
Podobnie jak we wszystkich opisowych analizach czynnikowych, nie poczyniono wczeniej adnych zaoe statystycznych; tylko w prognostycznej czci analizy dyskryminacyjnej przyjmuje si zaoenia a priori .
Pomiar jakoci dyskryminacji jest wykonywany przy uyciu metody Wilksa, która jest równa stosunkowi wyznacznika macierzy wewntrzklasy wariancja-kowariancja do wyznaczenia cakowitej macierzy wariancji-kowariancji. Saby Wilks wskazuje na siln dyskryminacji ze czynnikowych. Na przykad w danych Iris jest to 0,0234 dla pierwszych dwóch czynników. Co wicej, jeli pierwsza warto wasna jest bliska 1, AFD ma jako.
Korelacja midzy zmiennymi a czynnikami umoliwia ich interpretacj.
AFD to PCA przeprowadzane na rodkach barycentrum klas osobników utworzonych przy uyciu modalnoci zmiennej jakociowej. Jest to równie analiza kanoniczna midzy grup zmiennych ilociowych a grup skadajc si z rozcznej tabeli zmiennej jakociowej.
Opierajc si na tym, co pisz Henry Rouanet i jego wspóautorzy, opisowa analiza danych i analiza predykcyjna mog si uzupenia i czasami dawa podobne wyniki.
Podejcie PLS jest bardziej predykcyjn ni opisowy, ale zwizki z niektórymi analizami, e wanie widzielimy zostay jasno ustalone.
Algorytm Hermana Wolda , nazwany najpierw NILES ( Estymacja nieliniowa przez iteracyjne najmniejsze kwadraty ), a nastpnie NIPALS ( Estymacja nieliniowa przez iteracyjne czciowe najmniejsze kwadraty ) zosta najpierw zaprojektowany do analizy komponentów. Main .
Ponadto PLS umoliwia znalezienie analizy kanonicznej z dwoma blokami zmiennych, midzybaterii analizy Tuckera, analizy redundancji i uogólnionej analizy kanonicznej w sensie Carrolla. Praktyka pokazuje, e algorytm PLS zbiega si w kierunku pierwszych wartoci wasnych w przypadku analizy midzybaterii Tuckera, analizy kanonicznej z dwoma blokami zmiennych i analizy redundancji.
Principal Components regresji (PCR) z uyciem PCR, aby zmniejszy liczb zmiennych, zastpujc je z gównych elementów, które maj t zalet, e nie s skorelowane. PLS i PCR s czsto porównywane w literaturze.
Wspomniano ju wczeniej w tym artykule, analiza kanoniczna jest równowana regresji liniowej, gdy jedna z dwóch grup redukuje si do jednej zmiennej.
Nowoczesnej analizy danych nie mona oddzieli od korzystania z komputerów; mona przytoczy wiele programów umoliwiajcych wykorzystanie metod analizy danych przedstawionych w tym artykule. SPSS , Statistica , HyperCube , SAS i CORICO zapewniaj kompletne moduy do analizy danych; Oprogramowanie R równie z bibliotekami takimi jak FactoMineR, Ade4 lub MASS; Braincube, rozwizanie do analizy duych zbiorów danych dla przemysu.
Mamy nadzieję, że informacje, które zgromadziliśmy na temat Analiza danych, były dla Ciebie przydatne. Jeśli tak, nie zapomnij polecić nas swoim przyjaciołom i rodzinie oraz pamiętaj, że zawsze możesz się z nami skontaktować, jeśli będziesz nas potrzebować. Jeśli mimo naszych starań uznasz, że informacje podane na temat _title nie są całkowicie poprawne lub że powinniśmy coś dodać lub poprawić, będziemy wdzięczni za poinformowanie nas o tym. Dostarczanie najlepszych i najbardziej wyczerpujących informacji na temat Analiza danych i każdego innego tematu jest istotą tej strony internetowej; kierujemy się tym samym duchem, który inspirował twórców Encyclopedia Project, i z tego powodu mamy nadzieję, że to, co znalazłeś o Analiza danych na tej stronie pomogło Ci poszerzyć swoją wiedzę.