Eksploracja danych



Informacje, które udało nam się zgromadzić na temat Eksploracja danych, zostały starannie sprawdzone i uporządkowane, aby były jak najbardziej przydatne. Prawdopodobnie trafiłeś tutaj, aby dowiedzieć się więcej na temat Eksploracja danych. W Internecie łatwo zgubić się w gąszczu stron, które mówią o Eksploracja danych, a jednocześnie nie podają tego, co chcemy wiedzieć o Eksploracja danych. Mamy nadzieję, że dasz nam znać w komentarzach, czy podoba Ci się to, co przeczytałeś o Eksploracja danych poniżej. Jeśli informacje o Eksploracja danych, które podajemy, nie są tym, czego szukałeś, daj nam znać, abyśmy mogli codziennie ulepszać tę stronę.

.

Eksploracji danych , znany równie jako wyraz eksploracji danych , eksploracji danych , eksploracji danych , data mining , lub wydobywania wiedzy z danych , odnosi si do ekstrakcji wiedzy lub wiedzy z duymi ilociami danych , poprzez automatyczne lub pó- metody automatyczne.

Proponuje wykorzystanie zestawu algorytmów z rónych dyscyplin naukowych, takich jak statystyka , sztuczna inteligencja czy informatyka , do budowania modeli z danych , czyli wyszukiwania interesujcych struktur lub wzorców wedug z góry ustalonych kryteriów oraz do wydobywania jak najwicej wiedzy .

Przemysowe lub operacyjne wykorzystanie tej wiedzy w wiecie zawodowym umoliwia rozwizywanie rónorodnych problemów, od zarzdzania relacjami z klientami po konserwacj prewencyjn, w tym wykrywanie oszustw i optymalizacj strony internetowej . Tak te dziaa dziennikarstwo oparte na danych .

Eksploracji danych wynika w eskalacji eksploracji danych biznes, biznes inteligencji . Pozwala to zaobserwowa fakt, taki jak obrót , i wyjani go jako spadek obrotów wedug produktu, a eksploracja danych pozwala sklasyfikowa fakty i w pewnym stopniu je przewidzie lub wyjani. poprzez ujawnienie, na przykad, zmiennych lub parametrów, które mogyby umoliwi zrozumienie, dlaczego obroty w jednym punkcie sprzeday s wysze ni w innym.

Historia

Generowanie modeli na podstawie duej iloci danych nie jest nowym zjawiskiem. Aby powsta model, musi istnie zbieranie danych. W Chinach przypisujemy mitycznemu cesarzowi Yao ch identyfikacji upraw w 2238 roku pne. OGOSZENIE; w Egipcie faraon Amazis zorganizowania spisu ludnoci w V th  wiecznym  BC. AD Dopiero w XVII -tego  wieku, e moemy zacz analizowa dane szuka wspólnych cech. W 1662 roku John Graunt opublikowa swoj ksik   Naturalne i polityczne obserwacje na podstawie rachunków miertelnoci  , w której analizowa miertelno w Londynie i próbowa przewidzie pojawienie si dumy dymieniczej. W 1763 roku Thomas Bayes pokazuje, e moemy okreli nie tylko prawdopodobiestwa na podstawie obserwacji wynikajcych z eksperymentu, ale take parametry odnoszce si do tych prawdopodobiestw. Przedstawiony w szczególnym przypadku rozkadu dwumianowego wynik ten jest niezalenie rozszerzany przez Laplace'a , prowadzc do ogólnego sformuowania twierdzenia Bayesa . Legendre opublikowa w 1805 r. Esej na temat metody najmniejszych kwadratów, który umoliwia porównanie zbioru danych z modelem matematycznym. Jednak kosztowne obliczenia rczne nie pozwalaj na stosowanie tych metod poza niewielk liczb prostych i pouczajcych przypadków.

Od 1919 do 1925 roku Ronald Fisher opracowa analiz wariancji jako narzdzie swojego projektu wnioskowania statystycznego . W latach pidziesitych XX wieku na tych maszynach pojawiy si wci drogie komputery i techniki oblicze wsadowych. Jednoczenie pojawiaj si metody i techniki, takie jak segmentacja , klasyfikacja (m.in. metod chmur dynamicznych ), pierwsza wersja przyszych sieci neuronowych, zwana Perceptron , oraz niektóre samo-ewoluujce algorytmy, które póniej zostan nazwane genetycznymi . XX wieku pojawiy si drzewa decyzyjne i metoda centrum mobilnego ; techniki te pozwalaj badaczom wykorzystywa i odkrywa coraz dokadniejsze modele. W Francji , Jean-Paul Benzécri opracowana analiza korespondencji w 1962 roku . Pozostajemy jednak w perspektywie przetwarzania wsadowego .

W 1969 roku ukazaa si praca Myrona Tribus Rational opisujca, decyzje i projekty uogólniajca metody bayesowskie w automatycznym obliczaniu (profesor w Dartmouth uywa do logicznie jzyka BASIC , który powsta kilka lat wczeniej i jego interaktywnoci ). Tumaczenie francuskie stao si dostpne w 1973 r. Pod nazw Rational Decyzje Niepewne . Wan ide pracy jest wzmianka o twierdzeniu Coxa-Jaynesa pokazujcym, e jakiekolwiek pozyskanie modelu odbywa si zgodnie z reguami Bayesa (z wyjtkiem homomorfizmu ) lub prowadzi do niespójnoci. Innym jest to, e sporód wszystkich rozkadów prawdopodobiestwa speniajcych obserwacje (ich liczba jest nieskoczona), konieczne jest wybranie takiego, który zawiera najmniej arbitralnoci (a wic najmniej dodanej informacji , a tym samym maksymalnej entropii . proste, cyfrowe tumaczenie stanu wiedzy, pozbawione konotacji czstej, wreszcie popularyzujce notacj prawdopodobiestw w decybelach, co czyni regu Bayesa addytywn i pozwala w unikalny sposób kwantyfikowa dostarczenie obserwacji w decybelach obecnie niezalene renderowanie rónych szacunków poprzedzajcych precedens (patrz wnioskowanie bayesowskie ).

Stopniowe pojawienie si mikrokomputerów uatwia uogólnienie metod bayesowskich bez obciania kosztami. Stymuluje to badania, a analizy bayesowskie staj si generalizowane, zwaszcza e Tribus wykaza ich zbieno, w miar postpu obserwacji, w kierunku wyników klasycznych statystyk, jednoczenie umoliwiajc udoskonalanie wiedzy w czasie bez koniecznoci uzyskania tych samych czasów akwizycji (patrz take Plan eksperymentalny ) .

Zaczyna si wtedy uwalnianie od klasycznego protokou statystycznego: nie trzeba ju stawia hipotezy i weryfikowa jej a posteriori . Wrcz przeciwnie, oszacowania bayesowskie same skonstruuj te hipotezy w miar gromadzenia si obserwacji.

Wyraenie   eksploracja danych   miao we wczesnych latach 60. konotacj pejoratywn, wyraajc pogard statystyków dla podej do bada korelacyjnych bez stawiania hipotez [ref. konieczne] . Zostao zapomniane, a Rakesh Agrawal uywa go ponownie w latach 80. XX wieku, kiedy rozpocz badania nad bazami danych o objtoci 1  MB . Wedug Pala i Jaina koncepcja eksploracji danych pojawia si po raz pierwszy na konferencjach IJCAI w 1989 roku . Gregory Piatetsky-Shapiro szuka nazwy dla tej nowej koncepcji pod koniec lat 80. w GTE Laboratories .   Data mining   objty ochron praw autorskich uy okrelenia   Odkrywanie wiedzy w bazach danych   (KDD).

Nastpnie, w latach 90., pojawiy si techniki uczenia maszynowego , takie jak maszyny SVM w 1998 r. , Które uzupeniy narzdzia analityka.

Na pocztku XXI th  century, firmy takie jak Amazon.com wykorzystuje wszystkie te narzdzia, aby zaoferowa swoim klientom produkty, które mog ich zainteresowa.

Zastosowania przemysowe

Wedug celów

Obecnie techniki eksploracji danych mog by wykorzystywane w zupenie innych dziedzinach o bardzo specyficznych celach. Firmy wysykowe wykorzystuj t technik do analizy zachowa konsumentów w celu zidentyfikowania podobiestw w zachowaniu, przyznawania kart lojalnociowych lub tworzenia list produktów, które maj by oferowane do dodatkowej sprzeday (sprzeda krzyowa).

Direct mail ( mailing ) uywane na poszukiwanie nowych klientów ma redni szybko reakcji 10%. Firmy marketingowe wykorzystuj eksploracj danych w celu obnienia kosztów pozyskania nowego klienta poprzez ranking potencjalnych klientów wedug kryteriów, które pozwalaj im zwikszy odsetek odpowiedzi na wysane kwestionariusze.

Te same firmy, ale take inne, takie jak banki, operatorzy telefonii komórkowej lub ubezpieczyciele, poszukuj eksploracji danych w celu zminimalizowania strat (lub rezygnacji ) swoich klientów, poniewa koszt utrzymania klienta jest mniej wany ni pozyskanie nowego.

Suby policyjne we wszystkich krajach staraj si scharakteryzowa przestpstwa (odpowiedz na pytanie: Co to jest normalne przestpstwo) Oraz zachowanie przestpców (odpowiedz na pytanie: normalne zachowanie przestpcze) W celu zapobiegania przestpstwom oraz ograniczy ryzyko i zagroenia dla ludnoci.

Punktacji od klientów banków jest obecnie dobrze znane, to sprawia, e moliwa do zidentyfikowania dobrych klientów, bez ryzyka czynników ( ocena od klienta ryzyka ), do których organizacje finansowe, banki, firmy ubezpieczeniowe, etc., mog zaoferowa cen. Dostosowane i atrakcyjne produkty, przy jednoczesnym ograniczeniu ryzyka braku zwrotu lub braku zapaty, a nawet utraty w przypadku ubezpieczenia.

W call center uy tej techniki do poprawy jakoci usug i umoliwi odpowiedni reakcj operatora dla satysfakcji klienta.

W poszukiwaniu ludzkiego genomu wykorzystano techniki eksploracji danych w celu odkrycia genów i ich funkcji.

Mona znale inne przykady z innych dziedzin, ale teraz moemy zauway, e wszystkie te zastosowania pozwalaj scharakteryzowa zoone zjawisko (zachowanie czowieka, ekspresja genu), aby lepiej je zrozumie, aby ograniczy badania. lub koszty operacyjne zwizane z tym zjawiskiem lub w celu poprawy jakoci procesów zwizanych z tym zjawiskiem.

Wedug sektora biznesowego

Brana zdaa sobie spraw ze znaczenia dziedzictwa, jakie stanowi jej dane, i stara si je wykorzysta, korzystajc z wywiadu gospodarczego i eksploracji danych. Najbardziej zaawansowane firmy w tej dziedzinie znajduj si w sektorze usug . Wedug strony kdnuggets.com, rozkad wykorzystania eksploracji danych wedug sektorów dziaalnoci w Stanach Zjednoczonych jako odsetek wszystkich odpowiedzi udzielonych w ankiecie w 2010 roku wyglda nastpujco:

Brane i dziedziny, w których wykorzystuje si eksploracj danych (%).
Analiza CRM / konsumpcji
  26.8
Bank
  19.2
Zdrowie, zasoby ludzkie
  13.1
Wykrywanie oszustw
  12.7   11.3   11.3
  10.8   10.3   10.3
  9.9   9.9
Sie
  8.9
Medyczny
  8.0   8.0   8.0
Rating kredytowy
  8.0
  7.0
  6.6
  6.6
Rzd, wojsko
  6.1

Badania i think tanki

Jak wida na powyszym histogramie, brana jest bardzo zainteresowana tematem, szczególnie w zakresie standardów i interoperacyjnoci, które uatwiaj korzystanie z narzdzi informatycznych rónych wydawców. Ponadto przedsibiorstwa, edukacja i badania w znacznym stopniu przyczyniy si do ewolucji i ulepszenia (na przykad pod wzgldem rygoru) metod i modeli; artyku opublikowany w 2008 roku przez International Journal of Information Technology and Decision Making podsumowuje badanie, które ledzi i analizuje t ewolucj. Niektórzy gracze przeszli z bada naukowych do przemysu.

Uniwersytety takie jak Konstanz w Niemczech , Dortmund w Pónocnej Karolinie w Stanach Zjednoczonych , Waikato w Nowej Zelandii i Université Lumière Lyon 2 we Francji przeprowadziy badania w celu znalezienia nowych algorytmów i udoskonalenia starszych [niewystarczajce ródo] . Opracowali równie oprogramowanie umoliwiajce ich studentom, nauczycielom i badaczom postp w tej dziedzinie, umoliwiajc w ten sposób przemysowi czerpanie korzyci z ich postpów.

Z drugiej strony powstao wiele grup i stowarzysze midzybranowych, aby zastanawia si i wspiera rozwój eksploracji danych. Pierwsz z tych grup zawodowych w tej dziedzinie jest grupa interesów Stowarzyszenia Maszyn Obliczeniowych w zakresie zarzdzania wiedz i eksploracji danych - SIGKDD . Od 1989 roku organizuje coroczn midzynarodow konferencj i publikuje nowe wyniki, przemylenia i osignicia swoich czonków. W zwizku z tym od 1999 r. Organizacja ta publikuje póroczny przegld zatytuowany   SIGKDD Explorations   .

Organizowane s inne konferencje dotyczce eksploracji danych i informatyki, na przykad:

  • DMIN - Midzynarodowa konferencja nt. Eksploracji danych
  • DMKD - Zagadnienia badawcze dotyczce eksploracji danych i odkrywania wiedzy
  • ECML-PKDD - Europejska konferencja nt. Uczenia maszynowego oraz zasad i praktyki odkrywania wiedzy w bazach danych
  • ICDM - IEEE International Conference on Data Mining
  • MLDM - Machine Learning and Data Mining in Pattern Recognition
  • SDM - Midzynarodowa Konferencja SIAM powicona eksploracji danych
  • EDM - Midzynarodowa konferencja powicona eksploracji danych edukacyjnych
  • ECDM - European Conference on Data Mining
  • PAKDD - doroczna konferencja Pacyfik-Azja na temat odkrywania wiedzy i eksploracji danych

Te przekonujce finansowo badania i wyniki zobowizuj zespoy specjalizujce si w eksploracji danych do metodycznej pracy w ramach ustrukturyzowanych projektów.

Projekty, metody i procesy

Z czasem pojawiy si dobre praktyki majce na celu popraw jakoci projektów. Wród nich metodologie pomagaj zespoom organizowa projekty w procesy. Do najczciej stosowanych metod naley metodologia SEMMA opracowana przez SAS Institute oraz CRISP-DM, która jest najczciej stosowan metod w latach 2010.

Metoda CRISP-DM

Metoda CRISP-DM dzieli proces eksploracji danych na sze etapów, umoliwiajc ustrukturyzowanie techniki i zakotwiczenie jej w procesie przemysowym. To co wicej ni ustandaryzowana teoria, to proces wydobywania wiedzy biznesowej.

Najpierw musisz zrozumie zadanie, które zadaje analitykowi pytanie, sformalizowa problem, który organizacja stara si rozwiza w odniesieniu do danych, zrozumie problemy, zna kryteria powodzenia projektu i opracowa wstpny plan osignicia tego celu .

Wtedy analityk potrzebuje odpowiednich danych. Gdy tylko zespó projektowy bdzie wiedzia, co robi, musi uda si na poszukiwanie danych, tekstów i caego materiau, który pozwoli mu odpowiedzie na problem. Nastpnie musi oceni jako, odkry pierwsze widoczne wzorce, aby postawi hipotezy dotyczce ukrytych modeli.

Dane zebrane przez zespó projektowy s niejednorodne . Musz by przygotowane zgodnie z zastosowanymi algorytmami, usuwajc wartoci odstajce lub skrajne, uzupeniajc dane niewypenione rednio lub metod K najbliszych ssiadów , usuwajc duplikaty, zmienne niezmienne i te posiadanie zbyt wielu brakujcych wartoci lub na przykad dyskretyzacja zmiennych, jeli wymaga tego algorytm, który ma by zastosowany, jak ma to miejsce na przykad w przypadku analizy wielu korelacji ACM, analizy dyskryminacyjnej DISQUAL lub metody Condorceta .

Gdy dane s gotowe, musisz je zbada. Modelowanie grupuje klasy zada, które mog by uywane samodzielnie lub w poczeniu z innymi do celów opisowych lub predykcyjnych.

Segmentacja jest zadaniem odkrycia grup i struktur danych, które s w jaki sposób podobny, bez uycia struktur znane a priori w danych. Klasyfikacja jest zadaniem znane konstrukcje generalizacji i zastosowa je do nowych danych.

Regresji próbuje znale funkcji modelowania danych cigych, czyli powiedzie, nie dyskretna, z najniszym poziomem bdu w celu przewidywania przyszych wartoci. Stowarzyszenie szuka zwizku midzy pozycjami. Na przykad supermarket moe gromadzi dane o zwyczajach zakupowych swoich klientów. Korzystajc z regu asocjacji, supermarket moe okreli, które produkty s czsto kupowane razem, a tym samym wykorzysta t wiedz do celów marketingowych . W literaturze technika ta jest czsto okrelana jako analiza koszyka gospodarstwa domowego.

Jest to zatem kwestia oceny uzyskanych wyników wedug kryteriów sukcesu handlu i oceny samego procesu w celu ujawnienia luk i zaniedbanych etapów. W rezultacie naley podj decyzj o wdroeniu lub powtórzeniu procesu, poprawiajc to, co poszo le lub czego nie zrobiono.

Potem nastpuje faza realizacji i zakoczenie oceny projektu. Opracowywane s plany kontroli i konserwacji oraz sporzdzane jest sprawozdanie kocowe z projektu. Aby wdroy model predykcyjny , uywany jest jzyk PMML oparty na XML . Suy do opisu wszystkich cech modelu i przesyania go do innych aplikacji kompatybilnych z PMML.

Inne metody

SEMMA

Metodologia SEMMA ( Sample then Explore, Modify, Model, Assess for Sampling, then Explore, Modify, Model, Evaluate), wynaleziona przez SAS Institute , koncentruje si na technicznych dziaaniach eksploracji danych. Chocia SAS jest przedstawiany jako tylko logiczna organizacja narzdzi SAS Enterprise Mining , SEMMA moe suy do organizowania procesu eksploracji danych niezalenie od uywanego oprogramowania.

Six Sigma (DMAIC)

Six Sigma ( DMAIC to akronim charakteryzujcy metod w nastpujcy sposób: Definiuj, mierz, analizuj, ulepszaj, kontroluj dla definiuj, mierz, analizuj, ulepszaj, kontroluj) to ustrukturyzowana, zorientowana na dane metodologia, której celem jest eliminacja defektów, zwolnie i wszelkiego rodzaju problemów z kontrol jakoci w obszarach produkcji, wiadczenia usug, zarzdzania i innej dziaalnoci gospodarczej. Eksploracja danych to obszar, w którym mona zastosowa ten przewodnik metodologiczny. [ref. niezbdny]

Niezdarno, której naley unika

Najczstsze puapki napotykane przez dowiadczonych i niedowiadczonych eksploratorów danych zostay opisane przez Roberta Nisbeta, Johna Eldera i Gary'ego Minera w ich Podrczniku analizy statystycznej i zastosowa eksploracji danych .

Pierwsza to niewaciwe pytanie. Co prowadzi do szukania w zym miejscu. Aby odpowied bya uyteczna, naley poprawnie zada pierwsze pytanie.

Nastpnie zadowala si niewielk iloci danych dla zoonego problemu. Musimy mie dane do ich zbadania, a interesujce przypadki dla koparki s rzadkoci, dlatego musimy mie do ich dyspozycji duo danych, aby móc wykona próbki, które maj warto poznawcz i które pozwol przewidzie sytuacji, czyli odpowiedzi na zadane pytanie, dotyczcych danych spoza próby. Dodatkowo, jeli dane nie s dostosowane do zadanego pytania, wykopaliska bd ograniczone: na przykad, jeli dane nie zawieraj zmiennych do przewidzenia, wykopaliska bd ograniczone do opisu, a analityk bdzie móg tylko podzieli dane w spójne podzbiory ( grupowanie ) lub znajd najlepsze wymiary, które oddaj zmienno danych.

Próbka, która umoliwia uczenie si, musi by starannie skonstruowana, a nie pobierana lekko. Uczenie si umoliwia zbudowanie modelu z jednej lub wikszej liczby próbek. Uruchomienie narzdzia eksploracji danych do momentu, gdy model zwróci 100% poszukiwanych przypadków, sprowadza si do skupienia si na szczegóach i odwrócenia si od niezbdnej generalizacji, która umoliwia zastosowanie modelu do danych poza prób. Istniej techniki pozwalajce unikn nadmiernego lub nadmiernego dopasowania . S to metody ponownego próbkowania, takie jak bootstrap , jackknife lub cross validation .

Czasami pojedyncza technika (drzewo decyzyjne, sieci neuronowe ...) nie wystarcza do uzyskania modelu, który daje dobre wyniki dla wszystkich danych. Jedno z rozwiza w tym przypadku skadaoby si z zestawu narzdzi, z których mona by korzysta jedno po drugim i porównywa wyniki na tych samych danych lub te ujednolica mocne strony kadej metody poprzez nauk lub czenie wyników.

Wane jest, aby umieci dane i wyniki wykopalisk w odpowiednim kontekcie, a nie skupia si na danych, w przeciwnym razie mog wystpi bdy interpretacyjne, a take stracony czas i pienidze.

Wyeliminowanie a priori wyników, które wydaj si absurdalne w porównaniu z oczekiwanymi, moe by ródem bdów, poniewa by moe to wanie te wyniki daj odpowied na postawione pytanie.

Niemoliwe jest wykorzystanie i zinterpretowanie wyników modelu poza ramami, w których zosta zbudowany. Interpretowanie wyników w oparciu o inne podobne, ale róne przypadki równie jest ródem bdów, ale nie jest to jedyne w przypadku rozumowania eksploracji danych. Wreszcie ekstrapolacja wyników uzyskanych w przestrzeniach niskowymiarowych w przestrzeniach o duych wymiarach moe równie prowadzi do bdów.

Dwa cytaty z George'a Boxa : Wszystkie modele s bdne, ale niektóre s przydatne i Statystycy s jak artyci, zakochuj si w swoich modelach, z humorem ilustruj, e czasami niektórzy analitycy zajmujcy si eksploracj danych musz wierzy w swój model i wierzy e model, nad którym pracuj, jest najlepszy. Korzystanie z zestawu modeli i interpretowanie rozkadu wyników jest znacznie bezpieczniejsze.

Plan

W projekcie eksploracji danych wane jest, aby wiedzie, co jest wane, a co nie, co wymaga czasu, a co nie; co nie zawsze si pokrywa.

Oszacowanie czasu, jaki naley powici na róne etapy
Zadania Opata Znaczenie
w projekcie
Inwentaryzacja, przygotowanie i eksploracja danych 38% 3
Rozwój - Walidacja modeli 25% 2
Przywrócenie wyników 12% 4
Analiza pierwszych testów 10% 3
Definicja celów 8% 1
Dokumentacja - prezentacje 7% 5

Sercem eksploracji danych jest modelowanie: cae przygotowanie odbywa si zgodnie z modelem, który zamierza stworzy analityk, wykonywane zadania, a nastpnie walidacja wybranego modelu, uzupenienie go i wdroenie. Najpowaniejszym zadaniem w modelowaniu jest okrelenie algorytmu (ów), które stworz oczekiwany model. Istotne jest zatem pytanie o kryteria, które pozwalaj wybra ten lub te algorytmy.

Algorytmy

Rozwizywanie problemu za pomoc procesu eksploracji danych zwykle wymaga uycia wielu rónych metod i algorytmów, które s mniej lub bardziej atwe do zrozumienia i uycia. Istniej dwie gówne rodziny algorytmów: metody opisowe i metody predykcyjne.

Metody opisowe

Definicja

Metody opisowe organizuj, upraszczaj i pomagaj zrozumie informacje lece u podstaw duego zestawu danych.

Umoliwiaj prac na zbiorze danych zorganizowanych w instancje zmiennych, w których adna ze zmiennych objaniajcych jednostki nie ma szczególnego znaczenia w stosunku do innych. S one wykorzystywane na przykad do identyfikacji, z zestawu osób, jednorodnych grup w typologii, do budowania standardów zachowa, a tym samym odstpstw od tych standardów, takich jak wykrywanie nowych lub nieznanych oszustw zwizanych z kartami bankowymi. Lub ubezpieczenie , w celu kompresji informacji lub kompresja obrazu itp.

Przykady

Sporód dostpnych technik mona zastosowa te pochodzce ze statystyk. S pogrupowane pod pojciem analizy czynnikowe , metody statystyczne, które pozwalaj zidentyfikowa ukryte zmienne w zestawie miar; te ukryte zmienne nazywane s czynnikami. W analizach czynnikowych zakadamy, e jeli dane s od siebie zalene, to dlatego, e s powizane z czynnikami, które s dla nich wspólne. Zaleta czynników polega na tym, e niewielka liczba czynników wyjania dane prawie tak samo dobrze, jak zbiór zmiennych, co jest przydatne w przypadku duej liczby zmiennych. Czynnik techniczny rozkadaj przede wszystkim analiz gównych komponentów , niezalen analiz skadowych , analiza korespondencji , wielokrotnej analizy korespondencji i skalowania wielowymiarowego .

Aby utrwali pomysy, analiza gównych skadowych dopasowuje zmienne ilociowe opisujce osoby, czynniki i gówne komponenty w taki sposób, aby utrata informacji bya minimalna. Rzeczywicie, komponenty s zorganizowane w kolejnoci rosncej utraty informacji, przy czym pierwszy traci najmniej. Komponenty nie s ze sob skorelowane liniowo, a jednostki s rzutowane na osie zdefiniowane przez czynniki, przy zachowaniu odlegoci, jaka istnieje midzy nimi. Podobiestwa i rónice wyjaniaj czynniki.

Analiza czynnikowa korespondencji i MCA odpowiadaj zmiennym jakociowym opisujcym cechy osób, czynnikom wykorzystujcym tabel kontyngencji , czy te tabeli Burta w przypadku MCA, w taki sposób, e czynniki te tworz zmienne liczbowe najlepiej rozdzielajce wartoci pocztkowe zmienne jakociowe, e dwie osoby s bliskie, jeli maj z grubsza takie same wartoci zmiennych jakociowych, i e wartoci dwóch zmiennych jakociowych s bliskie, jeli posiadaj je praktycznie te same jednostki.

Moemy równie korzysta z metod zrodzonych w rodowisku sztucznej inteligencji, a szczególnie w uczeniu maszynowym . Klasyfikacja nienadzorowana to rodzina metod, które umoliwiaj grupowanie jednostek w klasy, których cech charakterystyczn jest to, e jednostki z tej samej klasy s do siebie podobne, podczas gdy te z dwóch rónych klas s niepodobne. Klasy klasyfikacji nie s wczeniej znane, s odkrywane w procesie. Ogólnie rzecz biorc, metody klasyfikacji su do tworzenia jednorodnych danych, które nie s jednorodne a priori, a tym samym umoliwiaj przetwarzanie kadej klasy za pomoc algorytmów wraliwych na wartoci odstajce. Z tej perspektywy metody klasyfikacji stanowi pierwszy krok w procesie analizy.

Techniki zapoyczone od sztucznej inteligencji wykorzystuj podzia wszystkich informacji, ale take ich odzyskiwanie . Partycjonowanie jest celem algorytmów wykorzystujcych na przykad metody k-rednich (dynamiczne chmury w jzyku francuskim), k-medoidów ( k-medoidy ), k-modów i k-prototypów, których moemy uy do znale wartoci odstajce , sieci Kohonena , które mona równie wykorzysta do klasyfikacji, algorytm EM lub AdaBoost . Klasyfikacja hierarchiczna jest szczególnym przypadkiem, dla których produkty partycjonowania graficzne s atwo zrozumiae. Metody wznoszce zaczynaj si od jednostek, które s agregowane w klasy, podczas gdy metody zstpujce zaczynaj si od caoci i poprzez kolejne podziay docieraj do jednostek tworzcych klasy. Naprzeciwko wykresu klasyfikacji rosncej zosta narysowany, aby pokaza, w jaki sposób najblisze klasy s ze sob poczone, tworzc klasy wyszego poziomu.

Logiki rozmytej nakadania jest form nakadania zbioru jednostek reprezentowanych przez rzdy macierzy, gdy niektóre z nich maj niezerowe prawdopodobiestwa przynalenoci do dwóch rónych klas. Najbardziej znanym algorytmem tego typu jest FCM ( Fuzzy c-mean ).

Naley równie wspomnie o Ikonografii korelacji zwizanych z wykorzystaniem interakcji logicznych , metody geometrycznej, która dobrze nadaje si do analizy zoonych sieci wielu relacji.

W bioinformatyce stosuje si techniki podwójnej klasyfikacji , aby jednoczenie grupowa osobniki i charakteryzujce je zmienne w rónych klasach.

Aby wyjani uyteczno tych metod odzyskiwania, naley pamita, e klasyfikacja jest problemem, którego wielk zoono zdefiniowa Eric Bell . Liczba partycji z zestawem obiektów jest równa: . Dlatego lepiej jest mie wydajne i szybkie metody znajdowania partycji, która odpowiada na postawiony problem, ni przechodzi przez wszystkie moliwe rozwizania.

Wreszcie, gdy analiza nie koncentruje si na osobach, przedmiotach lub przedmiotach, ale na relacjach, które istniej midzy nimi, poszukiwanie regu asocjacyjnych jest odpowiednim narzdziem. Ta technika bya pierwotnie uywana do analizy koszyka zakupów lub analizy sekwencji. W tym przypadku umoliwia zorientowanie si, które produkty s kupowane jednoczenie, na przykad w supermarkecie, przez bardzo du liczb klientów; jest równie stosowany do rozwizywania problemów z analiz cieek nawigacji w witrynie internetowej. Wyszukiwanie regu asocjacyjnych moe odbywa si w sposób nadzorowany; priori , GRI , Carma ARD sposób lub nawet algorytmy PageRank uyciu tej techniki.

Metody predykcyjne

Definicja

Celem metod predykcyjnych jest wyjanienie lub przewidywanie jednego lub wikszej liczby obserwowalnych i skutecznie mierzonych zjawisk. Konkretnie, bd zainteresowani jedn lub kilkoma zmiennymi zdefiniowanymi jako cele analizy. Na przykad ocena prawdopodobiestwa zakupu przez osob fizyczn jednego produktu w porównaniu z innym, prawdopodobiestwo odpowiedzi na operacj marketingu bezporedniego , prawdopodobiestwo zaraenia si konkretn chorob, wyleczenia, szanse, e osoba, która odwiedzia jak stron w serwisie, wróci to zazwyczaj cele, które mona osign metodami predykcyjnymi.

W predykcyjnej eksploracji danych istniej dwa rodzaje operacji: dyskryminacja lub ranking oraz regresja lub przewidywanie, wszystko zaley od rodzaju zmiennej, która ma by wyjaniona. Dyskryminacja dotyczy zmiennych jakociowych, podczas gdy regresja dotyczy zmiennych cigych.

Metody klasyfikacji i predykcji umoliwiaj rozdzielenie jednostek na kilka klas. Jeli klasa jest wczeniej znana, a operacja klasyfikacyjna polega na przeanalizowaniu cech jednostek w celu umieszczenia ich w klasie, to o metodzie mówi si, e jest nadzorowana. W przeciwnym razie mówimy o metodach nienadzorowanych, a sownictwo to pochodzi z uczenia maszynowego . Rónica midzy opisowymi metodami klasyfikacji, które widzielimy wczeniej, a predykcyjnymi metodami klasyfikacji wynika z faktu, e ich cel jest inny: pierwsza redukcja, podsumowanie, synteza danych daje janiejszy obraz danych. 'klastry danych, podczas gdy druga wyjania jedn lub wicej zmiennych docelowych, aby przewidzie wartoci tych celów dla nowoprzybyych.

Przykady

Moemy odwoa si do kilku przykadów metod predykcyjnych i przedstawi je zgodnie z dziedzin, z której pochodz.

Wród sposobów pochodzcych ze sztucznej inteligencji, analityk mona uy drzewa decyzyjne , czasami do przewidywania, czasem dyskretyzacji dane ilociowe, rozumowanie poszczególnych przypadków , sieci neuronowych , promieniowe oparte neuronów klasyfikacji i zbliania funkcji, lub moe algorytmów genetycznych , niektórzy wspieraj sieci bayesowskie, inni lubi Timeweaver w poszukiwaniu rzadkich zdarze .

Jeli analityk jest bardziej skonny do korzystania z metod pochodzcych ze statystyki i prawdopodobiestwa, zwróci si do technik regresji liniowej lub nieliniowej w szerokim znaczeniu, aby znale funkcj aproksymacyjn, analiz dyskryminacyjn Fishera , regresj logistyczn i regresj logistyczn PLS w celu przewidzenia zmiennej jakociowej. lub uogólniony model liniowy (GLM), uogólniony model addytywny (GAM) lub log-liniowy model oraz postulowane i nie postulowane modele regresji wielowymiarowej do przewidywania zmiennej wielowymiarowej.

Jeli chodzi o wnioskowanie bayesowskie, a dokadniej sieci bayesowskie , mog one by przydatne dla analityka, jeli szuka on przyczyn zjawiska lub prawdopodobiestwa wystpienia zdarzenia.

Jeli chce uzupeni brakujce dane, ma do dyspozycji metod k najbliszych ssiadów (K-nn) .

Krzywa wzrostu oceniajca wydajno losowego modelu lasu na danych kifozy.
Krzywe ROC porównujce skuteczno klasyfikacji piciu modeli uczenia maszynowego na danych dotyczcych raka piersi .

Lista algorytmów ewoluuje kadego dnia, poniewa nie wszystkie su temu samemu celowi, nie maj zastosowania do tych samych danych wejciowych i aden nie jest optymalny we wszystkich przypadkach. Ponadto w praktyce okazuj si komplementarne, a czc je inteligentnie, budujc modele modeli lub metamodeli , mona uzyska bardzo znaczcy wzrost wydajnoci i jakoci. ICDM-IEEE sporzdzi w 2006 roku ranking 10 algorytmów majcych najwikszy wpyw na wiat eksploracji danych: ranking ten jest skuteczn pomoc w wyborze i zrozumieniu tych algorytmów.

Na Uniwersytecie Stanforda w sezonie jesiennym 2007 r. Oba zespoy rywalizuj o nastpujcy projekt: opierajc si na filmach bazowych ogldanych przez kadego klienta sieci dystrybucyjnej, której abonamenty s opacane kart magnetyczn, okreli najbardziej prawdopodobn publiczno filmu, który by widzianym. Jeden zespó skupi si na wyszukiwaniu niezwykle dokadnych algorytmów z informacji w bazie danych, inny wrcz przeciwnie, wybra niezwykle proste algorytmy, ale poczy baz danych dostarczon przez dystrybutora z zawartoci Internetowej Bazy Filmowej (IMDB) w celu wzbogacenia jego informacje. Drugi zespó uzyska znacznie dokadniejsze wyniki. Jeden z artykuów sugeruje, e wydajno Google wynika nie tyle z algorytmu PageRank , jak z bardzo duej iloci informacji, które Google moe skorelowa, porównujc historie zapyta i analizujc zachowanie uytkowników w rónych witrynach.

Dziki nowoczesnym metodom obliczeniowym jedno lub drugie z tych dwóch rozwiza mona rozway w kadym projekcie, ale pojawiy si inne techniki, które dowiody swojej skutecznoci w poprawianiu jakoci modeli i ich wydajnoci.

Jako i wydajno

Model jakoci to szybki model, którego poziom bdów powinien by jak najniszy. Nie moe by wraliwy na wahania próby w odniesieniu do nadzorowanych metod, musi by solidny i wytrzymywa powolne zmiany danych. Ponadto bycie prostym, zrozumiaym i dajcym atwe do interpretacji wyniki zwiksza jego warto. Wreszcie mona go skonfigurowa tak, aby by wielokrotnego uytku.

Do oceny jakoci modelu wykorzystuje si kilka wskaników, a wród nich krzywe ROC i krzywe podnoszenia , indeks Giniego i pierwiastek bdu redniokwadratowego pokazuj, gdzie znajduje si prognoza w odniesieniu do rzeczywistoci, a tym samym daj dobre wyobraenie o wartoci tego skadnika jakoci modelu.

Solidno i precyzja to dwa inne aspekty jakoci modelu. Aby uzyska efektywny model, technika polega na ograniczeniu niejednorodnoci danych, optymalizacji doboru próby lub czeniu modeli.

Segmentacja wstpna proponuje klasyfikacj populacji, nastpnie zbudowanie modelu na kadej z klas, w której dane s bardziej jednorodne, i wreszcie zagregowanie wyników.

W przypadku agregacji modeli analityk stosuje ten sam model do nieco innych próbek z oryginalnej próbki, a nastpnie kojarzy wyniki. Pakowanie i pobudzanie byy najbardziej skuteczne i najbardziej popularne w 1999 roku w marketingu, na przykad, podwyki algorytm zastosowania Bagging technik grup produkuj modelu identyfikacji osób, które mog odpowiada na oferty handlowej po akwizycji.

Wreszcie poczenie modeli prowadzi analityka do zastosowania kilku modeli do tej samej populacji i poczenia wyników. Techniki takie jak na przykad analiza dyskryminacyjna i sieci neuronowe mona atwo czy.

Narzdzia informatyczne

Oprogramowanie

Eksploracja danych nie istniaaby bez narzdzi. Oferta IT jest obecna w postaci oprogramowania, a take na niektórych specjalistycznych platformach. Wiele programów jest obecnych w sferze oprogramowania komercyjnego , ale jest te troch w sferze oprogramowania wolnego . Nie ma oprogramowania lepszego od innych, wszystko zaley od tego, co chcesz z nim zrobi. Oprogramowanie komercyjne jest bardziej przeznaczone dla firm lub organizacji posiadajcych due iloci danych do zbadania, podczas gdy wolne oprogramowanie jest przeznaczone w szczególnoci dla studentów, tych, którzy chc eksperymentowa z nowymi technikami, oraz MP. W 2009 roku najczciej uywanymi narzdziami byy w kolejnoci SPSS , RapidMiner  (en) , SAS , Excel , R , KXEN  (en) , Weka , Matlab , KNIME , Microsoft SQL Server , Oracle DM  (en) , STATISTICA i CORICO ( Ikonografia korelacji ). W 2010 roku R by najczciej uywanym narzdziem wród uytkowników, którzy odpowiedzieli na ankiet Rexer Analytics, a STATISTICA okazaa si by preferowanym narzdziem wikszoci poszukiwaczy danych (18%). STATISTICA , IBM SPSS Modeler i R uzyskay najwysze oceny satysfakcji zarówno w 2010, jak i 2009 w ankiecie Rexer Analytics .

Chmura obliczeniowa

Chmury obliczeniowej ( cloud computing ) nie jest narzdziem eksploracji danych, ale zestaw usug internetowych, dostarczane przez dostawców za porednictwem Internetu, aby pomieci i / lub wykorzystania danych i oprogramowania. Niemniej jednak istniej usugi, które mona wykorzysta w dziedzinie eksploracji danych. Eksploracja danych Oracle jest dostpna w IaaS firmy Amazon, oferujc klientom obraz maszyny Amazon zawierajcy baz danych Oracle, w tym interfejs HMI do eksploracji danych; obraz dla jzyków R i Python jest równie dostpny w Amazon Web Services . Podmioty dziaajce wycznie w chmurze i wyspecjalizowane w dziedzinie data mining oferuj swoje usugi m.in. Braincube , In2Cloud , Predixion i Cloud9Analytics .

Ograniczenia i problemy

Eksploracja danych to technika, która ma swoje ograniczenia i stwarza pewne problemy.

Limity

Oprogramowanie nie jest samowystarczalne. Narzdzia do eksploracji danych nie oferuj interpretacji wyników, analityk specjalizujcy si w eksploracji danych i osoba znajca zawód, z którego dane s pozyskiwane, s niezbdni do analizy produktów oprogramowania.

Ponadto oprogramowanie do eksploracji danych zawsze daje wynik, ale nic nie wskazuje na to, e jest on istotny, ani nie wskazuje na jego jako. Jednak coraz wicej technik wspomagajcych ocen jest wdraanych w oprogramowaniu bezpatnym lub komercyjnym.

Relacje midzy zmiennymi nie s jasno okrelone. Narzdzia do eksploracji danych wskazuj, e takie a takie zmienne maj wpyw na wyjanian zmienn, ale nie mówi nic o rodzaju zwizku, w szczególnoci nie mówi si, czy s to zwizki przyczynowo-skutkowe .

Ponadto wyrane odtworzenie wyników analizy za pomoc wykresów, krzywych lub histogramów moe by bardzo trudne. Technik nie bdcy technikiem bdzie czasami mia trudnoci ze zrozumieniem udzielonych mu odpowiedzi.

Problemy

Ponadto dla frankofona, neofity sownictwo jest trudnoci, a nawet problemem. Aby to sobie uwiadomi, warto sprecyzowa sownictwo wystpujce w literaturze francuskiej i anglosaskiej. Przyjmujc sownictwo anglosaskie jako odniesienie, klastrowanie jest rozumiane w eksploracji danych jako segmentacja, w statystykach i analizie danych jako klasyfikacja. Klasyfikacji w jzyku angielskim odpowiada klasyfikacji w eksploracji danych, analizy dyskryminacyjnej lub klasyfikacji w analizie danych w stylu francuskim i problemu decyzyjnego w statystykach. Wreszcie drzewa decyzyjne s drzewami decyzyjnymi w eksploracji danych i moemy usysze o segmentacji w tym przypadku w dziedzinie analizy danych. Terminologia jest niejasna. [ref. niezbdny]

Jako danych , to znaczy trafnoci i kompletnoci danych jest koniecznoci dla eksploracji danych, ale nie wystarczajco. Bdy przy wprowadzaniu danych, zduplikowane rekordy, puste dane lub dane bez odniesienia do czasu równie wpywaj na jako danych. Firmy wdraaj struktury i procedury zapewniania jakoci danych, aby móc skutecznie reagowa na nowe regulacje zewntrzne i audyty wewntrzne oraz zwiksza rentowno swoich danych, które uwaaj za cz ich dziedzictwa.

Interoperacyjno systemu jest jego zdolno do wspópracy z innymi systemami stworzonych przez rónych producentów. Systemy eksploracji danych musz by w stanie pracowa z danymi z wielu systemów zarzdzania bazami danych , typami plików, typami danych i rónymi czujnikami. Ponadto interoperacyjno wymaga jakoci danych. Pomimo wysików brany w zakresie interoperacyjnoci wydaje si, e w niektórych obszarach nie jest to regu.

Dane zbierane s w celu udzielenia odpowiedzi na pytanie zadane przez zawód. Ryzyko eksploracji danych polega na wykorzystaniu tych danych do celów innych ni pierwotnie wyznaczony. Przechwytywanie danych jest odpowiednikiem cytowania z kontekstu. Ponadto moe to prowadzi do problemów etycznych.

Prywatno osób moe by zagroone przez wyszukiwanie danych projektów, jeli nie zostan podjte rodki ostronoci, w szczególnoci w poszukiwaniu sieci i wykorzystania danych osobowych zebranych na zdrowie w Internecie lub zakupowe zwyczaje, preferencje, a nawet ludzie mog by naraeni. Innym przykadem jest Biuro wiadomoci Informacji, aw szczególnoci program Total Information Awareness (TIA), który w peni wykorzystywa technologi eksploracji danych i by jednym z projektów po 11 wrzenia ,   które Kongres Stanów Zjednoczonych i Stanów Zjednoczonych rozpocz finansowa. , ale potem porzuci go z powodu szczególnie powanych zagroe, jakie ten program stanowi dla prywatnoci obywateli amerykaskich. Ale nawet bez ujawnione dane osobowe zebrane przez firmy, poprzez zarzdzanie relacjami z klientem (CRM) narzdzia , kas fiskalnych , bankomatów , kart zdrowiaetc. moe prowadzi, za pomoc technik eksploracji danych, do klasyfikowania ludzi w hierarchi grup, od dobrych do zych, potencjalnych klientów, pacjentów lub jakiejkolwiek roli, jak odgrywamy w danym momencie w yciu spoecznym , wedug kryteriów nieznanych ludziom sami. Z tej perspektywy i aby naprawi ten negatywny aspekt, Rakesh Agrawal i Ramakrishnan Sikrant kwestionuj wykonalno eksploracji danych, która chroniaby prywatno ludzi. Innym problemem jest przechowywanie danych niezbdnych do wykopalisk, poniewa dane cyfrowe mog zosta zhakowane . W tym przypadku rozerwanie danych w rozproszonych bazach danych i kryptografii jest czci istniejcych odpowiedzi technicznych, które mog zosta wprowadzone przez firmy.

Wyszukiwania specjalistyczne

Niektóre firmy lub grupy wyspecjalizoway si, na przykad Acxiom , Experian Information Solutions , D & B i Harte-Hanks w zakresie danych dotyczcych zuycia lub Nielsen NV w przypadku danych dotyczcych odbiorców.

Oprócz eksploracji danych (opisanych powyej) mona je okreli jako klasyczne, techniczne specjalizacje eksploracji danych, takie jak wyszukiwanie obrazów ( eksploracja obrazów ), eksploracja sieciowa ( eksploracja danych internetowych ), eksploracja strumienia danych ( eksploracja strumienia danych ) i eksploracja tekstu ( eksploracja tekstów ) rozwijaj si w 2010 roku i zwróciy uwag wielu badaczy i przedstawicieli przemysu, w tym na ryzyko zwizane z rozpowszechnianiem danych osobowych , którymi kieruj ludzie.

Firmy te uywaj oprogramowania do kategoryzowania osób wedug ich pochodzenia spoecznego i charakterystyki konsumentów (np. Claritas Prizm (stworzone przez Claritas Inc. i nabyte przez Nielsen Company) .

Wedug typów danych

Wydobycie dwiku , nowsze techniki, czasem zwizane z eksploracji danych, mona wykrywa dwiki w strumieniu audio. Jest stosowany gównie w dziedzinie rozpoznawania gosu i / lub jest na nim oparty.

Obraz wyszukiwania to technika, która jest zainteresowana treci obrazu. Wyodrbnia cechy z zestawu obrazów, na przykad z sieci, aby je sklasyfikowa, pogrupowa wedug typu lub rozpozna ksztaty na obrazie w celu wyszukania kopii tego obrazu lub na przykad wykrycia okrelonego obiektu .

Górnictwo tekst jest rozpoznawanie tekstów w celu wydobycia wysokiej jakoci wiedzy. Ta technika jest czsto nazywana anglicyzmem eksploracji tekstu . Jest to zbiór przetwarzania komputerowego polegajcy na wydobywaniu wiedzy wedug kryterium nowoci lub podobiestwa z tekstów tworzonych przez czowieka dla czowieka. W praktyce sprowadza si to do wprowadzenia do algorytmów uproszczonego modelu teorii lingwistycznych w komputerowych systemach uczenia si i statystyki. Dyscypliny te obejmuj zatem lingwistyk komputerow , inynieri jzykow , uczenie maszynowe , statystyk i informatyk .

Wedug rodowisk technicznych

Chodzi o wykorzystywanie, wraz z eksploracj sieci , olbrzymiego róda danych, które stanowi sie, oraz znajdowanie modeli i wzorców uytkowania, zawartoci i struktury sieci. Wykopywanie informacji o korzystaniu z sieci ( eksploracja wykorzystania sieci lub eksploracja dzienników internetowych ) to przydatny proces wyodrbniania informacji przechowywanych w dziennikach serwera. Ta eksploracja wykorzystuje eksploracj tekstu do analizy dokumentów tekstowych. Eksploracja struktury sieci to proces analizy nieznanych a priori relacji midzy dokumentami lub stronami przechowywanymi w sieci.

Wydobycie strumie danych ( strumie danych wydobycie ) jest technik odkrywania danych przybywajce cigym strumieniem, bez ogranicze, z du szybkoci, a niektóre podstawy zmienia si w czasie, na przykad, analizy strumieni danych emitowanego przez czujniki samochodowych. Ale przykady zastosowa mona znale w dziedzinie telekomunikacji, zarzdzania sieci, zarzdzania rynkiem finansowym, nadzoru, a take w obszarach codziennych czynnoci yciowych, bliej ludzi, takich jak analiza przepywów w bankomatach , transakcje kartami kredytowymi  itp.

Wedug dziedzin dziaalnoci

Przestrzenny eksploracji danych ( Spatial Data Mining ) jest badanie techniczne dane geograficzne na naszej skali na Ziemi, ale take astronomiczny lub mikroskopowe , którego celem jest znalezienie interesujcych wzorców w danych zawierajcych zarówno tekst danych czasowych lub dane geometryczne, takie jak wektory , ramki lub wykresy. Dane przestrzenne dostarczaj informacji w rónej skali, dostarczanych za pomoc rónych technik, w rónych formatach, przez czsto dugi okres czasu do obserwacji zmian. Wolumeny s zatem bardzo due, dane mog by niedoskonae i zaszumione. Ponadto relacje midzy danymi przestrzennymi s czsto ukryte: ustaw , topologiczna , kierunkowe i relacje metryczne s czsto spotykane w tej specjalnoci. Eksploracja danych przestrzennych jest zatem szczególnie trudna.

Przestrzenne eksploracji danych suy do odkrywania nauki ziemia danych, dane mapowe przestpstwa, danych spisowych , ruchu drogowego , nowotworowych ognisk ,  etc.

W przyszoci

Przyszo eksploracji danych zaley od przyszoci danych cyfrowych. Wraz z pojawieniem si Web 2.0 , blogów , wiki i usug w chmurze nastpi gwatowny wzrost iloci danych cyfrowych, a zatem zoa surowców do eksploracji danych s znaczce.

Wiele dziedzin nadal w niewielkim stopniu wykorzystuje eksploracj danych do wasnych potrzeb. Analiza danych z blogosfery jest wci na wczesnym etapie. Zrozumienie ekologii informacji, aby na przykad przeanalizowa, jak dziaaj media internetowe, dopiero si zaczyna.

Dopóki problemy zwizane z prywatnoci osób zostan rozwizane, eksploracja danych moe pomóc w odpowiedzi na pytania z dziedziny medycyny, w szczególnoci w zapobieganiu zagroeniom szpitalnym.

Nie sigajc tak daleko, jak science fiction Raportu mniejszoci , techniki profilowania bez a priori s moliwe dziki eksploracji danych, co moe stwarza nowe problemy etyczne. Film dokumentalny BBC Horizon podsumowuje niektóre z tych pyta.

Wreszcie, wraz z pojawieniem si nowych danych i nowych dziedzin, techniki nadal si rozwijaj.

Uwagi i odniesienia

Uwagi

  1. Termin zalecany w Kanadzie przez OQLF , a we Francji przez DGLFLF ( Dziennik Urzdowy z dnia 27 lutego 2003 r.) I FranceTerme
  2. idc za tym samym przykadem, pozwala odpowiedzie na pytanie: Jaki moe by obrót w cigu miesica "
  3. . Rozkady te s atwe do obliczenia i znajdujemy wród nich prawa ju szeroko stosowane (prawo normalne, ujemny rozkad wykadniczy, prawa Zipfa i Mandelbrota) metodami niezwizanymi z tymi, które je ustanowiy. Test zdatnoci rozkadu do modelu "testu psi" obliczenia entropii resztkowej jest asymptotycznie równowany prawu ² .
  4. zobacz w tym dokumencie wysiki w zakresie standaryzacji i interoperacyjnoci poczynione przez bran (w) Arati kadav Aya Kawale i Pabitra Mitra,   Data Mining Standards   [PDF] na datamininggrid.org (dostp: 13 maja 2011 )
  5. Na przykad program do zarzdzania poczt e-mail moe próbowa zaklasyfikowa wiadomo e-mail jako wiarygodn wiadomo e-mail lub jako spam . Powszechnie uywane algorytmy obejmuj drzewa decyzyjne , najbliszych ssiadów , klasyfikacj Bayesa naiwnego , sieci neuronowe i separatory z szerokimi marginesami (SVM)
  6. Niektóre z nich mona opisa tutaj: Guillaume Calas,   Badania gównych algorytmów eksploracji danych   [PDF] , na guillaume.calas.free.fr ,(dostp 14 maja 2011 )
  7. Podobnie jak CART , CHAID , ECHAID , QUEST , C5 , C4.5 i lasy drzew decyzyjnych
  8. Takich jak perceptrony jedno- lub wielowarstwowe z lub bez wstecznej propagacji bdów
  9. Takich jak regresja liniowa , wielokrotna liniowa , logistyczna , PLS , ANOVA , MANOVA , ANCOVA lub MANCOVA .
  10. Zobacz sownik eksploracji danych, aby zapozna si z definicj niezawodnoci i precyzji.
  11. IaaS, czyli infrastruktura jako usuga o nazwie Amazon Elastic Compute Cloud w Amazon
  12. Poniewa modele eksploracji danych dotycz danych zagregowanych, z których usuwa si dane osobowe.
  13. Wedug Tima Finina, Anupama Joshiego, Pranama Kolari, Akshay Java, Anubhav Kale i Amita Karandikara,   Ekologia informacyjna mediów spoecznociowych i spoecznoci internetowych  , na aisl.umbc.edu (dostp 19 czerwca 2011 ) .

Ksiki specjalistyczne

  1. Tufféry 2010 , s.  506
  2. Nisbet, osoby starsze i Miner 2009 , str.  733
  3. Tufféry 2010 , s.  44
  4. Tufféry 2010 , s.  161
  5. Tufféry 2010 , s.  198
  6. Tufféry 2010 , s.  244
  7. Tufféry 2010 , s.  297
  8. Nisbet, Elder and Miner 2009 , s.  235
  9. Tufféry 2010 , s.  518
  10. Tufféry 2010 , s.  121
  11. Tufféry 2010 , s.  158
  12. Kargupta i in. 2009 , s.  283
  13. Kargupta i in. 2009 , s.  357
  14. Kargupta i in. 2009 , s.  420
  15. Kargupta i in. 2009 , s.  471
  16. Kargupta i in. 2009 , s.  1-281

Inne referencje

  1.   Definicja eksploracji danych Data Mining  
  2. "Workshop Etalab z dnia 13 padziernika 2011 roku: Datajournalisme" ( 4 th Pracowni Etalab, 70 uczestników 13 padziernika 2011), z filmami online obejrzano 08 padziernik 2013.
  3. (w) Kurt Thearling,   An Introduction to Data Mining   na thearling.com (dostp 2 maja 2011 ) .
  4. Jean-Claude Oriol, A history approach to statistics  " [PDF] , na statistix.fr (dostp 12 maja 2011 )
  5. (w) Myron Tribus, Racjonalne opisy, decyzje i projekty ,, 478,  str. ( czytaj online ).
  6. (w) Nikhil Pal i Lakhmi Jain , zaawansowani technicznie w odkrywaniu wiedzy i eksploracji danych , Springer,, 254  pkt. ( ISBN  978-1-85233-867-1 )
  7. (w) Carole Albouy,   Once upon a time ... data mining   na lafouillededonnees.blogspirit.com (dostp 23 padziernika 2011 )
  8. (w) Patricia Cerrito, A Data Mining Applications Area in the Department of Mathematics  " [PDF] na math.louisville.edu (dostp: 31 maja 2011 )
  9. (w) Maryann Lawlor,   Smart Companies Dig Data   na afcea.org (dostp: 31 maja 2011 )
  10. Christine Frodeau,   Data mining, Consumer Behaviour Prediction Tool   [PDF] , na creg.ac-versailles.fr (dostp 12 maja 2011 )
  11. (w) Colleen McCue , Data Mining and Predictive Analysis: gromadzenie danych wywiadowczych i analiza przestpczoci , Amsterdam / Boston, Elsevier,, 313  str. ( ISBN  978-0-7506-7796-7 )
  12. Frank Audet and Malcolm Moore,   Quality Improvement in a Call Center   [PDF] , na stronie jmp.com (dostp 12 maja 2011 )
  13. (w) Henry Abarbanel, Curtis Callan, William Dally, Freeman Dyson , Terence Hwa, Steven Koonin, Herbert Levine, Oscar Rothaus Roy Schwitters, Christopher Stubbs i Peter Weinberger,   Data mining and the human genome   [PDF] na fas. org (dostp 12.05.2011 ) , s.  7
  14. (in)   Brane / pola dla analityki / eksploracji danych w 2010 r.   Na kdnuggets.com ,(dostp 12 maja 2011 )
  15. (w) Yi Peng , Gang Kou , Yong Shi i Zhengxin Chen ,   Opisowe ramy dla dziedziny eksploracji danych i odkrywania wiedzy   , International Journal of Information Technology and Decision Making , tom.  7, n O  4,, s.  639 do 682 (10,1142 / S0219622008003204)
  16. (w)   SIGKDD  : Official Website   na sigkdd.org (dostp 13 maja 2011 )
  17. (w)   ACM SIGKDD: Conferences   na kdd.org (dostp 13 maja 2011 )
  18. (w) ACM, New York ,   SIGKDD Explorations   na kdd.org (dostp 13 maja 2011 )
  19. (w)   5th (2009)   , na dmin-2009.com (dostp 13 maja 2011 )
  20. (w)   4th (2008)   , na dmin-2008.com (dostp 13 maja 2011 )
  21. (w)   3rd (2007)   , na dmin-2007.com (dostp 13 maja 2011 )
  22. (in) 2 of (2006)  " , na dmin-2006.com (dostp 13 maja 2011 )
  23. (w)   1st (2005)   , na informatik.uni-trier.de (dostp 13 maja 2011 )
  24. (w)   ICDM  : Official Website   na cs.uvm.edu (dostp 13 maja 2011 )
  25. (in)   Midzynarodowa konferencja IEEE nt. Eksploracji danych   na informatik.uni-trier.de (dostp 13 maja 2011 )
  26. (w)   ICDM09, Miami, FL   na cs.umbc.edu (dostp 13 maja 2011 )
  27. (w)   ICDM08, Piza (Wochy)   na icdm08.isti.cnr.it (dostp 13 maja 2011 )
  28. (w)   ICDM07, Omaha, NE   na ist.unomaha.edu (dostp 13 maja 2011 )
  29. (w)   ICDM06, Hong Kong   na stronie comp.hkbu.edu.hk (dostp 13 maja 2011 )
  30. (w)   ICDM05, Houston, TX   na cacs.ull.edu (dostp 13 maja 2011 )
  31. (w)   ICDM04, Brighton (UK)   na icdm04.cs.uni-dortmund.de (dostp 13 maja 2011 )
  32. (w) ICDM01, San Jose, CA.  » , Na cs.uvm.edu (dostp 13 maja 2011 )
  33. (en)   CRoss Industry Standard Process for Data Mining  : Process Model   , na crisp-dm.org ,(dostp 14 maja 2011 )
  34. (w) Usama Fayyad, Gregory Piatetsky-Shapiro i Padhraic Smyth,   From Data Mining to Knowledge Discovery in Databases   [PDF] na kdnuggets.com ,(dostp 14 maja 2011 )
  35. (w)   STATISTICA, Statistics Glossary, Models for Data Mining   na statsoft.com (dostp 13 maja 2011 )
  36. (w)   SAS SEMMA   na sas.com (dostp 13 maja 2011 )
  37. (w) Ana Azevedo i Manuel Filipe Santos ,   KDD SEMMA and CRISP-DM: a parallel overview   [PDF] , IADIS,( ISBN  978-972-8924-63-8 , dostp 14 maja 2011 ) ,s.  184
  38. isixsigma,   What Is Six Sigma  » , W witrynie isixsigma.com (dostp 15 maja 2011 r. )
  39. StatSoft,   Six Sigma DMAIC  , na statsoft.com (dostp 15 maja 2011 )
  40. (w)   Six Sigma on line   , Aveta Business Institute (dostp 15 maja 2011 )
  41. (in) Co to jest walidacja krzyowa i metoda adowania pocztkowego  » , Na faqs.org (dostp 15 maja 2011 )
  42. (w) Jing Gao Jiawei Han and Wei Fan,   On the Power of Together: Supervised and Unsupervised Methods Reconciled   na ews.uiuc.edu (dostp 15 maja 2011 )
  43. (w) Mary McGlohon,   Data Mining Disasters: a retponement   [PDF] na cs.cmu.edu (dostp: 14 maja 2011 ) , s.  2
  44. (w)   An Introduction to Ensemble Methods   on DRK (dostp: 14 maja 2011 )
  45. (w) Dorian Pyle , Przygotowanie danych do eksploracji danych , Morgan Kaufmann,, 560  pkt. ( ISBN  978-1-55860-529-9 , czytaj online )
  46. (w) Kurt Thearling, ' ' Wprowadzenie do eksploracji danych » , On thearling.com (dostp 14 maja 2011 ) ,s.  17
  47. Stéphane Tufféry,   Techniki opisowe   [PDF] , na data.mining.free.fr ,(dostp 14 maja 2011 ) ,s.  5
  48. Jacques Baillargeon,   Exploratory Factorial Analysis   [PDF] , na uqtr.ca ,(dostp 14 maja 2011 ) ,s.  4
  49. Philippe Besse i Alain Baccini,   Statistical Exploration   [PDF] , na math.univ-toulouse.fr ,(dostp 14 maja 2011 ) ,s.  7 i nastpne.
  50. Alexandre Aupetit,   Sztuczne sieci neuronowe: mae wprowadzenie   , na labo.algo.free.fr ,(dostp 14 maja 2011 )
  51. (w) Nikhil R. Pal, Pal Kuhu James M. Keller i James C. Bezdek,   Fuzzy C-Means Clustering of Incomplete Data   [PDF] na comp.ita.br ,(dostp 14 maja 2011 )
  52. (in)   ICDM Top 10 algorytms in data mining   [PDF] na cs.uvm.edu (dostp: 14 maja 2011 )
  53. (w) Wei-Yin Loh i Shih Yu-Shan,   Metody wyboru podziau dla drzew klasyfikacyjnych   [PDF] na math.ccu.edu.tw ,(dostp 14 maja 2011 )
  54. (w) Leo Breiman ,   Random Forests   [PDF] na springerlink.com ,(dostp 14 maja 2011 )
  55. Ricco Rakotomalala,   Drzewa decyzyjne   [PDF] , na www-rocq.inria.fr ,(dostp 14 maja 2011 )
  56. (w) Simon Haykin , Sieci neuronowe: kompleksowa podstawa , Prentice Hall ,, 842  pkt. ( ISBN  978-0-13-273350-2 )
  57. M. Boukadoum,   Radial Base Neural Networks   [ppt] , na labunix.uqam.ca (dostp 14 maja 2011 )
  58. Jean-Marc Trémeaux,   Algorytmy genetyczne do strukturalnej identyfikacji sieci bayesowskich   [PDF] , na naku.dohcrew.com ,(dostp 14 maja 2011 )
  59. Thomas Vallée i Murat Yldzolu,   Prezentacja algorytmów genetycznych i ich zastosowa w ekonomii   [PDF] , na sc-eco.univ-nantes.fr ,(obejrzano 14 maja 2011 ) ,s.  15
  60. Olivier Parent i Julien Eustache,   Les Réseaux Bayésiens   [PDF] , na liris.cnrs.fr ,(dostp 14 maja 2011 )
  61. Gilles Balmisse,   The Bayesian Networks   [PDF] , na gillesbalmisse.com ,(dostp 14 maja 2011 )
  62. Samos,   The Bayesian Networks   [PDF] , na samos.univ-paris1.fr ,(dostp 14 maja 2011 )
  63.   Aby wyj z niepewnoci, wejd w er sieci bayesowskich   , Bayesia (dostp: 14 maja 2011 )
  64. Valérie Monbet,   Missing data   , na perso.univ-rennes1.fr (dostp 14 maja 2011 ) , s.  27
  65. Didier Durand,   Google PageRank: algorytm bierze pod uwag 200 parametrów!  » , Na media-tech.blogspot.com ,(dostp 14 maja 2011 )
  66. Bertrand Liaudet,   Cours de Data Mining 3: Modelisation Presentation Générale   [PDF] , na bliaudet.free.fr (dostp: 14 maja 2011 )
  67. (w) David Opitz i Richard Macklin,   Popularne metody zespoowe : studium empiryczne   [PDF] na d.umn.edu ,(dostp 14 maja 2011 )
  68. (in)   Software Suites for Data Mining, Analytics and Knowledge Discovery   w KDnuggets (dostp 15 maja 2011 )
  69.   Platforma Datamining dla edytorów wirtualnego wszechwiata   , na marketingvirtuel.fr (dostp 15 maja 2011 )
  70. (w) Dean W. Abbott, Philip I. Matkovsky i John Elder IV,   Midzynarodowa konferencja IEEE 1998 na temat systemów, czowieka i cybernetyki, San Diego, Kalifornia   [PDF] na datamininglab.com ,(dostp 15 maja 2011 )
  71. (in)   Ankieta dotyczca uywanych narzdzi eksploracji danych   na kdnuggets.com ,(dostp 15 maja 2011 )
  72. (w) Rexer Analytics ,   2010 Data Miner Survey   na rexeranalytics.com (dostp: 19 czerwca 2011 )
  73. (w)   Rexer Analytics   , Rexer Analytics (dostp: 19 czerwca 2011 )
  74. Dave Wells,   What's Up with Cloud Analytics  » , W witrynie b-eye-network.com (dostp 2 czerwca 2011 r. )
  75. John Smiley i Bill Hodak,   Oracle Database on Amazon EC2: An Oracle White Paper  , na oracle.com (dostp: 4 czerwca 2011 )
  76. Drew Conway,   Amazon EC2 configuration for Scientific Computing in Python and R  , na kdnuggets.com (dostp: 4 czerwca 2011 )
  77. ipleanware.com
  78.   In2Clouds Solutions   , In2Cloud (dostp: 5 czerwca 2011 )
  79. Predixion,   Cloud Predixion Solutions  , na stronie predixionsoftware.com (dostp: 5 czerwca 2011 )
  80.   Cloud9 Solution Overview   , Cloud9 (dostp 14 czerwca 2011 )
  81. (w) Jeffrey Seifer,   Przesunicie CRS na kongres   [PDF] na biotech.law.lsu.edu ,(dostp 15 maja 2011 )
  82. Laetitia Hardy,   Dlaczego jako danych staje si istotna w firmie  » , On Decideo ,(dostp 15 maja 2011 )
  83. (w) Jeffrey Seifert,   Przesunicie CRS na kongres   [PDF] na biotech.law.lsu.edu ,(dostp 15.05.2011 ) ,s.  27
  84. (w)   International Workshop on Practical Privacy-Preserving Data Mining   on cs.umbc.edu ,(dostp 15 maja 2011 )
  85. (w) Martin Meint and Jan Möller,   Privacy Preserving Data Mining   [PDF] na fidis.net (dostp 15 maja 2011 )
  86. (w) Kirsten Wahlstrom, John F. Roddick, Rick Sarre Vladimir Estivill-Castro i Denise de Vries,   Legal and Technical Issues of Privacy Preservation in Data Mining   na irma-international.org ,(dostp 15 maja 2011 )
  87. (w) Rakesh Agrawal and Ramakrishnan Sikrant ,   Privacy-Preserving Data Mining   [PDF] na cs.utexas.edu (dostp 15 maja 2011 )
  88. (w) Murat Kantarcioglu,   Introduction to Privacy Preserving Distributed Data Mining   [PDF] na wiki.kdubiq.org (dostp 15 maja 2011 )
  89. Patrick Gros,   Wiadomoci z eksploracji obrazów AS i pojawienie si cech semantycznych   [PDF] , na liris.cnrs.fr ,(dostp 15 maja 2011 )
  90. (w) Mohamed Medhat Gaber , Arkady Zaslavsky i Shonali Krishnaswamy,   Data Streams: A Review   [PDF] na sigmod.org ,(dostp 15 maja 2011 )
  91. (w) Chih-Hsiang Li, Ding Ying Chiu Yi-Hung Wu i Arbee LP Chen ,   Mining Frequent items from Data Streams with a Time-Sensitive Sliding Window   [PDF] na siam.org ,(dostp 15 maja 2011 )
  92. (w) Hillol Kargupta, Ruchita Bhargava, Kun Liu, Michael Powers, Patrick Blair , Samuel Bushra James Dull, Kakali Sarkar, Martin Klein, Mitesh Vasa i David Handy,   Vedas: A Mobile and Distributed Data Stream Mining System for Real - Monitorowanie wehikuu czasu   [PDF] , na siam.org ,(dostp 15 maja 2011 )
  93. (in) Spatial Database and Spatial Data Mining Research Group  : Official Website  " on spatial.cs.umn.edu ,(dostp 15 maja 2011 )
  94. (w) Shashi Shekhar i Pusheng Zhang,   Spatial Data Mining: Accomplishments and Research Needs   [PDF] na spatial.cs.umn.edu ,(dostp 15 maja 2011 )
  95.   IDC prognozuje eksplozj iloci danych generowanych na caym wiecie w cigu 10 lat   , na lemagit.fr (dostp: 21 maja 2011 )
  96. (w) Joseph A Bernstein,   Big Idea: Seeing Crime Before It Happens   Patny dostp na discovermagazine.com ,(dostp 23 wrzenia 2020 ) .
  97. (in)   FBI moe wykorzystywa profilowanie w dochodzeniach terrorystycznych   na msnbc.com ,(dostp 23 wrzenia 2020 ) .
  98. The Age of Big Data

Zobacz te

Powizane artykuy

Statystyka

Sztuczna inteligencja

Pomó w podjciu decyzji

Aplikacje

Bibliografia

  • (en) Robert Nisbet , John Elder i Gary Miner , Handbook of Statistical Analysis & Data Mining Applications , Amsterdam / Boston, Academic Press,, 823  pkt. ( ISBN  978-0-12-374765-5 )Dokument uyty do napisania artykuu
  • (en) Hillol Kargupta , Jiawei Han , Philip Yu , Rajeev Motwani i Vipin Kumar , Next Generation of Data Mining , CRC Press,, 3 e  ed. , 605  str. ( ISBN  978-1-4200-8586-0 ) Dokument uyty do napisania artykuu
  • Stéphane Tufféry , Data Mining i statystyki podejmowania decyzji: data intelligence , Pary, wydania Technip,, 705  pkt. ( ISBN  978-2-7108-0946-3 , czytaj online )Dokument uyty do napisania artykuu
  • (en) Phiroz Bhagat , Pattern Recognition inndustry , Amsterdam / Boston / Londyn, Elsevier,, 200  pkt. ( ISBN  978-0-08-044538-0 )
  • (en) (en) Richard O. Duda, Peter E. Hart, David G. Stork, Pattern Classification , Wiley-Interscience,( ISBN  0-471-05669-3 ) [ szczegóy wyda ]
  • (en) Yike Guo i Robert Grossman , High Performance Data Mining: Scaling Algorithms, Applications and Systems , Berlin, Springer,, 112  str. ( ISBN  978-0-7923-7745-0 , czytaj online )
  • (en) Ingo Mierswa, Michael Wurst, Ralf Klinkenberg, Martin Scholz i Tim Euler,   YALE: Rapid Prototyping for Complex Data Mining Tasks   , Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-06) , ACM,, s.  935-940 ( ISBN  1595933395 , DOI  10.1145 / 1150402.1150531 , prezentacja online )
  • Daniel Larose ( trad.  Thierry Vallaud), Od danych do wiedzy: wprowadzenie do eksploracji danych (1Cédérom) , Vuibert,, 223  s. ( ISBN  978-2-7117-4855-6 )
  • René Lefébure i Gilles Venturi , Data Mining: Zarzdzanie relacjami z klientami: dostosowywanie stron internetowych , Eyrolles,, 392,  str. ( ISBN  978-2-212-09176-2 )
  • (en) Pascal Poncelet , Florent Masseglia i Maguelonne Teisseire , Data Mining Patterns: New Methods and Applications , Idea Group Reference,, 307  str. ( ISBN  978-1-59904-162-9 )
  • (en) Pang-Ning Tan , Michael Steinbach i Vipin Kumar , Wprowadzenie do eksploracji danych , Pearson Addison Wesley,, 769  s. ( ISBN  978-0-321-32136-7 i 0-321-32136-7 , OCLC  58729322 )
  • (en) Ian Witten i Eibe Frank , Data Mining: Practical Machine Learning Tools and Techniques , Morgan Kaufmann,, 371,  str. ( ISBN  978-1-55860-552-7 , czytaj online )
  • (en) Stéphane Tufféry , Data Mining and Statistics for Decision Making , John Wiley & Sons,, 716  s. ( ISBN  978-0-470-68829-8 )
  • (en) B. Efron , Annals of Statystyki: metody bootstrap: Kolejny rzut oka na scyzoryk , Instytut Statystyki Matematycznej,( ISSN  0090-5364 )
  • (en) Leo Breiman , Uczenie maszynowe: predyktory pakowania , Kluwer Academic Publishers Hingham,( ISSN  0885-6125 )
Wersja tego artykuu z 13 czerwca 2011 zostaa uznana za   dobry artyku  , co oznacza, e spenia kryteria jakoci dotyczce stylu, przejrzystoci, trafnoci, cytowania róde i jakoci rysunku.

Mamy nadzieję, że informacje, które zgromadziliśmy na temat Eksploracja danych, były dla Ciebie przydatne. Jeśli tak, nie zapomnij polecić nas swoim przyjaciołom i rodzinie oraz pamiętaj, że zawsze możesz się z nami skontaktować, jeśli będziesz nas potrzebować. Jeśli mimo naszych starań uznasz, że informacje podane na temat _title nie są całkowicie poprawne lub że powinniśmy coś dodać lub poprawić, będziemy wdzięczni za poinformowanie nas o tym. Dostarczanie najlepszych i najbardziej wyczerpujących informacji na temat Eksploracja danych i każdego innego tematu jest istotą tej strony internetowej; kierujemy się tym samym duchem, który inspirował twórców Encyclopedia Project, i z tego powodu mamy nadzieję, że to, co znalazłeś o Eksploracja danych na tej stronie pomogło Ci poszerzyć swoją wiedzę.

Opiniones de nuestros usuarios

Albert Mielczarek

Wspaniałe odkrycie tego artykułu na Eksploracja danych i całej stronie. Przechodzi prosto do ulubionych.

Mateusz Strzelecki

Dla takich jak ja szukających informacji na temat Eksploracja danych, jest to bardzo dobra opcja.

Olga Zaremba

Myślałem, że wiem już wszystko o zmiennej, ale w tym artykule zweryfikowałem, że pewne szczegóły, które uważałem za dobre, nie były tak dobre. Dziękuję za informacje.

Violetta Sroka

Ten artykuł o zmiennej Eksploracja danych przykuł moją uwagę. Zastanawia mnie, jak dobrze odmierzone są słowa, to jest jak... eleganckie.