Co to jest Data Mining?
Eksploracja danych wykorzystuje stosunkowo dużą moc obliczeniową działającą na dużym zestawie danych w celu ustalenia prawidłowości i połączeń między punktami danych. Algorytmy wykorzystujące techniki ze statystyk, uczenia maszynowego i rozpoznawania wzorców są używane do automatycznego wyszukiwania dużych baz danych. Eksploracja danych jest również znana jako Odkrycie wiedzy w bazach danych (KDD).
Podobnie jak termin sztuczna inteligencja , eksploracja danych jest terminem parasolowym, który można zastosować do szeregu różnych działań. W świecie korporacyjnym eksploracja danych jest najczęściej wykorzystywana do określania kierunku trendów i przewidywania przyszłości. Służy do budowania modeli i systemów wspomagania decyzji, które dają ludziom informacje, z których mogą korzystać. Eksploracja danych odgrywa kluczową rolę w walce z terroryzmem. Podobno wykorzystano go do ustalenia lidera ataków z 11 września.
Eksperci danych to statystycy, którzy stosują techniki o nazwach takich jak modele bliskiego sąsiedztwa , k-średnie grupowanie , metoda wstrzymywania , walidacja krotności k-krotności , metoda pomijania i tak dalej. Techniki regresji są stosowane do odejmowania nieistotnych wzorców, pozostawiając jedynie przydatne informacje. Termin Bayesian jest często spotykany w terenie, odnosząc się do klasy technik wnioskowania, które przewidują prawdopodobieństwo przyszłych zdarzeń poprzez połączenie wcześniejszych prawdopodobieństw i prawdopodobieństw opartych na zdarzeniach warunkowych. Filtrowanie spamu jest prawdopodobnie formą eksploracji danych, która automatycznie wysyła na powierzchnię odpowiednie wiadomości z chaotycznego morza prób phishingu i ataków Viagry.
Drzewa decyzyjne służą do filtrowania gór danych. W drzewie decyzyjnym wszystkie dane przechodzą przez węzeł wejściowy, gdzie napotyka filtr, który dzieli dane na strumienie w zależności od jego cech. Na przykład dane dotyczące zachowań konsumentów mogą być filtrowane na podstawie czynników demograficznych. Eksploracja danych nie polega przede wszystkim na fantazyjnych grafach i technikach wizualizacji, ale wykorzystuje je, aby pokazać, co znalazła. Wiadomo, że możemy wchłonąć więcej informacji statystycznych wizualnie niż ustnie, a ten format prezentacji może być bardzo przekonujący i potężny, jeśli zostanie użyty we właściwym kontekście.
W miarę jak nasza cywilizacja staje się coraz bardziej nasycona danymi, a czujniki są masowo rozmieszczone w naszych lokalnych środowiskach, przypadkowo odkryjemy rzeczy, które mogą zostać pominięte przy pierwszym przejściu. Eksploracja danych pozwoli nam skorygować te błędy i odkryć nowe spostrzeżenia na podstawie danych z przeszłości, co da nam więcej mocy w zakresie gromadzenia danych.