Co to jest klasyfikacja eksploracji danych?
Klasyfikacja eksploracji danych to jeden krok w procesie wydobycia danych. Służy do grupowania elementów na podstawie niektórych kluczowych cech. Istnieje kilka technik stosowanych do klasyfikacji eksploracji danych, w tym klasyfikacja najbliższych sąsiadów, uczenie się drzewa decyzyjnego i maszyny wektorowe wsparcia.
Wydobycie danych to metoda używają naukowcy do wyodrębnienia wzorców z danych. Zasadniczo reprezentatywna próbka jest wybierana z puli danych, a następnie manipulowana i analizowana w celu znalezienia wzorców. Oprócz klasyfikacji eksploracji danych naukowcy mogą również korzystać z klastrowania, regresji i uczenia się reguł w celu analizy danych.
Istnieje kilka algorytmów, które można wykorzystać w klasyfikacji eksploracji danych. Klasyfikacja najbliższego sąsiada jest jednym z najprostszych algorytmów klasyfikacji eksploracji danych. Opiera się na zestawie szkoleniowym. Zestaw szkoleń to zestaw danych używanych do szkolenia komputera do zwracania uwagi na niektóre zmienne. W klasyfikacji najbliższych sąsiadów komputer po prostu CLASsifuje wszystkie dane w ramach grupy zawierającej dane najbliżej wartości wejściowej.
Uczenie się drzewa decyzyjnego wykorzystuje model rozgałęzienia do klasyfikowania danych. Komputer zasadniczo zadaje szereg pytań dotyczących danych. Jeśli odpowiedź na pierwsze pytanie jest prawdą, zadaje pytanie 2a. Jeśli odpowiedź jest fałszywa, zadaje pytanie 2b. Po wyciągnięciu metoda ta tworzy drzewo odgałęzionych ścieżek.
Klasyfikacja naiwna Bayes opiera się na prawdopodobieństwie. Zadaje szereg pytań dotyczących każdego fragmentu danych, a następnie wykorzystuje odpowiedzi, aby określić prawdopodobieństwo, że dane należą do określonej klasyfikacji. Różni się to od uczenia się drzewa decyzyjnego, ponieważ odpowiedź na pierwsze pytanie nie wpływa na pytanie, które zostanie zadane następne.
Bardziej skomplikowane metody klasyfikacji eksploracji danych obejmują sieci neuronowe i maszyny wektorowe wsparcia. Te metody są oparte na komputerze MODELS, który byłby trudny do zrobienia ręcznie. Sieci neuronowe są często stosowane w programowaniu sztucznej inteligencji, ponieważ naśladuje ludzki mózg. Filtuje informacje za pośrednictwem serii węzłów, które znajdują wzorce, a następnie klasyfikują informacje.
Wsparcie maszyn wektorowych wykorzystują próbki szkoleniowe do zbudowania modelu, który sklasyfikuje informacje, zwykle wizualizowane jako wykres rozproszenia o szerokiej przestrzeni między kategoriami. Gdy nowe informacje są podawane do maszyny, są one wykreślane na wykresie. Dane są następnie klasyfikowane na podstawie kategorii informacje są najbliżej wykresu. Ta metoda działa tylko wtedy, gdy są dwie opcje do wyboru.