Jaki jest proces wydobywania danych?
Proces wydobywania danych jest narzędziem do odkrywania statystycznie istotnych wzorców w dużej ilości danych. Zazwyczaj obejmuje pięć głównych kroków, w tym przygotowanie, eksplorację danych, budowanie modeli, wdrażanie i przegląd. Każdy krok w tym procesie obejmuje inny zestaw technik, ale większość używa jakiejś formy analizy statystycznej.
Zanim rozpocznie się proces wydobycia danych, naukowcy zwykle ustalają cele badawcze. Ten etap przygotowania zwykle określa, jakie typy danych należy zbadać, jakie techniki eksploracji danych należy zastosować i jaką formę będą podejmować wyniki. Ten początkowy krok w tym procesie może mieć kluczowe znaczenie dla zebrania przydatnych informacji.
Następnym krokiem w procesie wydobywania danych jest eksploracja. Ten krok zwykle obejmuje zebranie wymaganych danych z hurtowni informacji lub jednostki windykacyjnej. Następnie eksperci wydobywcze zwykle przygotowują surowe zestawy danych do analizy. Ten krok zwykle polega na gromadzeniu, czyszczeniu, organizowaniu iSprawdzanie wszystkich danych pod kątem błędów.
Te przygotowane dane zwykle wchodzą w trzeci krok w procesie wydobycia danych, budowanie modelu. Aby to osiągnąć, naukowcy zazwyczaj pobierają niewielkie próbki testowe danych i stosują do nich różne techniki wydobywania danych. Krok modelowania jest często stosowany do ustalenia najlepszej metody analizy statystycznej wymaganej do osiągnięcia pożądanych wyników.
Istnieją cztery główne techniki, które można zastosować w procesie wydobywania danych. Pierwsza to klasyfikacja, która układa dane w predefiniowane grupy lub kategorie. W drugiej technice, zwanej klastrowaniem, naukowcy zezwalają komputerowi na zorganizowanie danych w grupy, jak to wybiera. Trzecia technika eksploracji danych szuka powiązań między zmiennymi. Czwarty zazwyczaj szuka sekwencyjnych wzorców w danych, które można użyć do przewidywania przyszłych trendów.
Ostatni krok w wydobywaniu danych ProCess jest wdrażaniem. Aby to zrobić, techniki wybrane w modelu są stosowane do większego zestawu danych, a wyniki są analizowane. Raport, który pochodzi z tego kroku, zwykle pokazuje wzorce znalezione w całym procesie, w tym wszelkie klasyfikacje, klastry, skojarzenia lub sekwencyjne wzorce istniejące w zestawie danych.
Recenzja jest często ważnym ostatnim krokiem. Ta faza w procesie zwykle obejmuje powtarzanie modeli wydobywczych z nowym zestawem danych, aby upewnić się, że główny zestaw był reprezentatywny dla całej populacji danych. Wyniki nie mogą przewidzieć trendów w większej populacji, jeśli próbka danych nie reprezentuje jej dokładnie.