Co to jest eksploracja danych statystycznych?
Eksploracja danych statystycznych, znana również jako odkrywanie wiedzy lub danych, jest skomputeryzowaną metodą gromadzenia i analizy informacji. Narzędzie do eksploracji danych pobiera dane i kategoryzuje informacje w celu wykrycia wzorców lub korelacji, które można wykorzystać w ważnych aplikacjach, takich jak medycyna, programowanie komputerowe, promocja biznesu i robotyka. Techniki eksploracji danych statystycznych wykorzystują złożoną matematykę i skomplikowane procesy statystyczne do stworzenia analizy.
Eksploracja danych obejmuje pięć głównych kroków. Pierwsza aplikacja do eksploracji danych zbiera dane statystyczne i umieszcza informacje w programie typu hurtownia. Następnie dane w hurtowni są porządkowane i tworzą system zarządzania. Następny krok tworzy sposób dostępu do zarządzanych danych. Następnie, czwarty etap polega na opracowaniu oprogramowania do analizy danych, znanego również jako regresja eksploracji danych, natomiast ostatni etap ułatwia wykorzystanie lub interpretację danych statystycznych w praktyczny sposób.
Ogólnie techniki eksploracji danych integrują systemy danych analitycznych i transakcyjnych. Oprogramowanie analityczne sortuje oba typy systemów danych przy użyciu otwartych pytań użytkowników. Otwarte pytania pozwalają na niezliczone odpowiedzi, więc programiści nie wpływają na wyniki sortowania. Programiści tworzą listy pytań, aby pomóc w kategoryzacji informacji przy użyciu ogólnego ukierunkowania.
Sortowanie jest następnie oparte na opracowywaniu klas i klastrów danych, powiązaniach znalezionych w danych oraz próbach zdefiniowania wzorców i trendów w oparciu o powiązania. Na przykład Google gromadzi informacje o zwyczajach zakupowych użytkowników, aby pomóc w umieszczaniu reklam online. Pytania otwarte, aby posortować dane tego kupującego, koncentrują się na preferencjach zakupowych lub zwyczajach przeglądania użytkowników Internetu.
Informatycy i programiści koncentrują się na analizie gromadzonych danych statystycznych. Tworzenie drzew decyzyjnych, sztucznych sieci neuronowych, metody najbliższego sąsiada, indukcji reguł, wizualizacji danych i algorytmów genetycznych wykorzystuje wszystkie dane wydobyte statystycznie. Te systemy klasyfikacji pomagają w interpretacji powiązań wykrytych przez programy danych analitycznych. Eksploracja danych statystycznych obejmuje małe projekty, które można wykonać na małą skalę na komputerze domowym, ale większość zestawów skojarzeń eksploracji danych jest tak duża, a regresja eksploracji danych jest tak skomplikowana, że wymagają superkomputera lub sieci szybkich komputerów.
Eksploracja danych statystycznych gromadzi trzy ogólne typy danych, w tym dane operacyjne, dane nieoperacyjne i metadane. W sklepie odzieżowym dane operacyjne to podstawowe dane wykorzystywane do prowadzenia firmy, takie jak księgowość, sprzedaż i kontrola zapasów. Dane nieoperacyjne, które są pośrednio związane z działalnością, obejmują szacunki przyszłej sprzedaży i ogólne informacje o krajowym rynku odzieżowym. Metadane dotyczą samych danych. Program wykorzystujący metadane może posortować klientów w sklepach na klasyfikacje na podstawie płci lub lokalizacji geograficznej nabywców odzieży lub ulubionego koloru klientów, jeśli dane te zostaną zebrane.
Aplikacja do eksploracji danych może być bardzo złożona, a narzędzie do eksploracji danych statystycznych może mieć szerokie praktyczne zastosowania. Jednym z przykładów jest badanie epidemii chorób. W ramach projektu eksploracji danych z 2000 r. Przeanalizowano wybuch choroby Cryptosporidium w Ontario w Kanadzie, aby określić przyczyny wzrostu liczby zachorowań. Wyniki eksploracji danych pomogły powiązać wybuch bakterii z lokalnymi warunkami wodnymi i brakiem odpowiedniego uzdatniania wody w gminach. Pole zwane „nadzorem biologicznym” wykorzystuje eksplorację danych epidemiologicznych w celu wykrycia ognisk jednej choroby.
Programiści i projektanci komputerów wykorzystują również badania prawdopodobieństwa i analizy danych statystycznych do opracowywania maszyn i programów komputerowych. Wyszukiwarka internetowa Google została zaprojektowana przy użyciu eksploracji danych statystycznych. Google nadal gromadzi i wykorzystuje eksplorację danych do tworzenia aktualizacji programów i aplikacji.