Co to jest wydobycie danych statystycznych?
Mining danych statystyczny, znany również jako wiedza lub odkrycie danych, jest skomputeryzowaną metodą gromadzenia i analizy informacji. Narzędzie do wydobywania danych przyjmuje dane i kategoryzuje informacje w celu odkrycia wzorców lub korelacji, które można wykorzystać w ważnych aplikacjach, takich jak medycyna, programowanie komputerowe, promocja biznesowa i projekt robotyczny. Techniki eksploracji danych statystycznych wykorzystują złożoną matematykę i skomplikowane procesy statystyczne do stworzenia analizy.
Wydobycie danych obejmuje pięć głównych kroków. Pierwsza aplikacja do eksploracji danych zbiera dane statystyczne i umieszcza informacje w programie typu magazynu. Następnie dane w magazynie są zorganizowane i tworzą system zarządzania. Następny krok tworzy sposób na dostęp do zarządzanych danych. Następnie czwarty krok opracowuje oprogramowanie do analizy danych, znanych również jako regresja eksploracji danych, podczas gdy ostatni krok ułatwia używanie lub interpretacja danych statystycznych w praktyczny sposób.
ogólnie wydobycie danychTechniki integrują systemy danych analitycznych i transakcyjnych. Oprogramowanie analityczne sortują oba typy systemów danych przy użyciu otwartych pytań użytkownika. Pytania otwarte pozwalają na niezliczone odpowiedzi, aby programiści nie wpływają na wyniki sortowania. Programiści tworzą listy pytań, które pomagają w kategoryzacji informacji za pomocą ogólnego skupienia.
Sortowanieopiera się następnie na opracowywaniu klas i klastrów danych, powiązaniach znalezionych w danych oraz próbach zdefiniowania wzorców i trendów w oparciu o skojarzenia. Na przykład Google zbiera informacje o nawykach zakupowych użytkowników, aby pomóc w umieszczeniu reklamy online. Pytania otwarte używane do sortowania danych kupujących koncentrują się na kupowaniu preferencji lub przeglądaniu nawyków użytkowników Internetu.
Informatycy i programiści koncentrują się na analizie gromadzonych danych statystycznych. Tworzenie drzew decyzyjnych, artefiCial Neural Networks, najbliższa metoda sąsiada, indukcja reguł, wizualizacja danych i algorytmy genetyczne wykorzystują dane wydane statystycznie. Te systemy klasyfikacji pomagają w interpretacji stowarzyszeń odkrytych przez programy danych analitycznych. Wydobycie danych statystycznych obejmuje małe projekty, które można wykonać na małą skalę na komputerze domowym, ale większość zestawów asocjacji eksploracji danych jest tak duża, a regresja eksploracji danych tak skomplikowana, że wymagają superkomputera lub sieci komputerów szybkich.
Wydobycie danych statystycznych gromadzi trzy ogólne typy danych, w tym dane operacyjne, dane nieoperacyjne i meta. W sklepie odzieżowym dane operacyjne to podstawowe dane wykorzystywane do prowadzenia działalności, takich jak rachunkowość, sprzedaż i kontrola zapasów. Dane nieoperacyjne, które są pośrednio związane z firmą, obejmują szacunki przyszłej sprzedaży i ogólnych informacji na temat krajowego rynku odzieży. Meta dane dotyczą samych danych. Program uŚpiewaj meta mogą sortować klientów do klasyfikacji na podstawie płci lub położenia geograficznego nabywców odzieży lub ulubionego koloru klientów, jeśli dane te zostały zebrane.
Aplikacja do eksploracji danych może być wyjątkowo wyrafinowana, a narzędzie wydobycia danych statystycznych może mieć powszechne praktyczne zastosowania. Badanie wybuchów chorób jest jednym z przykładów. Projekt wydobycia danych z 2000 r. Przeanalizował wybuch choroby Cryptosporidium w Ontario w Kanadzie, aby określić przyczyny wzrostu przypadków choroby. Wyniki wydobycia danych pomogły w połączeniu wybuchu bakterii z lokalnymi warunkami wodnymi i brakiem właściwego obróbki wody miejskiej. Pole o nazwie „Biosurveillance” wykorzystuje eksplorację danych epidemiologicznych do identyfikacji wybuchów pojedynczej choroby.
Programiści komputerowi i projektanci stosują również badanie prawdopodobieństwa i analizy danych statystycznych w celu opracowania maszyn i programów komputerowych. Wyszukiwarka Google Internet została zaprojektowana za pomocą STAWydobycie danych tystical. Google nadal zbiera i używa eksploracji danych, aby tworzyć aktualizacje programu i aplikacje.