Was ist statistischer Data Mining?

Statistisches Data Mining, auch als Wissens- oder Datenerfassungsbekannung bezeichnet, ist eine computergestützte Methode zum Sammeln und Analysieren von Informationen. Das Data-Mining-Tool nimmt Daten an und kategorisiert die Informationen, um Muster oder Korrelationen zu ermitteln, die in wichtigen Anwendungen wie Medizin, Computerprogrammierung, Unternehmensförderung und Roboterdesign verwendet werden können. Statistische Data Mining -Techniken verwenden komplexe Mathematik und komplizierte statistische Prozesse, um eine Analyse zu erstellen.

Data Mining umfasst fünf Hauptschritte. Die erste Data Mining-Anwendung sammelt statistische Daten und legt die Informationen in ein Lagerprogramm vom Typ Lager. Als nächstes werden die Daten im Lager organisiert und erstellen ein Managementsystem. Der nächste Schritt erstellt eine Möglichkeit, auf die verwalteten Daten zuzugreifen. Anschließend entwickelt der vierte Schritt Software zur Analyse der Daten, die auch als Data Mining -Regression bezeichnet wird, während der letzte Schritt die Verwendung oder Interpretation der statistischen Daten auf praktische Weise erleichtert.Techniken integrieren Analyse- und Transaktionsdatensysteme. Analytische Software sortiert beide Arten von Datensystemen mit offenen Fragen mit offenen Benutzern. Offene Fragen ermöglichen unzählige Antworten, sodass Programmierer die Ergebnisse der Sortierung nicht beeinflussen. Programmierer erstellen Listen von Fragen, um die Kategorisierung der Informationen mit einem Gesamtfokus zu unterstützen.

Sortierung basiert dann auf Entwicklungsklassen und Datencluster, Assoziationen, die in den Daten enthalten sind, und Versuche, Muster und Trends auf der Grundlage der Assoziationen zu definieren. Beispielsweise sammelt Google Informationen zu den Einkaufsgewohnheiten der Benutzer, um die Online -Werbung zu platzieren. Offene Fragen, mit denen diese Käuferdaten sortiert wurden, konzentrieren

Informatiker und Programmierer konzentrieren sich auf die Analyse der gesammelten statistischen Daten. Schaffung von Entscheidungsbäumen, ArtifiCial Neural Networks, nächste Nachbarmethode, Regelinduktion, Datenvisualisierung und genetische Algorithmen verwenden die statistisch stellten Daten. Diese Klassifizierungssysteme helfen bei der Interpretation der von den analytischen Datenprogrammen entdeckten Assoziationen. Der statistische Data Mining umfasst kleine Projekte, die auf einem kleinen Maßstab auf einem Heimcomputer durchgeführt werden können. Die meisten Sätze der Data Mining Association sind jedoch so groß und die Data Mining-Regression so kompliziert, dass sie einen Supercomputer oder ein Netzwerk von Hochgeschwindigkeits-Computern benötigen.

Statistisches Data Mining sammelt drei allgemeine Datenarten, einschließlich Betriebsdaten, nicht operativen Daten und Meta-Daten. In einem Bekleidungsgeschäft sind Betriebsdaten grundlegende Daten, mit denen das Geschäft ausgeführt wird, wie die Buchhaltung, den Verkauf und die Bestandskontrolle. Nicht operative Daten, die indirekt mit dem Unternehmen zusammenhängen, umfassen Schätzungen zukünftigen Umsätzen und allgemeinen Informationen über den nationalen Kleidungsmarkt. Meta -Daten betrifft die Daten selbst. Ein Programm uSING -Meta -Daten können Kunden in Klassifikationen sortieren, die auf Geschlecht oder geografischer Lage der Kleidungskäufer oder der Lieblingsfarbe der Kunden basieren, wenn diese Daten gesammelt wurden.

Eine Data Mining -Anwendung kann äußerst ausgefeilt sein und das statistische Data Mining -Tool kann weit verbreitete praktische Anwendungen aufweisen. Die Untersuchung von Krankheitsausbrüchen ist ein Beispiel. In einem Data Mining -Projekt von 2000 analysierte der Ausbruch von Cryptosporidium in Ontario, Kanada, den Krankheitsausbruch, um die Ursachen für den Anstieg der Krankheitsfälle zu bestimmen. Die Ergebnisse des Data Mining halfen bei der Verknüpfung des Bakterienausbruchs mit den lokalen Wasserbedingungen und dem Mangel an ordnungsgemäßer kommunaler Wasserbehandlung. Ein Feld namens "Biosurveillance" verwendet den epidemiologischen Data Mining, um Ausbrüche einer einzelnen Krankheit zu identifizieren.

Computerprogrammierer und -designer verwenden auch die Untersuchung der Wahrscheinlichkeit und der statistischen Datenanalyse, um Maschinen und Computerprogramme zu entwickeln. Die Google -Internet -Suchmaschine wurde mit STA entwickeltTistischer Data Mining. Google sammelt und verwendet Data Mining weiter, um Programmaktualisierungen und -anwendungen zu erstellen.

ANDERE SPRACHEN

War dieser Artikel hilfreich? Danke für die Rückmeldung Danke für die Rückmeldung

Wie können wir helfen? Wie können wir helfen?