Was ist statistisches Data Mining?
Statistisches Data Mining, auch bekannt als Knowledge oder Data Discovery, ist eine computergestützte Methode zum Sammeln und Analysieren von Informationen. Das Data-Mining-Tool erfasst Daten und kategorisiert die Informationen, um Muster oder Korrelationen zu ermitteln, die in wichtigen Anwendungen wie Medizin, Computerprogrammierung, Unternehmensförderung und Roboterdesign verwendet werden können. Statistische Data Mining-Techniken verwenden komplexe Mathematik und komplizierte statistische Prozesse, um eine Analyse zu erstellen.
Data Mining umfasst fünf Hauptschritte. Die erste Data Mining-Anwendung sammelt statistische Daten und platziert die Informationen in einem Warehouse-Programm. Anschließend werden die Daten im Lager organisiert und ein Verwaltungssystem erstellt. Der nächste Schritt erstellt eine Möglichkeit, auf die verwalteten Daten zuzugreifen. Im vierten Schritt wird eine Software zur Analyse der Daten entwickelt, die auch als Data Mining-Regression bezeichnet wird. Im letzten Schritt können die statistischen Daten auf praktische Weise verwendet oder interpretiert werden.
Im Allgemeinen integrieren Data Mining-Techniken Analyse- und Transaktionsdatensysteme. Analysesoftware sortiert beide Arten von Datensystemen anhand von offenen Benutzerfragen. Offene Fragen ermöglichen unzählige Antworten, damit Programmierer die Ergebnisse der Sortierung nicht beeinflussen. Programmierer erstellen Fragenlisten, um die Kategorisierung der Informationen anhand eines Gesamtfokus zu erleichtern.
Das Sortieren basiert dann auf dem Entwickeln von Klassen und Datenclustern, in den Daten gefundenen Assoziationen und Versuchen, Muster und Trends basierend auf den Assoziationen zu definieren. Beispielsweise sammelt Google Informationen zu den Kaufgewohnheiten der Nutzer, um die Platzierung von Online-Werbung zu unterstützen. Offene Fragen zum Sortieren dieser Käuferdaten konzentrieren sich auf Kaufpräferenzen oder Betrachtungsgewohnheiten von Internetnutzern.
Informatiker und Programmierer konzentrieren sich auf die Analyse der gesammelten statistischen Daten. Die Erstellung von Entscheidungsbäumen, künstlichen neuronalen Netzen, der Methode des nächsten Nachbarn, der Regelinduktion, der Datenvisualisierung und genetischen Algorithmen verwendet die statistisch gewonnenen Daten. Diese Klassifizierungssysteme helfen bei der Interpretation der Assoziationen, die von den analytischen Datenprogrammen entdeckt wurden. Statistisches Data Mining umfasst kleine Projekte, die in kleinem Umfang auf einem Heimcomputer ausgeführt werden können. Die meisten Data Mining-Zuordnungssätze sind jedoch so umfangreich und die Data Mining-Regression so kompliziert, dass sie einen Supercomputer oder ein Netzwerk von Hochgeschwindigkeitscomputern erfordern.
Beim statistischen Data Mining werden drei allgemeine Datentypen erfasst, darunter Betriebsdaten, nicht-betriebliche Daten und Metadaten. In einem Bekleidungsgeschäft sind Betriebsdaten Basisdaten, die für den Geschäftsbetrieb verwendet werden, z. B. Buchhaltung, Verkauf und Bestandskontrolle. Die nicht operativen Daten, die sich indirekt auf das Geschäft beziehen, umfassen Schätzungen des zukünftigen Umsatzes und allgemeine Informationen über den nationalen Bekleidungsmarkt. Metadaten betreffen die Daten selbst. Ein Programm, das Metadaten verwendet, kann Speicherkunden nach Geschlecht oder geografischem Standort der Kleidungskäufer oder nach der Lieblingsfarbe der Kunden sortieren, wenn diese Daten erfasst wurden.
Eine Data Mining-Anwendung kann äußerst komplex sein und das statistische Data Mining-Tool kann weitverbreitete praktische Anwendungen haben. Die Untersuchung von Krankheitsausbrüchen ist ein Beispiel. Ein Data-Mining-Projekt aus dem Jahr 2000 analysierte den Ausbruch von Cryptosporidium in Ontario, Kanada, um die Ursachen für die Zunahme von Krankheitsfällen zu ermitteln. Die Ergebnisse des Data Mining trugen dazu bei, den Ausbruch von Bakterien mit den örtlichen Wasserbedingungen und dem Mangel an angemessener kommunaler Wasseraufbereitung in Verbindung zu bringen. Ein Feld namens "Biosurveillance" nutzt epidemiologisches Data Mining, um Ausbrüche einer einzelnen Krankheit zu identifizieren.
Computerprogrammierer und -designer nutzen die Untersuchung der Wahrscheinlichkeit und der statistischen Datenanalyse auch zur Entwicklung von Maschinen und Computerprogrammen. Die Google Internet-Suchmaschine wurde mithilfe von statistischem Data Mining entwickelt. Google sammelt und verwendet Data Mining weiterhin, um Programmupdates und -anwendungen zu erstellen.