Was ist der Data Mining-Prozess?
Der Data Mining-Prozess ist ein Tool zum Aufdecken statistisch signifikanter Muster in einer großen Datenmenge. Es umfasst in der Regel fünf Hauptschritte: Vorbereitung, Datenexploration, Modellbildung, Bereitstellung und Überprüfung. Jeder Schritt in dem Prozess beinhaltet einen unterschiedlichen Satz von Techniken, die meisten verwenden jedoch irgendeine Form statistischer Analyse.
Bevor der Data Mining-Prozess beginnen kann, legen die Forscher in der Regel Forschungsziele fest. Dieser Vorbereitungsschritt bestimmt normalerweise, welche Datentypen untersucht werden müssen, welche Data Mining-Techniken verwendet werden sollten und wie die Ergebnisse aussehen werden. Dieser erste Schritt im Prozess kann für das Sammeln nützlicher Informationen von entscheidender Bedeutung sein.
Der nächste Schritt im Data Mining-Prozess ist die Exploration. Dieser Schritt umfasst normalerweise das Erfassen der erforderlichen Daten aus einem Information Warehouse oder einer Erfassungseinheit. Anschließend bereiten Bergbauexperten die Rohdatensätze in der Regel für die Analyse vor. Dieser Schritt besteht normalerweise aus dem Sammeln, Bereinigen, Organisieren und Überprüfen aller Daten auf Fehler.
Diese aufbereiteten Daten werden normalerweise in den dritten Schritt des Data Mining-Prozesses, die Modellbildung, eingegeben. Um dies zu erreichen, nehmen die Forscher in der Regel kleine Testproben von Daten und wenden eine Vielzahl von Data Mining-Techniken auf diese an. Der Modellierungsschritt wird häufig verwendet, um die beste Methode zur statistischen Analyse zu bestimmen, die zum Erreichen der gewünschten Ergebnisse erforderlich ist.
Es gibt vier Haupttechniken, die im Data Mining-Prozess angewendet werden können. Die erste ist die Klassifizierung, bei der Daten in vordefinierte Gruppen oder Kategorien eingeteilt werden. Bei der zweiten Technik, die als Clustering bezeichnet wird, ermöglichen die Forscher dem Computer, die Daten nach Belieben in Gruppen zu organisieren. Eine dritte Data Mining-Technik sucht nach Assoziationen zwischen Variablen. Die vierte sucht normalerweise nach sequentiellen Mustern in den Daten, die zur Vorhersage zukünftiger Trends verwendet werden können.
Der letzte Schritt im Data Mining-Prozess ist die Bereitstellung. Dazu werden die im Modell ausgewählten Techniken auf den größeren Datensatz angewendet und die Ergebnisse analysiert. In dem Bericht, der aus diesem Schritt stammt, werden normalerweise die Muster angezeigt, die im gesamten Prozess gefunden wurden, einschließlich aller Klassifizierungen, Cluster, Zuordnungen oder sequenziellen Muster, die im Datensatz vorhanden sind.
Überprüfung ist oft ein wichtiger letzter Schritt. In dieser Phase des Prozesses werden in der Regel Miningmodelle mit einem neuen Datensatz wiederholt, um sicherzustellen, dass der Hauptsatz für die gesamte Datenpopulation repräsentativ ist. Die Ergebnisse können keine Trends in der größeren Population vorhersagen, wenn die Datenstichprobe diese nicht genau wiedergibt.