Was ist der Data Mining -Prozess?
Der Data Mining -Prozess ist ein Instrument zur Aufdeckung statistisch signifikanter Muster in einer großen Datenmenge. Es umfasst in der Regel fünf Hauptschritte, darunter Vorbereitung, Datenerforschung, Modellbildung, Bereitstellung und Überprüfung. Jeder Schritt im Prozess beinhaltet einen anderen Satz von Techniken, aber die meisten verwenden eine Form der statistischen Analyse. Dieser Vorbereitungsschritt bestimmt normalerweise, welche Arten von Daten untersucht werden müssen, welche Data -Mining -Techniken verwendet werden sollten und welche Form die Ergebnisse dauern werden. Dieser erste Schritt im Prozess kann entscheidend sein, um nützliche Informationen zu sammeln. In diesem Schritt werden normalerweise die erforderlichen Daten aus einem Informations Lager oder einer Sammeleinheit gesammelt. Anschließend bereiten Bergbauexperten in der Regel die Rohdatensätze für die Analyse vor. Dieser Schritt besteht normalerweise aus Sammeln, Reinigen, Organisieren undÜberprüfen Sie alle Daten auf Fehler. Um dies zu erreichen, nehmen Forscher in der Regel kleine Testproben von Daten an und wenden eine Vielzahl von Data -Mining -Techniken auf sie an. Der Modellierungsschritt wird häufig verwendet, um die beste Methode der statistischen Analyse zu bestimmen, die erforderlich ist, um die gewünschten Ergebnisse zu erzielen.
Es gibt vier Haupttechniken, die im Data Mining -Prozess angewendet werden können. Die erste ist die Klassifizierung, die Daten in vordefinierte Gruppen oder Kategorien anordnet. In der zweiten Technik, die als Clustering bezeichnet wird, lassen die Forscher dem Computer die Daten in Gruppen organisieren, wie sie ausgewählt werden. Eine dritte Data Mining -Technik sucht Assoziationen zwischen Variablen. Der vierte sucht normalerweise nach sequentiellen Mustern in den Daten, die zur Vorhersage zukünftiger Trends verwendet werden können.
Der letzte Schritt im Data Mining ProCess ist einsatz. Zu diesem Zweck werden die im Modell ausgewählten Techniken auf den größeren Datensatz angewendet und die Ergebnisse werden analysiert. Der Bericht, der aus diesem Schritt stammt
Überprüfung ist oft ein wichtiger letzter Schritt. Diese Phase im Prozess umfasst normalerweise die Wiederholung von Bergbaumodellen mit einem neuen Datensatz, um sicherzustellen, dass der Hauptsatz für die gesamte Datenpopulation repräsentativ war. Die Ergebnisse können Trends in der größeren Population nicht vorhersagen, wenn die Datenprobe sie nicht genau darstellt.