Was ist Data Mining?
Beim Data Mining wird eine relativ große Menge an Rechenleistung für einen großen Datensatz verwendet, um Regelmäßigkeiten und Verbindungen zwischen Datenpunkten zu bestimmen. Algorithmen, die Techniken aus Statistik, maschinellem Lernen und Mustererkennung verwenden, werden verwendet, um große Datenbanken automatisch zu durchsuchen. Data Mining wird auch als Knowledge-Discovery in Databases (KDD) bezeichnet.
Wie der Begriff künstliche Intelligenz ist Data Mining ein Überbegriff, der auf eine Reihe unterschiedlicher Aktivitäten angewendet werden kann. In der Unternehmenswelt wird Data Mining am häufigsten verwendet, um die Richtung von Trends zu bestimmen und die Zukunft vorherzusagen. Es wird verwendet, um Modelle und Entscheidungsunterstützungssysteme zu erstellen, die Personen Informationen liefern, die sie verwenden können. Data Mining spielt im Kampf gegen den Terrorismus eine zentrale Rolle. Es wurde angeblich verwendet, um den Anführer der Anschläge vom 11. September zu bestimmen.
Data Miner sind Statistiker, die Techniken mit Namen wie Near-Neighbor-Modelle , K-Mean-Clustering , Holdout-Methode , K-Fold-Cross-Validierung , Leave-One-Out-Methode usw. verwenden. Regressionstechniken werden verwendet, um irrelevante Muster zu subtrahieren, wobei nur nützliche Informationen übrig bleiben. Der Begriff Bayesian wird häufig auf dem Gebiet verwendet und bezieht sich auf eine Klasse von Inferenztechniken, die die Wahrscheinlichkeit zukünftiger Ereignisse vorhersagen, indem sie frühere Wahrscheinlichkeiten und Wahrscheinlichkeiten basierend auf bedingten Ereignissen kombinieren. Das Filtern von Spam ist wohl eine Form des Data Mining, bei dem automatisch relevante Nachrichten aus einem chaotischen Meer von Phishing-Versuchen und Viagra-Abständen an die Oberfläche gebracht werden.
Entscheidungsbäume werden zum Filtern von Datenbergen verwendet. In einem Entscheidungsbaum durchlaufen alle Daten einen Eingangsknoten, wo sie einem Filter ausgesetzt sind, der die Daten abhängig von ihren Eigenschaften in Ströme aufteilt. Beispielsweise werden Daten zum Verbraucherverhalten wahrscheinlich basierend auf demografischen Faktoren gefiltert. Beim Data Mining geht es nicht in erster Linie um ausgefallene Grafiken und Visualisierungstechniken, sondern um die Ergebnisse. Es ist bekannt, dass wir mehr statistische Informationen visuell als mündlich aufnehmen können, und dieses Format für die Präsentation kann sehr überzeugend und wirkungsvoll sein, wenn es im richtigen Kontext verwendet wird.
Da unsere Zivilisation zunehmend mit Daten gesättigt ist und Sensoren in großen Mengen in unserer lokalen Umgebung verteilt werden, werden wir versehentlich Dinge entdecken, die beim ersten Durchgang möglicherweise übersehen werden. Durch Data Mining können wir diese Fehler korrigieren und neue Erkenntnisse auf der Grundlage früherer Daten gewinnen, was uns mehr Spaß beim Speichern von Daten verschafft.