Was ist eine Data Mining-Klassifizierung?
Die Data Mining-Klassifizierung ist ein Schritt im Data Mining-Prozess. Es wird verwendet, um Elemente basierend auf bestimmten Schlüsselmerkmalen zu gruppieren. Für die Data-Mining-Klassifizierung werden verschiedene Techniken verwendet, einschließlich der Klassifizierung des nächsten Nachbarn, des Lernens von Entscheidungsbäumen und der Unterstützung von Vektormaschinen.
Data Mining ist eine Methode, mit der Forscher Muster aus Daten extrahieren. Im Allgemeinen wird eine repräsentative Stichprobe aus dem Datenpool ausgewählt und dann manipuliert und analysiert, um Muster zu finden. Zusätzlich zur Data Mining-Klassifizierung können Forscher die Daten auch mithilfe von Clustering, Regression und Regelerziehung analysieren.
Es gibt mehrere Algorithmen, die bei der Data Mining-Klassifizierung verwendet werden können. Die Nearest Neighbor-Klassifizierung ist einer der einfachsten Data Mining-Klassifizierungsalgorithmen. Es basiert auf einem Trainingssatz. Ein Trainingssatz ist ein Satz von Daten, mit denen der Computer darin geschult wird, auf bestimmte Variablen zu achten. Bei der Nächsten-Nachbarn-Klassifizierung klassifiziert der Computer einfach alle Daten als Teil der Gruppe, die Daten enthält, deren Wert der Eingabe am nächsten kommt.
Entscheidungsbaumlernen verwendet ein Verzweigungsmodell, um die Daten zu klassifizieren. Der Computer stellt grundsätzlich eine Reihe von Fragen zu den Daten. Wenn die Antwort auf die erste Frage richtig ist, wird Frage 2a gestellt. Wenn die Antwort falsch ist, wird Frage 2b gestellt. Wenn diese Methode ausgezogen ist, bildet sie einen Baum von Verzweigungspfaden.
Die Klassifizierung nach Naive Bayes hängt von der Wahrscheinlichkeit ab. Zu jedem Datenelement werden eine Reihe von Fragen gestellt, und anhand der Antworten wird die Wahrscheinlichkeit bestimmt, mit der die Daten zu einer bestimmten Klassifizierung gehören. Dies unterscheidet sich vom Lernen mit Entscheidungsbäumen, da die Antwort auf die erste Frage keinen Einfluss darauf hat, welche Frage als Nächstes gestellt wird.
Kompliziertere Methoden der Data Mining-Klassifizierung umfassen neuronale Netze und Support-Vektor-Maschinen. Diese Methoden sind computerbasierte Modelle, die von Hand nur schwer zu erstellen sind. Neuronale Netze werden häufig in der Programmierung mit künstlicher Intelligenz verwendet, da sie das menschliche Gehirn nachahmen. Es filtert Informationen durch eine Reihe von Knoten, die Muster finden und die Informationen dann klassifizieren.
Support Vector Machines verwenden Trainingsbeispiele, um ein Modell zu erstellen, mit dem Informationen klassifiziert werden. Diese werden normalerweise als Streudiagramm mit einem großen Abstand zwischen den Kategorien dargestellt. Wenn neue Informationen in die Maschine eingegeben werden, werden sie in der Grafik dargestellt. Die Daten werden dann anhand der Kategorie klassifiziert, der die Informationen in der Grafik am nächsten kommen. Diese Methode funktioniert nur, wenn zwei Optionen zur Auswahl stehen.