Was ist Sequence Mining?
Sequence Mining ist eine Art strukturiertes Data Mining, bei dem die Datenbank und der Administrator nach Sequenzen oder Trends in den Daten suchen. Dieses Data Mining ist in zwei Felder unterteilt. Das Itemset-Sequence-Mining wird normalerweise im Marketing und das String-Sequence-Mining in der Biologieforschung eingesetzt. Das Sequence Mining unterscheidet sich vom regulären Trend Mining, da die Daten spezifischer sind, was das Erstellen einer effektiven Datenbank für Datenbankdesigner schwierig macht. Manchmal kann es schief gehen, wenn die Sequenz von der allgemeinen Sequenz abweicht.
Zu dem einen oder anderen Zeitpunkt werden alle Datenbanken zum Abrufen von Daten verwendet. Dieser Bergbau hilft Unternehmen und Forschern, das zu finden, was sie brauchen. Normalerweise suchen sie nach einer Art Trend, aber was dieser Trend ist und wie spezifisch die Informationen sind, hängt vom Datenbankdesign ab. Beim Sequence Mining wird die Datenbank so erstellt, dass sie sehr spezifische Sequenzen mit geringen bis keinen Abweichungen findet. Dies ist eine einzigartige Form des strukturierten Data Mining, bei der die Datenbank die strukturierten Daten auf Ähnlichkeiten überprüft.
Sequence Mining kann in zwei Kategorien unterteilt werden. Itemset-Mining wird in Marketing und Business verwendet, um bestimmte Trends bei Verkaufszahlen, Produkttypen, Produktplatzierung in einem Geschäft und der Verwendung eines Produkts zu ermitteln. Diese Zahlen werden herangezogen und auf Marketingalgorithmen angewendet, um ein Marketingprojekt zu strategisieren und den Umsatz zu steigern. Informationen zu einem Produkt und seiner typischen Funktionsweise werden aus der Datenbank entnommen. Der entscheidende Aspekt des Itemset Sequence Mining ist jedoch, dass die Sequenz aus Mehrsymbol-Datenbankzellen entnommen wird.
String-Mining ist das Gegenteil von Itemset-Mining, da jedes Symbol einzeln und nicht als Cluster betrachtet wird. Beim String-Mining kann die Datenbank so eingestellt sein, dass sie eine Sequenz aus einer Proteinquelle oder aus Genproben findet. Dies hilft beim Vergleich vieler Genproben, um festzustellen, ob sie gleich sind, oder um große Sequenzen aufzuschlüsseln und um herauszufinden, welche Sequenzen sie enthalten. Meistens nutzen dies biologische und medizinische Forschungsteams.
Das Erstellen einer Datenbank für das Sequenz-Mining kann schwierig sein, da die Sequenzen im Gegensatz zum Trend-Mining und zum anderen strukturierten Data-Mining speziell aufeinander abgestimmt sein müssen. Dies führt auch zum Problem der Suche nach Sequenzen. Wenn die Reihenfolge anders ist, wird sie nicht erkannt, was das Itemset-Mining möglicherweise erschwert. Das String Mining profitiert in der Regel davon, weil der geringste Unterschied in einer Gewebeprobe den Organismus - oder was auch immer das Forscherteam erforscht - vollständig von anderen Proben unterscheidet.