Was ist Strukturbergbau?
Structure Mining ist eine Art von Data Mining, bei dem eine halbstrukturierte Datenquelle gescannt und Elemente ihrer Struktur erkannt und hervorgehoben werden. Eine halbstrukturierte Datenquelle verwendet nicht die herkömmliche Datenbankstruktur von Tabellen, sondern verfügt über ein semantisches Element, das Informationen über Tags und Marker trennt. Mit Structure Mining können Datenbanken, Websites und viele andere Arten von Computerinformationen durchsucht werden, um Elemente der Struktur zu erkennen. Es hilft Benutzern entweder zu verstehen, wie Teile miteinander interagieren, oder wie Informationen unter bestimmten Tags gefunden werden. Dieses Mining kann auch verwendet werden, um anhand der vom Benutzer festgelegten Regeln vorherzusagen, was ein Element ist.
Es gibt viele verschiedene Arten von Data Mining. Die meisten beschäftigen sich mit dem Mining einer traditionell strukturierten Quelle. Dies schließt jede Quelle ein, die die für die meisten Datenbanken typischen Tabellen und Knoten verwendet. Im Struktur-Mining werden nur halbstrukturierte Daten verwendet. In diesem Fall stammen die Daten von Websites oder einfachen Datenbanken mit einer Struktur, die jedoch nicht den traditionellen Datenbankregeln entspricht. Für die Daten sind Tags oder Markierungen erforderlich, die die einzelnen Elemente voneinander unterscheiden, damit sie ordnungsgemäß abgebaut werden können.
Durch Lesen des halbstrukturierten Datensatzes kann Structure Mining feststellen, wie die Struktur interagiert. Zum Beispiel hat jede Website ein Navigationsmodell, und dieses Modell bestimmt, wie die Seiten interagieren. Durch das Mining der Struktur kann der Benutzer feststellen, wie diese Navigation funktioniert, was beim Erstellen eines ähnlichen Navigationsschemas hilfreich sein kann.
Structure Mining kann auch zum Suchen von Elementen verwendet werden, indem Regeln in das Miningprogramm geschrieben werden. Wenn beispielsweise ein Buchdatensatz vorhanden ist, kann der Benutzer eine Regel schreiben, nach der Bücher ohne Index als Belletristik und Bücher mit einem Index als Sachbücher zurückgegeben werden sollen. In den meisten Belletristikbüchern fehlt ein Index, sodass diese Regel die Daten mit hoher Genauigkeit vorhersagt. Dies hilft Benutzern beim Betrachten einer halbstrukturierten Menge, die eine organisatorische Methode hat, aber nicht zu der, nach der der Benutzer sucht, passt.
Nachdem der Benutzer die Struktur der halbstrukturierten Einheit herausgefunden hat, vergleicht er sie typischerweise mit einer anderen halbstrukturierten Einheit. Wenn der Benutzer eine Unternehmenswebsite hat, kann er eine andere Unternehmenswebsite für die Navigation und Links durchsuchen und feststellen, wie ähnlich seine Website ist. Durch Vergleichen der gewonnenen Informationen kann der Benutzer Wege finden, um die Effizienz der Struktur zu erhöhen.