Was ist Korrelationsclustering?
Korrelationsclustering wird für Datenbanken und andere große Datenquellen durchgeführt, um ähnliche Datasets zu gruppieren und den Benutzer gleichzeitig auf unterschiedliche Datasets aufmerksam zu machen. Dies kann in einigen Diagrammen perfekt durchgeführt werden, während in anderen Fehlern auftreten kann, da es schwierig ist, ähnliche von unterschiedlichen Daten zu unterscheiden. Im letzteren Fall hilft das Korrelationsclustering dabei, Fehler automatisch zu reduzieren. Dies wird häufig für Data Mining oder zum Durchsuchen unhandlicher Daten nach Ähnlichkeiten verwendet. Unähnliche Daten werden normalerweise gelöscht oder in einem separaten Cluster abgelegt.
Wenn eine Korrelationsclusterfunktion verwendet wird, sucht sie anhand der Anweisungen des Benutzers nach Daten. Der Benutzer teilt dem Programm mit, wonach gesucht werden soll und wo die Daten abgelegt werden sollen. Dies gilt normalerweise für sehr große Datenquellen, bei denen es unmöglich ist oder zu viele Stunden dauert, die Daten manuell zu durchsuchen. Es kann entweder eine perfekte Clusterbildung oder eine unvollständige Clusterbildung geben.
Perfektes Clustering ist das ideale Szenario. Dies bedeutet, dass es nur zwei Arten von Daten gibt, und eine ist das, wonach der Benutzer sucht, während die andere nicht benötigt wird. Alle positiven oder benötigten Daten werden in einem Cluster abgelegt, während die anderen Daten gelöscht oder verschoben werden. In diesem Szenario gibt es keine Verwirrung und alles funktioniert perfekt.
Die meisten komplexen Graphen erlauben keine perfekte Clusterbildung und sind stattdessen unvollkommen. Zum Beispiel hat ein Graph drei Variablen: X, Y und Z. X, Y ist ähnlich, X, Z ist ähnlich, aber Y, Z ist verschieden. Die drei variablen Cluster sind sich jedoch so ähnlich, dass es unmöglich ist, eine perfekte Korrelationsclusterung zu erzielen. Das Programm wird versuchen, die Anzahl der positiven Korrelationen zu maximieren, dies erfordert jedoch immer noch eine manuelle Suche durch den Benutzer.
Beim Data Mining wird, insbesondere bei großen Datenmengen, das Korrelationsclustering verwendet, um ähnliche Daten mit ähnlichen Daten zu gruppieren. Wenn ein Unternehmen beispielsweise Daten für eine große Website oder Datenbank ermittelt und nur einen bestimmten Aspekt kennenlernen möchte, würde es ewig dauern, alle Daten nach diesem Aspekt zu durchsuchen. Bei Verwendung einer Clustering-Formel werden die Daten für eine ordnungsgemäße Analyse reserviert.
Unähnliche Informationen werden ausschließlich auf der Grundlage von Benutzeranweisungen behandelt. Der Benutzer kann sich dafür entscheiden, unterschiedliche Daten an verschiedene Cluster zu senden, da die Informationen für andere Projekte nützlich sein können. Wenn die Daten nicht benötigt werden und nur Speicher verschwenden, werden die unterschiedlichen Informationen verworfen. Bei unvollständigem Clustering werden möglicherweise nicht alle Informationen verworfen, da sie den Daten, nach denen der Benutzer sucht, so ähnlich sind.