Was ist Korrelationsclustering?

Correlation -Clustering wird in Datenbanken und anderen großen Datenquellen durchgeführt, um ähnliche Datensätze zu gruppieren, und alarmieren den Benutzer auf unterschiedliche Datensätze. Dies kann in einigen Grafiken perfekt gemacht werden, während andere Fehler aufweisen, da es schwierig sein wird, ähnlich von unterschiedlichen Daten zu unterscheiden. Bei letzterem hilft das Korrelationsclustering bei der automatischen Reduzierung des Fehlers. Dies wird häufig zum Data Mining oder zur Suche nach unhandlichen Daten nach Ähnlichkeiten verwendet. Unähnliche Daten werden üblicherweise gelöscht oder in einen separaten Cluster aufgebracht. Der Benutzer wird dem Programm mitteilen, worauf er suchen soll, und wann es gefunden wird, wo die Daten platziert werden sollen. Dies wird normalerweise auf sehr große Datenquellen angewendet, wenn dies unmöglich wäre - oder zu viele Stunden dauern würde, um die Daten manuell zu durchsuchen. Es kann entweder perfektes Clustering oder unvollständiges Clustering geben.

Perfektes Clustering ist das ideale Szenario. Dies bedeutet, dass es nur zwei Arten von Daten gibt, und eines ist das, wonach der Benutzer sucht, während der andere nicht benötigt wird. Alle positiven oder benötigten Daten werden in einem Cluster platziert, während die anderen Daten gelöscht oder verschoben werden. In diesem Szenario gibt es keine Verwirrung und alles funktioniert perfekt.

Die komplexesten Grafiken ermöglichen kein perfektes Clustering und sind stattdessen unvollkommen. Beispielsweise hat ein Diagramm drei Variablen: x, y und z. x, y ist ähnlich, x, z ist ähnlich, aber y, z ist unterschiedlich. Die drei variablen Cluster sind jedoch so ähnlich, dass es unmöglich ist, eine perfekte Korrelationsclusterbildung zu haben. Das Programm arbeitet, um die Anzahl der positiven Korrelationen zu maximieren. Dies erfordert jedoch immer noch eine manuelle Suche vom Benutzer.

im Data Mining, insbesondere im Umgang mit großen Datensätzen, wird die Korrelationsclusterbildung verwendet, um ähnliche Daten mit SIMI zu gruppierenLAR -Daten. Wenn beispielsweise ein Unternehmen Daten für eine große Website oder eine Datenbank abgebaut hat und nur einen bestimmten Aspekt wissen möchte, würde es ewig dauern, alle Daten für diesen Aspekt zu durchsuchen. Durch die Verwendung einer Clustering -Formel werden die Daten für die ordnungsgemäße Analyse beiseite gelegt.

unähnliche Informationen werden ausschließlich auf Benutzeranweisungen basiert. Der Benutzer kann sich dafür entscheiden, unterschiedliche Daten an verschiedene Cluster zu senden, da die Informationen für andere Projekte nützlich sein können. Wenn die Daten nicht benötigt werden und nur Speicher verschwenden, werden die unterschiedlichen Informationen herausgeworfen. Im unvollkommenen Clustering ist es möglich, dass einige unterschiedliche Informationen nicht ausgeworfen werden, da sie den Daten, nach denen der Benutzer suchen, so ähnlich ist.

ANDERE SPRACHEN

War dieser Artikel hilfreich? Danke für die Rückmeldung Danke für die Rückmeldung

Wie können wir helfen? Wie können wir helfen?