Wat is correlatieclustering?
Correlatieclustering wordt uitgevoerd op databases en andere grote gegevensbronnen om vergelijkbare gegevenssets te groeperen, terwijl de gebruiker ook wordt gewaarschuwd voor ongelijke gegevenssets. Dit kan perfect worden gedaan in sommige grafieken, terwijl anderen fouten zullen ervaren omdat het moeilijk zal zijn om soortgelijke van ongelijksoortige gegevens te onderscheiden. In het laatste geval zal correlatieclustering helpen om fouten automatisch te verminderen. Dit wordt vaak gebruikt voor datamining of om onhandige gegevens te zoeken naar overeenkomsten. Ongelijke gegevens worden vaak verwijderd of in een afzonderlijk cluster geplaatst.
Wanneer een correlatieclusterfunctie wordt gebruikt, zoekt deze naar gegevens op basis van de instructies van de gebruiker. De gebruiker vertelt het programma waarnaar moet worden gezocht en, wanneer het wordt gevonden, waar de gegevens moeten worden geplaatst. Dit wordt normaal gesproken toegepast op zeer grote gegevensbronnen wanneer het onmogelijk is - of te veel uren duurt - om de gegevens handmatig te doorzoeken. Er kan sprake zijn van perfecte clustering of imperfecte clustering.
Perfecte clustering is het ideale scenario. Dit betekent dat er slechts twee soorten gegevens zijn en dat de ene is waarnaar de gebruiker op zoek is, terwijl de andere niet nodig is. Alle positieve of benodigde gegevens worden in één cluster geplaatst, terwijl de andere gegevens worden verwijderd of verplaatst. In dit scenario is er geen verwarring en alles werkt perfect.
De meeste complexe grafieken laten geen perfecte clustering toe en zijn in plaats daarvan imperfect. Een grafiek heeft bijvoorbeeld drie variabelen: X, Y en Z. X, Y is vergelijkbaar, X, Z is vergelijkbaar, maar Y, Z is niet vergelijkbaar. De drie variabele clusters lijken echter zo op elkaar dat het onmogelijk is om een perfecte correlatieclustering te hebben. Het programma zal werken om het aantal positieve correlaties te maximaliseren, maar dit zal nog wat handmatig zoeken van de gebruiker vereisen.
Bij datamining, vooral bij het omgaan met grote datasets, wordt correlatieclustering gebruikt om vergelijkbare gegevens met vergelijkbare gegevens te groeperen. Als een bedrijf bijvoorbeeld gegevens verzamelt voor een grote website of database en alleen iets wil weten over een specifiek aspect, zou het een eeuwigheid duren om alle gegevens voor dat aspect te doorzoeken. Door een clusterformule te gebruiken, worden de gegevens gereserveerd voor een goede analyse.
Ongelijke informatie wordt uitsluitend op basis van gebruikersinstructies behandeld. De gebruiker kan ervoor kiezen om ongelijksoortige gegevens naar verschillende clusters te verzenden, omdat de informatie nuttig kan zijn voor andere projecten. Als de gegevens niet nodig zijn en alleen maar geheugen verspillen, wordt de ongelijksoortige informatie weggegooid. Bij imperfecte clustering is het mogelijk dat sommige ongelijksoortige informatie niet wordt weggegooid, omdat deze zo lijkt op de gegevens waarnaar de gebruiker op zoek is.