Wat is een datamining-classificatie?
Datamining-classificatie is een stap in het datamining-proces. Het wordt gebruikt om items te groeperen op basis van bepaalde sleuteleigenschappen. Er zijn verschillende technieken die worden gebruikt voor dataminingclassificatie, waaronder classificatie van de naaste buur, beslisboomleren en ondersteuning van vectormachines.
Datamining is een methode die onderzoekers gebruiken om patronen uit gegevens te extraheren. Over het algemeen wordt een representatief monster gekozen uit de verzameling gegevens en vervolgens gemanipuleerd en geanalyseerd om patronen te vinden. Naast datamining-classificatie kunnen onderzoekers ook clustering, regressie en rule learning gebruiken om de gegevens te analyseren.
Er zijn verschillende algoritmen die kunnen worden gebruikt bij de classificatie van datamining. Classificatie van de dichtstbijzijnde buur is een van de eenvoudigste algoritmen voor de classificatie van datamining. Het vertrouwt op een trainingsset. Een trainingsset is een set gegevens die wordt gebruikt om de computer te trainen om aandacht te besteden aan bepaalde variabelen. In de classificatie van de dichtstbijzijnde buur classificeert de computer eenvoudig alle gegevens als onderdeel van de groep die gegevens bevat die het dichtst bij de invoer liggen.
Decision tree learning gebruikt een vertakkingsmodel om de gegevens te classificeren. De computer stelt in feite een reeks vragen over de gegevens. Als het antwoord op de eerste vraag waar is, stelt deze vraag 2a. Als het antwoord fout is, wordt de vraag 2b gesteld. Wanneer uitgetrokken, vormt deze methode een boom met vertakkende paden.
De classificatie van Naïeve Bayes is gebaseerd op waarschijnlijkheid. Het stelt een reeks vragen over elk stuk gegevens en gebruikt vervolgens de antwoorden om de waarschijnlijkheid te bepalen dat de gegevens in een bepaalde classificatie thuishoren. Dit verschilt van het leren van beslissingsbomen, omdat het antwoord op de eerste vraag niet van invloed is op de vraag die vervolgens wordt gesteld.
Meer gecompliceerde methoden voor dataminingclassificatie omvatten neurale netwerken en ondersteuning van vectormachines. Deze methoden zijn computermodellen die moeilijk met de hand te doen zouden zijn. Neurale netwerken worden vaak gebruikt in kunstmatige intelligentieprogrammering omdat het het menselijk brein nabootst. Het filtert informatie door een reeks knooppunten die patronen vinden en vervolgens de informatie classificeren.
Ondersteuningsvectoren gebruiken trainingsvoorbeelden om een model te bouwen dat informatie classificeert, meestal gevisualiseerd als een spreidingsplot met een grote ruimte tussen categorieën. Wanneer nieuwe informatie in de machine wordt ingevoerd, wordt deze in de grafiek uitgezet. De gegevens worden vervolgens geclassificeerd op basis van welke categorie de informatie het dichtst in de grafiek valt. Deze methode werkt alleen als er twee opties zijn om uit te kiezen.