Wat zijn de verschillende methoden voor datamining?
Er zijn verschillende dataminingmethoden die worden gebruikt in zowel software-opties als theoretische concepten. Hiermee kunnen gebruikers informatie extraheren uit gegevens die zijn verzameld door particulieren en bedrijven met behulp van verschillende tools. Grote hoeveelheden gegevens kunnen worden gebruikt om verschillende factoren in een enkel onderwerp of verschillende onderwerpen te bepalen. Deze dataminingmethoden worden meestal gebruikt op het gebied van fraudebescherming, marketing en bewaking.
Al honderden jaren worden dataminingmethoden gebruikt om informatie uit proefpersonen te extraheren. Moderne technieken gebruiken echter geautomatiseerde concepten om substantiële gegevens te verschaffen via geautomatiseerde bronnen. Terwijl de informatica in de 20e eeuw opkwam, ontwikkelde het concept van dataminingmethoden zich in een poging verborgen patronen in grote delen van verzamelde gegevens te overwinnen. Een goed voorbeeld hiervan is wanneer een reclamebureau de winkelpatronen van een online klant analyseert. Dit bedrijf kan dan bepaalde producten op de markt brengen die het individu mogelijk interessant vindt om te kopen.
Een dataminingtechniek die veel in de industrie wordt gebruikt, wordt Knowledge Discovery in Databases (KDD) genoemd. KDD is in 1989 ontwikkeld door Gregory Piatetsky-Shapiro en stelt gebruikers in staat onbewerkte gegevens te verwerken, de informatie te analyseren voor de benodigde gegevens en de resultaten te interpreteren. Met deze methode kunnen gebruikers patronen in de algoritmen vinden, maar de algemene gegevens zijn niet altijd nauwkeurig en kunnen op een compromitterende manier worden samengesteld. Dit staat bekend als overfitting .
Basismethoden voor datamining omvatten vier specifieke soorten taken: classificatie, clustering, regressie en associatie. Classificatie neemt de aanwezige informatie en voegt deze samen in gedefinieerde groepen. Clustering verwijdert de gedefinieerde groepen en laat de gegevens zichzelf classificeren door vergelijkbare items. Regressie richt zich op de functie van de informatie, het modelleren van de gegevens op concept. De laatste methode voor datamining, associatie , probeert relaties te vinden tussen de verschillende datafeeds.
Bij het gebruik van de verschillende dataminingmethoden worden bepaalde normen gebruikt om te bepalen welke parameters in het proces kunnen worden gebruikt. De Special Interest Group van de Association for Computing Machinery on Knowledge Discovery and Data Mining (SIGKDD) houdt een jaarlijkse bijeenkomst om te bepalen welke processen geschikt zijn. Ethische factoren worden samen met praktische toepassingen afgewogen om de beste informatie over individuen en bedrijven te vinden. Deze informatie is gepubliceerd in een industrieel tijdschrift genaamd SIGKDD Explorations.