Wat zijn de belangrijkste concepten voor datamining?
De belangrijkste dataminingconcepten worden gebruikt voor de analyse van verzamelde informatie, met name om gedrag te observeren. Onbekende interacties tussen gegevens worden op verschillende manieren onderzocht om kritische relaties tussen proefpersonen en geaggregeerde informatie vast te stellen. Een uitdaging bij datamining is dat de feitelijk verzamelde informatie misschien niet doet denken aan het hele domein. In een poging dit feit aan te pakken, kunnen correlaties tussen de gegevens methodisch worden geregeld door de verschillende dataminingconcepten.
Normen voor dataminingconcepten worden gehandhaafd door de Special Interest Group van de Association for Computing Machinery on Knowledge Discovery and Data Mining (SIGKDD). Deze organisatie publiceert het "International Journal of Information Technology and Decision Making" en het tijdschrift SIGKDD Explorations. Handhaving van ethiek en basisprincipes van datamining houdt de industrie efficiënt en met beperkte juridische problemen aan het werk.
Voorbewerking van de informatie is een van de belangrijkste aspecten van datamining. De onbewerkte gegevens moeten worden gedolven en geïnterpreteerd. Om deze actie uit te voeren, moet een proces worden bepaald, de doelgegevens moeten worden verzameld en patronen worden gevonden. Het proces staat bekend als Knowledge Discovery in Databases en werd ontwikkeld door Gregory Piatetsky-Shapiro in 1989.
Vier verschillende klassen van dataminingconcepten laten het proces plaatsvinden. Clustering gebruikt het algoritme van het datamining-proces om items in vergelijkbare groepen samen te stellen. In tegenstelling tot clustering vindt classificatie van de informatie plaats wanneer de gegevens worden verzameld in vooraf gedefinieerde groepen en worden geanalyseerd. Associatie probeert verbanden tussen variabelen te vinden en te bepalen welke groepen gegevens gewoonlijk worden geassocieerd. Het laatste type datamining is regressie , gebaseerd op de methode voor het identificeren van een functie binnen de gegevensverzameling.
Het valideren van de informatie is de laatste stap om te ontdekken waar de datamining-applicatie voor staat. Wanneer niet alle algoritmen een geldige gegevensset presenteren, kunnen de patronen die zich voordoen resulteren in een situatie die overfitting wordt genoemd. Om dit probleem op te lossen, worden de gegevens vergeleken met een testset. Dit is een concept waarbij de metingen zijn uitgelijnd met een reeks algoritmen die een plausibele set datasets zouden opleveren. Als de verkregen informatie niet overeenkomt met de testset, moeten de veronderstelde patronen in de gegevens onnauwkeurig zijn.
Enkele van de belangrijkste concepten voor datamining komen voor in verschillende industrieën. Gaming, business, marketing, wetenschap, engineering en bewaking maken allemaal gebruik van dataminingtechnieken. Door deze technieken uit te voeren, kan elk veld best practices bepalen of betere manieren om resultaten te vinden.