Wat is het dataminingproces?
Het datamining-proces is een hulpmiddel om statistisch significante patronen in een grote hoeveelheid data bloot te leggen. Het omvat doorgaans vijf hoofdstappen, waaronder voorbereiding, gegevensverkenning, modelbouw, implementatie en beoordeling. Elke stap in het proces omvat een andere set technieken, maar de meeste gebruiken een vorm van statistische analyse.
Voordat het dataminingproces kan beginnen, stellen de onderzoekers doorgaans onderzoeksdoelstellingen vast. Deze voorbereidingsstap bepaalt meestal welke soorten gegevens moeten worden bestudeerd, welke dataminingtechnieken moeten worden gebruikt en welke vorm de resultaten zullen aannemen. Deze eerste stap in het proces kan cruciaal zijn voor het verzamelen van nuttige informatie.
De volgende stap in het dataminingproces is exploratie. Deze stap omvat meestal het verzamelen van de vereiste gegevens uit een informatie-magazijn of verzamelentiteit. Vervolgens bereiden mijnexperts meestal de onbewerkte gegevenssets voor analyse voor. Deze stap bestaat meestal uit het verzamelen, opschonen, organiseren en controleren van alle gegevens op fouten.
Deze voorbereide gegevens gaan meestal vervolgens de derde stap in het dataminingproces in, modelbouw. Om dit te bereiken, nemen onderzoekers meestal kleine testmonsters van gegevens en passen ze verschillende dataminingtechnieken toe. De modelleringsstap wordt vaak gebruikt om de beste statistische analysemethode te bepalen die nodig is om de gewenste resultaten te bereiken.
Er zijn vier hoofdtechnieken die kunnen worden toegepast in het dataminingproces. De eerste is classificatie, die gegevens in vooraf gedefinieerde groepen of categorieën rangschikt. In de tweede techniek, genaamd clustering, staan onderzoekers de computer toe de gegevens in groepen te ordenen, naar eigen keuze. Een derde dataminingtechniek zoekt associaties tussen variabelen. De vierde zoekt meestal naar opeenvolgende patronen in de gegevens die kunnen worden gebruikt om toekomstige trends te voorspellen.
De laatste stap in het dataminingproces is de implementatie. Om dit te doen, worden de in het model gekozen technieken toegepast op de grotere gegevensset en worden de resultaten geanalyseerd. Het rapport dat uit deze stap komt, toont meestal de patronen die in het hele proces zijn gevonden, inclusief eventuele classificaties, clusters, associaties of opeenvolgende patronen die binnen de gegevensset bestaan.
Beoordeling is vaak een belangrijke laatste stap. Deze fase in het proces omvat meestal het herhalen van mijnbouwmodellen met een nieuwe gegevensset om ervoor te zorgen dat de hoofdset representatief was voor de hele gegevenspopulatie. De resultaten kunnen geen trends in de grotere populatie voorspellen als de gegevenssteekproef deze niet nauwkeurig weergeeft.