Wat is datamining?
Datamining gebruikt een relatief grote hoeveelheid rekenkracht die op een grote set gegevens werkt om regelmatigheden en verbindingen tussen gegevenspunten te bepalen. Algoritmen die technieken uit statistiek, machine learning en patroonherkenning gebruiken, worden gebruikt om automatisch in grote databases te zoeken. Datamining is ook bekend als Knowledge-Discovery in Databases (KDD).
Net als de term kunstmatige intelligentie is datamining een overkoepelende term die kan worden toegepast op een aantal verschillende activiteiten. In de bedrijfswereld wordt datamining het meest gebruikt om de richting van trends te bepalen en de toekomst te voorspellen. Het wordt gebruikt om modellen en beslissingsondersteunende systemen te bouwen die mensen informatie geven die ze kunnen gebruiken. Datamining speelt een vooraanstaande rol in de strijd tegen het terrorisme. Het werd vermoedelijk gebruikt om de leider van de aanslagen van 9/11 te bepalen.
Datamijnwerkers zijn statistici die technieken gebruiken met namen zoals nabije buurmodellen , k-betekent clustering , holdout-methode , k-voudige kruisvalidatie , de leave-one-out-methode , enzovoort. Regressietechnieken worden gebruikt om irrelevante patronen af te trekken, waardoor alleen nuttige informatie overblijft. De term Bayesiaans wordt vaak in het veld gebruikt en verwijst naar een klasse van inferentietechnieken die de waarschijnlijkheid van toekomstige gebeurtenissen voorspellen door eerdere waarschijnlijkheden te combineren met waarschijnlijkheden op basis van voorwaardelijke gebeurtenissen. Spamfiltering is aantoonbaar een vorm van datamining, die automatisch relevante berichten naar de oppervlakte brengt vanuit een chaotische zee van phishing-pogingen en Viagra-pitches.
Beslisbomen worden gebruikt om bergen gegevens te filteren. In een beslissingsboom gaan alle gegevens door een toegangsknooppunt, waar deze wordt geconfronteerd met een filter dat de gegevens scheidt in stromen, afhankelijk van de kenmerken ervan. Gegevens over consumentengedrag worden bijvoorbeeld waarschijnlijk gefilterd op basis van demografische factoren. Datamining gaat niet primair over fraaie grafieken en visualisatietechnieken, maar het gebruikt ze wel om te laten zien wat het heeft gevonden. Het is bekend dat we visueel meer statistische informatie kunnen opnemen dan verbaal en dit formaat voor presentatie kan zeer overtuigend en krachtig zijn als het in de juiste context wordt gebruikt.
Naarmate onze beschaving steeds meer gegevensverzadigd raakt en sensoren massaal worden gedistribueerd in onze lokale omgevingen, zullen we onbedoeld dingen ontdekken die mogelijk worden gemist bij de eerste overgang. Met datamining kunnen we deze fouten corrigeren en nieuwe inzichten ontdekken op basis van gegevens uit het verleden, waardoor we meer waar voor ons geld hebben.