Wat is datamining?
Datamining maakt gebruik van een relatief grote hoeveelheid rekenkracht die werkt op een grote set gegevens om regelmatigheden en verbindingen tussen gegevenspunten te bepalen. Algoritmen die technieken gebruiken uit statistieken, machine learning en patroonherkenning worden gebruikt om automatisch grote databases te doorzoeken. Datamining wordt ook bekend als kennisontdekking in databases (KDD).
Zoals de term kunstmatige intelligentie , is datamining een overkoepelende term die kan worden toegepast op een aantal verschillende activiteiten. In de bedrijfswereld wordt datamining het meest gebruikt om de richting van trends te bepalen en de toekomst te voorspellen. Het wordt gebruikt om modellen en beslissingsondersteunende systemen te bouwen die mensen informatie geven die ze kunnen gebruiken. Datamining speelt een front-line rol in de strijd tegen terrorisme. Het werd zogenaamd gebruikt om de leider van de 9/11 aanvallen te bepalen.
Dataminers zijn statistici die technieken gebruiken met namen als bijna-bor-modellen , k-middelenRing , holdout-methode , k-voudige kruisvalidatie , de methode verlof-uit-out , enzovoort. Regressietechnieken worden gebruikt om irrelevante patronen af te trekken, waardoor alleen nuttige informatie achterblijft. De term Bayesian wordt vaak in het veld gezien, verwijzend naar een klasse van inferentietechnieken die de kans op toekomstige gebeurtenissen voorspellen door eerdere kansen en waarschijnlijkheden te combineren op basis van voorwaardelijke gebeurtenissen. Spamfiltering is aantoonbaar een vorm van datamining, die automatisch relevante berichten naar de oppervlakte brengt van een chaotische zee van phishing -pogingen en viagra -toonhoogtes.
Beslissingsbomen worden gebruikt om bergen van gegevens te filteren. In een beslissingsboom gaan alle gegevens door een toegangsknooppunt, waar het op een filter wordt geconfronteerd dat de gegevens in streams scheidt, afhankelijk van de kenmerken ervan. Gegevens over consumentengedrag worden bijvoorbeeld waarschijnlijk gefilterd op basis van DEmografische factoren. Datamining gaat niet in de eerste plaats over chique grafieken en visualisatietechnieken, maar het gebruikt ze wel om te laten zien wat het heeft gevonden. Het is bekend dat we visueel meer statistische informatie kunnen absorberen dan verbaal en dit formaat voor presentatie kan zeer overtuigend en krachtig zijn als het in de juiste context wordt gebruikt.
Naarmate onze beschaving in toenemende mate data-verzadigd wordt en sensoren massaal worden verdeeld in onze lokale omgevingen, zullen we onbedoeld dingen ontdekken die op de eerste pass over kunnen worden gemist. Data Mining laat ons deze fouten corrigeren en nieuwe inzichten ontdekken op basis van gegevens uit het verleden, waardoor we meer waar zijn voor onze gegevensopslagbok.