Wat is het verschil tussen datamining en datawarehousing?
De termen datamining en datawarehousing worden vaak verward door zowel zakelijk als technisch personeel. Het hele gebied van gegevensbeheer heeft een fenomenale groei doorgemaakt met de implementatie van softwareprogramma's voor gegevensverzameling en de lagere kosten van computergeheugen. Het primaire doel achter deze beide functies is om de tools en methoden te bieden om de patronen en betekenis in een grote hoeveelheid gegevens te verkennen.
De belangrijkste verschillen tussen datamining en datawarehousing zijn de systeemontwerpen, de gebruikte methodologie en het doel. Datamining is het gebruik van patroonherkenningslogica om trends in een voorbeeldgegevensset te identificeren en deze informatie te extrapoleren naar de grotere gegevenspool. Data warehousing is het extraheren en opslaan van gegevens om rapportage eenvoudiger te maken.
Datamining is een algemene term die wordt gebruikt om een reeks bedrijfsprocessen te beschrijven die patronen ontlenen aan gegevens. Doorgaans wordt een softwarepakket voor statistische analyse gebruikt om specifieke patronen te identificeren, op basis van de gegevensset en vragen die door de eindgebruiker zijn gegenereerd. Een typisch gebruik van datamining is om gerichte marketingprogramma's te maken, financiële fraude te identificeren en ongebruikelijke gedragspatronen te markeren als onderdeel van een beveiligingsonderzoek.
Een uitstekend voorbeeld van datamining is het proces dat door telefoonbedrijven wordt gebruikt om producten aan bestaande klanten op de markt te brengen. Het telefoonbedrijf gebruikt software voor datamining om toegang te krijgen tot de database met klantinformatie. Er wordt een query geschreven om klanten te identificeren die zich gedurende een bepaald tijdsbestek hebben geabonneerd op het basistelefoonpakket en de internetservice. Nadat deze gegevensset is geselecteerd, wordt er een nieuwe vraag geschreven om te bepalen hoeveel van deze klanten gebruik hebben gemaakt van gratis extra telefoonfuncties tijdens een proefpromotie. De resultaten van deze data mining-oefening onthullen gedragspatronen die een marketingplan kunnen stimuleren of helpen verfijnen om het gebruik van extra telefoondiensten te vergroten.
Het is belangrijk op te merken dat het primaire doel van datamining is om patronen in de gegevens te herkennen. De specificaties die worden gebruikt om de steekproefset te definiëren, hebben een enorme impact op de relevantie van de output en de nauwkeurigheid van de analyse. Terugkerend naar het bovenstaande voorbeeld, als de gegevensset beperkt is tot klanten binnen een specifiek geografisch gebied, zullen de resultaten en patronen verschillen van een bredere gegevensset. Hoewel zowel datamining als datawarehousing met grote hoeveelheden informatie werken, zijn de gebruikte processen nogal verschillend.
Een datawarehouse is een softwareproduct dat wordt gebruikt om grote hoeveelheden gegevens op te slaan en specifiek ontworpen query's en rapporten uit te voeren. Business intelligence is een groeiend studiegebied dat zich richt op datawarehousing en gerelateerde functionaliteit. Deze tools zijn ontworpen om gegevens te extraheren en op te slaan in een methode die is ontworpen om verbeterde systeemprestaties te bieden. Veel van de terminologie in datamining en datawarehousing is hetzelfde, wat leidt tot meer verwarring.