Wat is statistische datamining?
Statistische datamining, ook bekend als kennis of data-ontdekking, is een geautomatiseerde methode voor het verzamelen en analyseren van informatie. De dataminingtool neemt gegevens op en categoriseert de informatie om patronen of correlaties te ontdekken die kunnen worden gebruikt in belangrijke toepassingen, zoals medicijnen, computerprogrammering, bedrijfspromotie en robotontwerp. Statistische dataminingtechnieken gebruiken complexe wiskunde en ingewikkelde statistische processen om een analyse te maken.
Datamining omvat vijf belangrijke stappen. De eerste data mining-applicatie verzamelt statistische gegevens en plaatst de informatie in een programma van het magazijntype. Vervolgens worden de gegevens in het magazijn georganiseerd en ontstaat een beheersysteem. De volgende stap creëert een manier om toegang te krijgen tot de beheerde gegevens. Vervolgens ontwikkelt de vierde stap software om de gegevens te analyseren, ook bekend als dataminingregressie, terwijl de laatste stap het gebruiken of interpreteren van de statistische gegevens op een praktische manier vergemakkelijkt.
Over het algemeen integreren dataminingtechnieken analytische en transactiegegevenssystemen. Analytische software sorteert beide typen gegevenssystemen met open vragen van gebruikers. Vragen met een open einde laten talloze antwoorden toe, zodat programmeurs de resultaten van het sorteren niet beïnvloeden. Programmeurs maken vragenlijsten om de informatie te categoriseren met behulp van een algemene focus.
Sorteren is vervolgens gebaseerd op het ontwikkelen van klassen en clusters van gegevens, in de gegevens gevonden associaties en pogingen om patronen en trends te definiëren op basis van de associaties. Google verzamelt bijvoorbeeld informatie over het koopgedrag van gebruikers om te helpen bij het plaatsen van online advertenties. Vragen met een open einde die worden gebruikt om deze kopersgegevens te sorteren, zijn gericht op koopvoorkeuren of kijkgewoonten van internetgebruikers.
Computerwetenschappers en programmeurs richten zich op de analyse van de statistische gegevens die worden verzameld. Het maken van beslissingsbomen, kunstmatige neurale netwerken, de methode van de dichtstbijzijnde buur, regelinductie, datavisualisatie en genetische algoritmen gebruiken allemaal de statistisch gedolven gegevens. Deze classificatiesystemen helpen bij het interpreteren van de associaties ontdekt door de analytische gegevensprogramma's. Statistische datamining omvat kleine projecten die op kleine schaal op een thuiscomputer kunnen worden uitgevoerd, maar de meeste sets van datamining-associaties zijn zo groot en de regressie van datamining zo ingewikkeld dat ze een supercomputer of een netwerk van high-speed computers vereisen.
Statistische datamining verzamelt drie algemene soorten gegevens, waaronder operationele gegevens, niet-operationele gegevens en metagegevens. In een kledingwinkel zijn operationele gegevens basisgegevens die worden gebruikt om het bedrijf te runnen, zoals boekhouding, verkoop en voorraadbeheer. Niet-operationele gegevens, die indirect verband houden met het bedrijf, omvatten schattingen van toekomstige verkopen en algemene informatie over de nationale kledingmarkt. Metagegevens hebben betrekking op de gegevens zelf. Een programma dat metagegevens gebruikt, kan winkelklanten sorteren in classificaties op basis van geslacht of geografische locatie van de kopers van kleding of de favoriete kleur van de klant, als die gegevens werden verzameld.
Een datamining-applicatie kan extreem geavanceerd zijn en de statistische datamining-tool kan veel praktische toepassingen hebben. De studie van uitbraken van ziekten is een voorbeeld. Een 2000 datamining-project analyseerde de ziekte-uitbraak van cryptosporidium in Ontario, Canada om de oorzaken van de toename van ziektegevallen te bepalen. De resultaten van de datamining hielpen bij het koppelen van de uitbraak van bacteriën aan lokale wateromstandigheden en het gebrek aan een goede gemeentelijke waterbehandeling. Een veld genaamd "biosurveillance" maakt gebruik van epidemiologische datamining om uitbraken van een enkele ziekte te identificeren.
Computerprogrammeurs en ontwerpers gebruiken ook de studie van waarschijnlijkheid en statistische gegevensanalyse om machines en computerprogramma's te ontwikkelen. De Google-internetzoekmachine is ontworpen met behulp van statistische datamining. Google blijft datamining verzamelen en gebruiken om programma-updates en applicaties te maken.