Wat is statistische datamining?
Statistische datamining, ook bekend als kennis of gegevensontdekking, is een geautomatiseerde methode voor het verzamelen en analyseren van informatie. De tool voor het bewerken van datamijnen neemt gegevens en categoriseert de informatie om patronen of correlaties te ontdekken die kunnen worden gebruikt in belangrijke toepassingen, zoals medicijnen, computerprogrammering, bedrijfspromotie en robotachtig ontwerp. Statistische dataminingtechnieken gebruiken complexe wiskunde en gecompliceerde statistische processen om een analyse te maken.
Datamining omvat vijf belangrijke stappen. De eerste data-mining-applicatie verzamelt statistische gegevens en plaatst de informatie in een programma van het magazijn-type. Vervolgens zijn de gegevens in het magazijn georganiseerd en creëert een managementsysteem. De volgende stap creëert een manier om toegang te krijgen tot de beheerde gegevens. Vervolgens ontwikkelt de vierde stap software om de gegevens te analyseren, ook bekend als dataminingregressie, terwijl de laatste stap de statistische gegevens op een praktische manier vergemakkelijkt of interpreteren.
Over het algemeen, dataminingTechnieken integreren analytische en transactiegegevenssystemen. Analytische software sorteert door beide soorten datasystemen met behulp van open gebruikersvragen. Open vragen stellen talloze antwoorden toe, zodat programmeurs de resultaten van het sorteren niet beïnvloeden. Programmeurs maken lijsten met vragen om te helpen bij het categoriseren van de informatie met behulp van een algemene focus.
Sortering is vervolgens gebaseerd op het ontwikkelen van klassen en clusters van gegevens, associaties die in de gegevens worden gevonden en pogingen om patronen en trends te definiëren op basis van de associaties. Google verzamelt bijvoorbeeld informatie over de aankoopgewoonten van gebruikers om te helpen bij het plaatsen van online advertenties. Open vragen die worden gebruikt om deze kopersgegevens te sorteren, focussen op het kopen van voorkeuren of kijkgewoonten van internetgebruikers.
Computerwetenschappers en programmeurs richten zich op de analyse van de verzamelde statistische gegevens. Creatie van beslissingsbomen, artifiCiale neurale netwerken, de dichtstbijzijnde buurmethode, regelinductie, datavisualisatie en genetische algoritmen gebruiken allemaal de statistisch gemineerde gegevens. Deze classificatiesystemen helpen bij het interpreteren van de associaties die zijn ontdekt door de analytische gegevensprogramma's. Statistische datamining omvat kleine projecten die op kleine schaal op een thuiscomputer kunnen worden gedaan, maar de meeste sets voor data mining associatie zijn zo groot en de data-mijnbouwregressie zo ingewikkeld dat ze een supercomputer of een netwerk van high-speed computers vereisen.
Statistische datamining verzamelt drie algemene soorten gegevens, waaronder operationele gegevens, niet-operationele gegevens en metategevens. In een kledingwinkel zijn operationele gegevens basisgegevens die worden gebruikt om het bedrijf te runnen, zoals boekhouding, verkoop en voorraadbeheer. Niet-operationele gegevens, die indirect verband houden met het bedrijf, bevatten schattingen van toekomstige verkoop en algemene informatie over de nationale kledingmarkt. Metagegevens hebben betrekking op de gegevens zelf. Een programma uSing -metagegevens kunnen klanten sorteren in classificaties op basis van geslacht of geografische locatie van de kledingkopers of de favoriete kleur van de klanten, als die gegevens zijn verzameld.
Een toepassing voor datamining kan extreem geavanceerd zijn en de statistische tool voor het optreden van data -mining kan wijdverbreide praktische toepassingen hebben. De studie van uitbraken van ziekten is een voorbeeld. Een 2000 Data Mining Project analyseerde de ziekte -uitbraak van cryptosporidium in Ontario, Canada om de oorzaken van de toename van de ziektegevallen te bepalen. De resultaten van de datamining hebben geholpen bij het koppelen van de uitbraak van bacteriën aan lokale wateromstandigheden en het ontbreken van een goede gemeentelijke waterbehandeling. Een veld genaamd "Biosurveillance" maakt gebruik van epidemiologische datamining om uitbraken van een enkele ziekte te identificeren.
Computerprogrammeurs en ontwerpers maken ook gebruik van de studie van waarschijnlijkheid en statistische gegevensanalyse om machines en computerprogramma's te ontwikkelen. De Google Internet -zoekmachine is ontworpen met behulp van STATistische datamining. Google blijft datamining verzamelen en gebruiken om programma -updates en applicaties te maken.