Wat zijn de belangrijkste concepten voor datamining?

De belangrijkste dataminingconcepten worden gebruikt voor de analyse van verzamelde informatie, met name in de poging om een ​​gedrag te observeren. Onbekende interacties tussen gegevens worden op verschillende manieren onderzocht om kritische relaties tussen onderwerpen en geaggregeerde informatie vast te stellen. Een uitdaging in datamining is dat de werkelijke verzamelde informatie mogelijk niet doet denken aan het hele domein. In een poging om dit feit aan te pakken, kunnen correlaties tussen de gegevens methodisch worden bestuurd door de verschillende dataminingconcepten.

Normen voor dataminingconcepten worden afgedwongen door de Special Interest Group van de Association for Computing Machinery over kennisontdekking en datamining (SIGKDD). Deze organisatie publiceert het "International Journal of Information Technology and Decision Making", evenals het tijdschrift SIGKDD Explorations. het afdwingen van ethiek en basisprincipes van datamining houdt de industrie efficiënt en met beperkte juridische problemen.

Voorbewerking van de informatie is een van de belangrijkste aspecten van datamining. De onbewerkte gegevens moeten worden gedolven en geïnterpreteerd. Om deze actie uit te voeren, moet een proces worden bepaald, moeten de doelgegevens worden geassembleerd en worden patronen gevonden. Het proces staat bekend als kennisontdekking in databases en is ontwikkeld door Gregory Piatetsky-Shapiro in 1989.

Vier verschillende klassen van dataminingconcepten laten het proces plaats. clustering maakt gebruik van het algoritme dat is gemaakt vanuit het dataminingproces om items in vergelijkbare groepen samen te stellen. In tegenstelling tot clustering is classificatie van de informatie wanneer de gegevens worden geassembleerd in vooraf gedefinieerde groepen en geanalyseerd. associatie probeert relaties te vinden tussen variabelen, waarbij wordt bepaald welke gegevensgroepen vaak worden geassocieerd. Het uiteindelijke type datamining is regressie , gebaseerd op de methode Of Een functie identificeren binnen de gegevensverzameling.

Het valideren van de informatie is de laatste stap bij het ontdekken van wat de toepassing data mining vertegenwoordigt. Wanneer niet alle algoritmen een geldige gegevensset presenteren, kunnen de patronen die zich voordoen, resulteren in een situatie die overfitting wordt genoemd. Om dit probleem op te lossen, worden de gegevens vergeleken met een testset. Dit is een concept waarin de metingen worden afgestemd op een reeks algoritmen die een plausibele set gegevenssets zouden bieden. Als de verkregen informatie niet in overeenstemming is met de testset, moeten de veronderstelde patronen in de gegevens onnauwkeurig zijn.

Enkele van de belangrijkste data -mijnbouwconcepten komen voor in verschillende industrieën. Gaming, bedrijf, marketing, wetenschap, engineering en surveillance maken allemaal gebruik van dataminingtechnieken. Door deze technieken uit te voeren, kan elk veld de beste praktijken of betere manieren bepalen om resultaten te vinden.

ANDERE TALEN