Qual é o processo de mineração de dados?

O processo de mineração de dados é uma ferramenta para descobrir padrões estatisticamente significativos em uma grande quantidade de dados. Normalmente, envolve cinco etapas principais, que incluem preparação, exploração de dados, construção de modelos, implantação e revisão. Cada etapa do processo envolve um conjunto diferente de técnicas, mas a maioria usa alguma forma de análise estatística. Essa etapa de preparação geralmente determina que tipos de dados precisam ser estudados, quais técnicas de mineração de dados devem ser usadas e o que os resultados levarão. Essa etapa inicial do processo pode ser crucial para coletar informações úteis.

A próxima etapa no processo de mineração de dados é a exploração. Essa etapa geralmente envolve a coleta dos dados necessários de um armazém de informações ou entidade de coleta. Em seguida, os especialistas em mineração normalmente preparam os conjuntos de dados brutos para análise. Esta etapa geralmente consiste em reunir, limpar, organizar eVerificando todos os dados quanto a erros. Para conseguir isso, os pesquisadores normalmente coletam pequenas amostras de dados e aplicam uma variedade de técnicas de mineração de dados a eles. A etapa de modelagem é frequentemente usada para determinar o melhor método de análise estatística necessária para alcançar os resultados desejados.

Existem quatro técnicas principais que podem ser aplicadas no processo de mineração de dados. A primeira é a classificação, que organiza dados em grupos ou categorias predefinidas. Na segunda técnica, chamada de clustering, os pesquisadores permitem que o computador organize os dados em grupos, como escolhe. Uma terceira técnica de mineração de dados busca associações entre variáveis. O quarto geralmente procura padrões seqüenciais nos dados que podem ser usados ​​para prever tendências futuras.

A etapa final no Data Mining ProCess é implantação. Para fazer isso, as técnicas escolhidas no modelo são aplicadas ao conjunto de dados maior e os resultados são analisados. O relatório que vem desta etapa geralmente mostra os padrões encontrados em todo o processo, incluindo classificações, clusters, associações ou padrões seqüenciais existentes no conjunto de dados.

A revisão geralmente é uma etapa final importante. Essa fase do processo geralmente envolve a repetição de modelos de mineração com um novo conjunto de dados para garantir que o conjunto principal fosse representativo de toda a população de dados. Os resultados não podem prever tendências na população maior se a amostra de dados não o representar com precisão.

OUTRAS LÍNGUAS

Este artigo foi útil? Obrigado pelo feedback Obrigado pelo feedback

Como podemos ajudar? Como podemos ajudar?