O que é mineração de dados estatísticos?

A mineração de dados estatísticos, também conhecida como conhecimento ou descoberta de dados, é um método computadorizado de coleta e análise de informações. A ferramenta de mineração de dados coleta dados e categoriza as informações para descobrir padrões ou correlações que podem ser usadas em aplicativos importantes, como medicina, programação de computadores, promoção de negócios e design robótico. As técnicas de mineração de dados estatísticos usam matemática complexa e processos estatísticos complicados para criar uma análise.

A mineração de dados envolve cinco etapas principais. O primeiro aplicativo de mineração de dados coleta dados estatísticos e coloca as informações em um programa do tipo armazém. Em seguida, os dados no armazém são organizados e criam um sistema de gerenciamento. A próxima etapa cria uma maneira de acessar os dados gerenciados. Em seguida, o quarto passo desenvolve software para analisar os dados, também conhecido como regressão de mineração de dados, enquanto o passo final facilita o uso ou a interpretação dos dados estatísticos de maneira prática.

Geralmente, as técnicas de mineração de dados integram sistemas de dados analíticos e de transações. O software analítico classifica os dois tipos de sistemas de dados usando perguntas abertas do usuário. Perguntas abertas permitem inúmeras respostas para que os programadores não influenciem os resultados da classificação. Os programadores criam listas de perguntas para ajudar a categorizar as informações usando um foco geral.

A classificação é então baseada no desenvolvimento de classes e agrupamentos de dados, associações encontradas nos dados e tentativas de definir padrões e tendências com base nas associações. Por exemplo, o Google coleta informações sobre os hábitos de compra dos usuários para ajudar na colocação de publicidade on-line. As perguntas abertas usadas para classificar os dados deste comprador se concentram nas preferências de compra ou nos hábitos de visualização dos usuários da Internet.

Cientistas da computação e programadores se concentram na análise dos dados estatísticos coletados. A criação de árvores de decisão, redes neurais artificiais, método do vizinho mais próximo, indução de regras, visualização de dados e algoritmos genéticos, todos usam os dados estatisticamente minados. Esses sistemas de classificação auxiliam na interpretação das associações descobertas pelos programas de dados analíticos. A mineração estatística de dados envolve pequenos projetos que podem ser realizados em pequena escala em um computador doméstico, mas a maioria dos conjuntos de associações de mineração de dados é tão grande e a regressão de mineração de dados é tão complicada que exige um supercomputador ou uma rede de computadores de alta velocidade.

A mineração de dados estatísticos coleta três tipos gerais de dados, incluindo dados operacionais, dados não operacionais e metadados. Em uma loja de roupas, os dados operacionais são dados básicos usados ​​para administrar os negócios, como contabilidade, vendas e controle de estoque. Os dados não operacionais, indiretamente relacionados aos negócios, incluem estimativas de vendas futuras e informações gerais sobre o mercado nacional de roupas. Os metadados dizem respeito aos próprios dados. Um programa que usa metadados pode classificar os clientes da loja em classificações com base no sexo ou na localização geográfica dos compradores de roupas ou na cor favorita dos clientes, se esses dados foram coletados.

Um aplicativo de mineração de dados pode ser extremamente sofisticado e a ferramenta de mineração de dados estatísticos pode ter aplicativos práticos amplamente difundidos. O estudo de surtos de doenças é um exemplo. Um projeto de mineração de dados de 2000 analisou o surto de doença do cryptosporidium em Ontario, Canadá, para determinar as causas do aumento de casos de doenças. Os resultados da mineração de dados ajudaram a vincular o surto de bactérias às condições locais da água e à falta de tratamento municipal adequado da água. Um campo chamado "biossovigilância" utiliza mineração de dados epidemiológicos para identificar surtos de uma única doença.

Programadores e projetistas de computadores também empregam o estudo de probabilidade e análise de dados estatísticos para desenvolver máquinas e programas de computador. O mecanismo de busca na Internet do Google foi projetado usando mineração de dados estatísticos. O Google continua a coletar e usar a mineração de dados para criar aplicativos e atualizações de programas.

OUTRAS LÍNGUAS

Este artigo foi útil? Obrigado pelo feedback Obrigado pelo feedback

Como podemos ajudar? Como podemos ajudar?