O que é mineração de dados estatísticos?
A mineração de dados estatísticos, também conhecida como conhecimento ou descoberta de dados, é um método computadorizado de coleta e análise de informações. A ferramenta de mineração de dados pega dados e categoriza as informações para descobrir padrões ou correlações que podem ser usadas em aplicativos importantes, como medicina, programação de computadores, promoção de negócios e design robótico. As técnicas estatísticas de mineração de dados usam matemática complexa e processos estatísticos complicados para criar uma análise.
A mineração de dados envolve cinco etapas principais. O primeiro aplicativo de mineração de dados coleta dados estatísticos e coloca as informações em um programa do tipo armazém. Em seguida, os dados no armazém são organizados e cria um sistema de gerenciamento. A próxima etapa cria uma maneira de acessar os dados gerenciados. Em seguida, a quarta etapa desenvolve software para analisar os dados, também conhecidos como regressão de mineração de dados, enquanto a etapa final facilita o uso ou a interpretação dos dados estatísticos de maneira prática.
Geralmente, mineração de dadosAs técnicas integram sistemas de dados analíticos e de transação. O software analítico classifica através dos dois tipos de sistemas de dados usando questões de usuário aberto. As perguntas abertas permitem inúmeras respostas para que os programadores não estejam influenciando os resultados da classificação. Os programadores criam listas de perguntas para ajudar a categorizar as informações usando um foco geral.
A classificação é então baseada no desenvolvimento de classes e aglomerados de dados, associações encontradas nos dados e tenta definir padrões e tendências com base nas associações. Por exemplo, o Google coleta informações sobre os hábitos de compra dos usuários para ajudar na colocação de publicidade on -line. Perguntas abertas usadas para classificar esses dados do comprador se concentram nas preferências de compra ou nos hábitos de visualização dos usuários da Internet.
Cientistas e programadores da computação se concentram na análise dos dados estatísticos coletados. Criação de árvores de decisão, artefiRedes neurais ciais, método do vizinho mais próximo, indução de regras, visualização de dados e algoritmos genéticos usam os dados estatisticamente reduzidos. Esses sistemas de classificação ajudam na interpretação das associações descobertas pelos programas de dados analíticos. A mineração de dados estatística envolve pequenos projetos que podem ser feitos em pequena escala em um computador doméstico, mas a maioria dos conjuntos de associações de mineração de dados é tão grande e a regressão de mineração de dados tão complicada que eles exigem um supercomputador ou uma rede de computadores de alta velocidade.
A mineração de dados estatísticos coleta três tipos gerais de dados, incluindo dados operacionais, dados não operacionais e meta dados. Em uma loja de roupas, os dados operacionais são dados básicos usados para administrar os negócios, como contabilidade, vendas e controle de inventário. Os dados não operacionais, indiretamente relacionados ao negócio, incluem estimativas de vendas futuras e informações gerais sobre o mercado nacional de roupas. Meta dados dizem respeito aos próprios dados. Um programa uSing Meta Data pode classificar os clientes em classificações com base no gênero ou na localização geográfica dos compradores de roupas ou na cor favorita dos clientes, se esses dados foram coletados.
Um aplicativo de mineração de dados pode ser extremamente sofisticado e a ferramenta de mineração de dados estatística pode ter aplicativos práticos generalizados. O estudo dos surtos de doenças é um exemplo. Um projeto de mineração de dados de 2000 analisou o surto da doença de Cryptosporidium em Ontário, Canadá, para determinar as causas do aumento dos casos de doenças. Os resultados da mineração de dados ajudaram a vincular o surto de bactérias às condições locais da água e à falta de tratamento de água municipal adequado. Um campo chamado "biossurveilância" usa mineração de dados epidemiológicos para identificar surtos de uma única doença.
Programadores e designers de computadores também empregam o estudo de probabilidade e análise de dados estatísticos para desenvolver máquinas e programas de computador. O mecanismo de pesquisa da Internet do Google foi projetado usando STAmineração de dados tísticos. O Google continua a coletar e usar a mineração de dados para criar atualizações e aplicativos do programa.