O que é mineração de dados?
A mineração de dados usa uma quantidade relativamente grande de energia computacional operando em um grande conjunto de dados para determinar regularidades e conexões entre os pontos de dados. Algoritmos que empregam técnicas de estatística, aprendizado de máquina e reconhecimento de padrões são usados para pesquisar grandes bancos de dados automaticamente. A mineração de dados também é conhecida como descoberta de conhecimento em bancos de dados (KDD).
Como o termo inteligência artificial , mineração de dados é um termo genérico que pode ser aplicado a várias atividades variadas. No mundo corporativo, a mineração de dados é usada com mais freqüência para determinar a direção das tendências e prever o futuro. Ele é empregado para criar modelos e sistemas de suporte a decisões que fornecem às pessoas informações que elas podem usar. A mineração de dados assume um papel de linha de frente na batalha contra o terrorismo. Supostamente foi usado para determinar o líder dos ataques do 11 de Setembro.
Os mineradores de dados são estatísticos que usam técnicas com nomes como modelos de vizinhos próximos , cluster de médias k , método de validação , validação cruzada de dobras em k , método de exclusão única e assim por diante. Técnicas de regressão são usadas para subtrair padrões irrelevantes, deixando apenas informações úteis. O termo Bayesiano é visto com frequência no campo, referindo-se a uma classe de técnicas de inferência que predizem a probabilidade de eventos futuros combinando probabilidades e probabilidades anteriores com base em eventos condicionais. A filtragem de spam é sem dúvida uma forma de mineração de dados, que automaticamente traz mensagens relevantes para a superfície de um mar caótico de tentativas de phishing e lançamentos de Viagra.
As árvores de decisão são usadas para filtrar montanhas de dados. Em uma árvore de decisão, todos os dados passam por um nó de entrada, onde enfrentam um filtro que separa os dados em fluxos, dependendo de suas características. Por exemplo, é provável que os dados sobre o comportamento do consumidor sejam filtrados com base em fatores demográficos. A mineração de dados não se refere principalmente a gráficos sofisticados e técnicas de visualização, mas os emprega para mostrar o que encontrou. Sabe-se que podemos absorver mais informações estatísticas visualmente do que verbalmente e esse formato para apresentação pode ser muito persuasivo e poderoso se usado no contexto certo.
À medida que nossa civilização se torna cada vez mais saturada de dados e os sensores são distribuídos em massa em nossos ambientes locais, descobrimos inadvertidamente coisas que podem ser perdidas na primeira passagem. A mineração de dados nos permitirá corrigir esses erros e descobrir novos insights com base em dados passados, dando-nos mais benefícios para nossos investimentos em armazenamento de dados.