O que é Mineração por Sequência?
Mineração por sequência é um tipo de mineração de dados estruturada na qual o banco de dados e o administrador procuram sequências ou tendências nos dados. Essa mineração de dados é dividida em dois campos. A mineração por sequência de conjuntos de itens geralmente é usada no marketing e a mineração por sequência de seqüências é usada na pesquisa em biologia. A mineração de sequência é diferente da mineração de tendência regular, porque os dados são mais específicos, o que dificulta a criação de um banco de dados eficaz para os projetistas de banco de dados e, às vezes, pode dar errado se a sequência for diferente da sequência comum.
Em um ponto ou outro, todos os bancos de dados são usados para extrair dados. Essa mineração ajuda empresas e grupos de pesquisa a encontrarem o que precisam. Geralmente, eles estão procurando algum tipo de tendência, mas qual é essa tendência e quão específica é a informação dependerá do design do banco de dados. Na mineração de sequência, o banco de dados é construído para encontrar sequências muito específicas, com pouca ou nenhuma variação. Essa é uma forma exclusiva de mineração de dados estruturada, na qual o banco de dados procura semelhanças nos dados estruturados.
A mineração de sequência pode ser dividida em duas categorias. A mineração de itens é usada em marketing e negócios para encontrar tendências específicas em números de vendas, tipos de produtos, localização de produtos em uma loja e uso de um produto. Esses números são obtidos e aplicados a algoritmos de marketing para ajudar a criar estratégias para um projeto de marketing e aumentar as vendas. As informações sobre um produto e como ele geralmente são obtidas do banco de dados, mas o aspecto definidor da mineração da sequência do conjunto de itens é que a sequência é obtida das células do banco de dados com vários símbolos.
A mineração de seqüência de caracteres é o oposto da mineração do conjunto de itens, pois olha cada símbolo individualmente e não como um cluster. Na mineração de cadeias, o banco de dados pode ser configurado para encontrar uma sequência de uma fonte de proteína ou amostras de genes. Isso ajuda a comparar muitas amostras de genes para verificar se são iguais ou para quebrar grandes seqüências e descobrir quais sequências elas contêm. Equipes de pesquisa principalmente biológicas e médicas usam isso.
A criação de um banco de dados para mineração de sequência pode ser difícil porque, diferentemente da mineração de tendências e de outra mineração de dados estruturados, as sequências devem corresponder especificamente. Isso também leva ao problema de mineração de seqüências. Se a sequência for diferente, ela não será reconhecida, o que pode dificultar a mineração do conjunto de itens. A mineração de cordas geralmente se beneficia disso, porque a menor diferença em uma amostra de tecido pode tornar o organismo - ou o que quer que a equipe de pesquisa esteja pesquisando - completamente distinto de outras amostras.