O que é mineração de estrutura?
A mineração de estrutura é um tipo de mineração de dados na qual uma fonte de dados semiestruturada é digitalizada e os elementos de sua estrutura são descobertos e destacados. Uma fonte de dados semiestruturada é aquela que não usa a estrutura tradicional do banco de dados das tabelas, mas possui um elemento semântico que separa informações por meio de tags e marcadores. A mineração de estrutura pode ser usada para minerar bancos de dados, sites e muitas outras formas de informações do computador para descobrir elementos da estrutura. Ajuda os usuários a entender como as peças interagem entre si ou como encontrar informações sob determinadas tags. Essa mineração também pode ser usada para prever o que é um item, com base nas regras escritas pelo usuário.
Existem muitos tipos diferentes de mineração de dados, e a maioria se preocupa em minerar uma fonte tradicionalmente estruturada. Isso inclui qualquer fonte que use as tabelas e nós típicos da maioria dos bancos de dados. Na mineração da estrutura, apenas dados semiestruturados são usados. Nesse caso, os dados são de sitesou bancos de dados simples que possuem uma estrutura, mas não aquela que está em conformidade com as regras tradicionais do banco de dados. Os dados precisam de tags ou marcadores que diferenciem cada item para ser extraído corretamente.
Ao ler o conjunto de dados semiestruturado, a mineração de estrutura é capaz de descobrir como a estrutura interage. Por exemplo, cada site possui um modelo de navegação e é esse modelo que determina como as páginas interagem. Ao minerar a estrutura, o usuário pode descobrir como essa navegação funciona, o que pode ajudar na criação de um esquema de navegação semelhante.
A mineração de estrutura também pode ser usada para encontrar itens escrevendo regras no programa de mineração. Por exemplo, se houver um conjunto de dados de livros, o usuário poderá escrever uma regra de que qualquer livro sem índice retorne como ficção e aqueles com um índice retornem como não ficção. A maioria dos livros de ficção não possui um índice, portanto, essa regra preverá com alta precisão quais são os dados. EsseAuxilia os usuários ao analisar um conjunto semiestruturado que possui um método organizacional, mas não um que se encaixa no que o usuário está procurando.
Depois de descobrir a estrutura da unidade semiestruturada, o usuário normalmente a compara a outra unidade semiestruturada. Se o usuário tiver um site de negócios, ele poderá extrair outro site de negócios para navegação e links e ver como seu site é semelhante. Ao comparar as informações extraídas, o usuário pode encontrar maneiras de aumentar a eficiência da estrutura.