Skip to main content

O que é Mineração de Estrutura?

A mineração de estrutura é um tipo de mineração de dados em que uma fonte de dados semiestruturada é varrida e os elementos de sua estrutura são descobertos e destacados. Uma fonte de dados semiestruturada é aquela que não usa a estrutura tradicional de banco de dados de tabelas, mas possui um elemento semântico que separa as informações por meio de tags e marcadores. A mineração de estrutura pode ser usada para minerar bancos de dados, sites e muitas outras formas de informações de computador para descobrir elementos da estrutura. Ajuda os usuários a entender como as peças interagem umas com as outras ou como encontrar informações sob determinadas tags. Essa mineração também pode ser usada para prever o que é um item, com base nas regras escritas pelo usuário.

Existem muitos tipos diferentes de mineração de dados, e a maioria está preocupada em minerar uma fonte estruturada tradicionalmente. Isso inclui qualquer fonte que use as tabelas e nós típicos da maioria dos bancos de dados. Na mineração de estrutura, apenas dados semiestruturados são usados. Nesse caso, os dados são de sites ou bancos de dados simples que possuem uma estrutura, mas não uma que esteja em conformidade com as regras tradicionais do banco de dados. Os dados precisam de tags ou marcadores que separem cada item para serem minados adequadamente.

Ao ler o conjunto de dados semiestruturado, a mineração de estrutura é capaz de descobrir como a estrutura interage. Por exemplo, cada site tem um modelo de navegação e é esse modelo que determina como as páginas interagem. Ao minerar a estrutura, o usuário pode descobrir como essa navegação funciona, o que pode ajudar na criação de um esquema de navegação semelhante.

A mineração de estrutura também pode ser usada para encontrar itens, escrevendo regras no programa de mineração. Por exemplo, se houver um conjunto de dados de livros, o usuário poderá escrever uma regra de que todos os livros sem um índice retornem como ficção e aqueles com um índice retornem como não-ficção. Como a maioria dos livros de ficção não possui um índice, essa regra prevê com alta precisão quais são os dados. Isso ajuda os usuários a olhar para um conjunto semiestruturado que possui um método organizacional, mas não aquele que se encaixa no que o usuário está procurando.

Depois de descobrir a estrutura da unidade semiestruturada, o usuário normalmente a compara com outra unidade semiestruturada. Se o usuário tiver um site comercial, ele poderá explorar outro site comercial para navegação e links e ver como o site dele é semelhante. Ao comparar as informações extraídas, o usuário pode encontrar maneiras de aumentar a eficiência da estrutura.