¿Qué es la minería de la estructura?

La minería de la estructura es un tipo de minería de datos en la que se escanea y resaltan una fuente de datos semiestructurada y se descubren y resaltan elementos de su estructura. Una fuente de datos semiestructurada es aquella que no utiliza la estructura de la base de datos tradicional de las tablas, pero tiene un elemento semántico que separa la información a través de etiquetas y marcadores. La minería de estructura se puede utilizar para extraer bases de datos, sitios web y muchas otras formas de información informática para descubrir elementos de la estructura. Ayuda a los usuarios a comprender cómo las piezas interactúan entre sí o cómo encontrar información bajo ciertas etiquetas. Esta minería también se puede utilizar para predecir qué es un elemento, basado en reglas escritas por el usuario.

Hay muchos tipos diferentes de minería de datos, y la mayoría se preocupa por la minería de una fuente tradicionalmente estructurada. Esto incluye cualquier fuente que use las tablas y nodos típicos de la mayoría de las bases de datos. En la minería de estructura, solo se utilizan datos semiestructurados. En este caso, los datos son de sitios webo bases de datos simples que tienen una estructura pero no una que se ajuste a las reglas de la base de datos tradicional. Los datos necesitan etiquetas o marcadores que distinguen a cada elemento para extraer correctamente.

leyendo el conjunto de datos semiestructurado, la minería de estructura puede descubrir cómo interactúa la estructura. Por ejemplo, cada sitio web tiene un modelo de navegación, y es este modelo el que determina cómo interactúan las páginas. Al extraer la estructura, el usuario puede descubrir cómo funciona esta navegación, lo que puede ayudar a crear un esquema de navegación similar.

.

La minería de estructura también se puede usar para encontrar elementos escribiendo reglas en el programa de minería. Por ejemplo, si hay un conjunto de datos de libros, el usuario puede escribir una regla que cualquier libro sin un índice debe devolver como ficción, y aquellos con un índice deben devolver como no ficción. La mayoría de los libros de ficción carecen de un índice, por lo que esta regla predecirá con alta precisión cuáles son los datos. EsteAyuda a los usuarios cuando miran un conjunto semiestructurado que tiene un método organizacional, pero no uno que se ajuste a lo que el usuario busca.

Después de descubrir la estructura de la unidad semiestructurada, el usuario generalmente la comparará con otra unidad semiestructurada. Si el usuario tiene un sitio web comercial, él o ella puede extraer otro sitio web comercial para navegación y enlaces, y ver cómo su sitio web es similar. Al comparar la información minada, el usuario puede encontrar formas de aumentar la eficiencia de la estructura.

OTROS IDIOMAS