¿Qué es la minería de estructuras?
La minería de estructuras es un tipo de minería de datos en la que se escanea una fuente de datos semiestructurada y se descubren y resaltan elementos de su estructura. Una fuente de datos semiestructurada es aquella que no utiliza la estructura tradicional de tablas de la base de datos, pero tiene un elemento semántico que separa la información mediante etiquetas y marcadores. La minería de estructuras se puede utilizar para extraer bases de datos, sitios web y muchas otras formas de información informática para descubrir elementos de la estructura. Ayuda a los usuarios a comprender cómo interactúan las piezas entre sí o cómo encontrar información bajo ciertas etiquetas. Esta minería también se puede utilizar para predecir qué es un elemento, según las reglas escritas por el usuario.
Existen muchos tipos diferentes de minería de datos, y la mayoría se preocupa por extraer una fuente estructurada tradicionalmente. Esto incluye cualquier fuente que use las tablas y nodos típicos de la mayoría de las bases de datos. En la minería de estructuras, solo se utilizan datos semiestructurados. En este caso, los datos provienen de sitios web o bases de datos simples que tienen una estructura pero no una que se ajusta a las reglas tradicionales de la base de datos. Los datos necesitan etiquetas o marcadores que diferencien cada elemento para que se extraiga correctamente.
Al leer el conjunto de datos semiestructurados, la minería de estructuras puede descubrir cómo interactúa la estructura. Por ejemplo, cada sitio web tiene un modelo de navegación, y es este modelo el que determina cómo interactúan las páginas. Al extraer la estructura, el usuario puede descubrir cómo funciona esta navegación, lo que puede ayudar a crear un esquema de navegación similar.
La minería de estructuras también se puede utilizar para buscar elementos escribiendo reglas en el programa de minería. Por ejemplo, si hay un conjunto de datos de libros, el usuario puede escribir una regla de que cualquier libro sin un índice debería regresar como ficción, y aquellos con un índice deberían regresar como no ficción. La mayoría de los libros de ficción carecen de un índice, por lo que esta regla predecirá con alta precisión cuáles son los datos. Esto ayuda a los usuarios cuando miran un conjunto semiestructurado que tiene un método de organización pero no uno que se ajuste a lo que el usuario está buscando.
Después de descubrir la estructura de la unidad semiestructurada, el usuario generalmente la comparará con otra unidad semiestructurada. Si el usuario tiene un sitio web comercial, puede extraer otro sitio web comercial para navegación y enlaces, y ver cómo su sitio web es similar. Al comparar la información extraída, el usuario puede encontrar formas de aumentar la eficiencia de la estructura.