Qu'est-ce que l'extraction de structure?
L'exploitation de la structure est un type d'exploration de données dans laquelle une source de données semi-structurée est scannée et les éléments de sa structure sont découverts et mis en évidence. Une source de données semi-structurée est celle qui n'utilise pas la structure de base de données traditionnelle des tables, mais a un élément sémantique qui sépare les informations via des balises et des marqueurs. L'exploitation de structure peut être utilisée pour exploiter des bases de données, des sites Web et de nombreuses autres formes d'informations informatiques pour découvrir des éléments de la structure. Il aide les utilisateurs à comprendre comment les pièces interagissent les uns avec les autres ou comment trouver des informations sous certaines balises. Cette mine peut également être utilisée pour prédire ce qu'est un élément, en fonction des règles écrites par l'utilisateur.
Il existe de nombreux types d'exploration de données, et la plupart concernent l'exploitation d'extraction d'une source traditionnellement structurée. Cela inclut toute source qui utilise les tables et les nœuds typiques de la plupart des bases de données. Dans l'exploitation de la structure, seules des données semi-structurées sont utilisées. Dans ce cas, les données proviennent de sites Webou des bases de données simples qui ont une structure mais pas celle qui est conforme aux règles de base de données traditionnelles. Les données ont besoin de balises ou de marqueurs qui distinguent chaque élément pour être correctement exploité.
En lisant l'ensemble de données semi-structuré, l'exploitation de structure est capable de découvrir comment la structure interagit. Par exemple, chaque site Web a un modèle de navigation, et c'est ce modèle qui détermine comment les pages interagissent. En exploitant la structure, l'utilisateur peut découvrir comment fonctionne cette navigation, ce qui peut aider à créer un schéma de navigation similaire.
L'exploitation de structure peut également être utilisée pour trouver des éléments en écrivant des règles dans le programme d'exploitation. Par exemple, s'il existe un ensemble de données de livre, l'utilisateur peut écrire une règle selon laquelle les livres sans index devraient revenir en tant que fiction, et ceux qui ont un index devraient revenir en tant que non-fiction. La plupart des livres de fiction n'ont pas d'index, donc cette règle prédirera avec une précision élevée quelles sont les données. CeAide les utilisateurs lorsque vous envisagez un ensemble semi-structuré qui a une méthode organisationnelle mais pas une méthode qui correspond à ce que l'utilisateur recherche.
Après avoir déterminé la structure de l'unité semi-structurée, l'utilisateur le comparera généralement à une autre unité semi-structurée. Si l'utilisateur a un site Web d'entreprise, il peut exploiter un autre site Web d'entreprise pour la navigation et les liens, et voir comment son site Web est similaire. En comparant les informations extraites, l'utilisateur peut trouver des moyens d'augmenter l'efficacité de la structure.