Che cos'è il mining delle strutture?
Il mining della struttura è un tipo di data mining in cui viene scansionata un'origine dati semi-strutturata e vengono scoperti ed evidenziati elementi della sua struttura. Un'origine dati semi-strutturata è una che non utilizza la tradizionale struttura di database delle tabelle, ma ha un elemento semantico che separa le informazioni tramite tag e marcatori. Il mining della struttura può essere utilizzato per estrarre database, siti Web e molte altre forme di informazioni informatiche per scoprire elementi della struttura. Aiuta gli utenti a capire come i pezzi interagiscono tra loro o come trovare informazioni sotto determinati tag. Questo mining può anche essere utilizzato per prevedere cos'è un elemento, in base alle regole scritte dall'utente.
Esistono molti tipi diversi di data mining e la maggior parte si occupa del mining di una fonte strutturata in modo tradizionale. Ciò include qualsiasi sorgente che utilizza le tabelle e i nodi tipici della maggior parte dei database. Nel mining di strutture, vengono utilizzati solo dati semi-strutturati. In questo caso, i dati provengono da siti Web o database semplici che hanno una struttura ma non conforme alle regole tradizionali del database. I dati necessitano di tag o marcatori che distinguono ciascun elemento per essere estratto correttamente.
Leggendo il set di dati semi-strutturato, il mining della struttura è in grado di scoprire come interagisce la struttura. Ad esempio, ogni sito Web ha un modello di navigazione ed è questo modello che determina il modo in cui le pagine interagiscono. Eseguendo il mining della struttura, l'utente può scoprire come funziona questa navigazione, il che può aiutare a creare uno schema di navigazione simile.
Il mining della struttura può anche essere utilizzato per trovare elementi scrivendo le regole nel programma di mining. Ad esempio, se esiste un set di dati di libri, l'utente può scrivere una regola secondo cui tutti i libri senza un indice devono essere restituiti come fiction e quelli con un indice devono essere restituiti come non-fiction. La maggior parte dei libri di narrativa non ha un indice, quindi questa regola prevede con precisione i dati. Questo aiuta gli utenti a guardare un set semi-strutturato che ha un metodo organizzativo ma non adatto a quello che l'utente sta cercando.
Dopo aver capito la struttura dell'unità semistrutturata, l'utente generalmente la confronta con un'altra unità semistrutturata. Se l'utente ha un sito Web aziendale, può estrarre un altro sito Web aziendale per la navigazione e i collegamenti e vedere come il suo sito Web è simile. Confrontando le informazioni estratte, l'utente può trovare modi per aumentare l'efficienza della struttura.