Cos'è l'estrazione della struttura?
Il mining della struttura è un tipo di data mining in cui viene scansionata un'origine di dati semi-strutturata e gli elementi della sua struttura vengono scoperti ed evidenziati. Una fonte di dati semi-strutturata è quella che non utilizza la tradizionale struttura del database delle tabelle, ma ha un elemento semantico che separa le informazioni tramite tag e marcatori. Il mining della struttura può essere utilizzato per estrarre database, siti Web e molte altre forme di informazione del computer per scoprire elementi della struttura. Aiuta gli utenti a capire come i pezzi interagiscono tra loro o come trovare informazioni in determinati tag. Questo mining può anche essere utilizzato per prevedere cosa sia un elemento, in base alle regole scritte dall'utente.
Esistono molti diversi tipi di data mining e la maggior parte riguarda il mining di una fonte tradizionalmente strutturata. Ciò include qualsiasi fonte che utilizza le tabelle e i nodi tipici della maggior parte dei database. Nell'estrazione della struttura, vengono utilizzati solo dati semi-strutturati. In questo caso, i dati provengono da siti Webo semplici database che hanno una struttura ma non uno conforme alle regole tradizionali del database. I dati necessitano di tag o marcatori che distinguono ogni elemento per essere estratto correttamente.
leggendo il set di dati semi-strutturati, il mining della struttura è in grado di scoprire come interagisce la struttura. Ad esempio, ogni sito Web ha un modello di navigazione ed è questo modello che determina come interagiscono le pagine. Minando la struttura, l'utente può scoprire come funziona questa navigazione, che può aiutare a creare uno schema di navigazione simile.
Anche il mining di struttura può essere utilizzato per trovare elementi scrivendo regole nel programma di mining. Ad esempio, se esiste un set di dati del libro, l'utente può scrivere una regola che qualsiasi libro senza un indice dovrebbe restituire come finzione e quelli con un indice dovrebbero restituire come saggistica. La maggior parte dei libri di narrativa non ha un indice, quindi questa regola prevederà con alta precisione quali sono i dati. QuestoAiuta gli utenti quando si guarda un set semi-strutturato che ha un metodo organizzativo ma non uno che si adatta a ciò che l'utente sta cercando.
Dopo aver capito la struttura dell'unità semi-strutturata, l'utente la confronterà in genere con un'altra unità semi-strutturata. Se l'utente ha un sito Web aziendale, può estrarre un altro sito Web aziendale per la navigazione e i collegamenti e vedere come il suo sito Web è simile. Confrontando le informazioni estratte, l'utente può trovare modi per aumentare l'efficienza della struttura.