Hvad er strukturminedrift?
Strukturminedrift er en type datamining, hvor en semistruktureret datakilde scannes, og elementer i dens struktur opdages og fremhæves. En semistruktureret datakilde er en, der ikke bruger den traditionelle databasestruktur i tabeller, men har et semantisk element, der adskiller information via tags og markører. Strukturminedrift kan bruges til at udnytte databaser, websteder og mange andre former for computerinformation for at opdage elementer i strukturen. Det hjælper brugerne med enten at forstå, hvordan stykker interagerer med hinanden, eller hvordan de finder information under bestemte tags. Denne minedrift kan også bruges til at forudsige, hvad en vare er, baseret på regler skrevet af brugeren.
Der er mange forskellige typer data mining, og de fleste vedrører minedrift af en traditionelt struktureret kilde. Dette inkluderer enhver kilde, der bruger tabeller og noder, der er typiske for de fleste databaser. I strukturminedrift bruges kun semistrukturerede data. I dette tilfælde er dataene fra websteder eller enkle databaser, der har en struktur, men ikke en, der er i overensstemmelse med traditionelle databaseregler. Dataene har brug for tags eller markører, der adskiller hvert element til at blive udtaget korrekt.
Ved at læse det semistrukturerede datasæt er strukturindvinding i stand til at opdage, hvordan strukturen interagerer. For eksempel har hvert websted en navigationsmodel, og det er denne model, der bestemmer, hvordan siderne interagerer. Ved at udvinde strukturen kan brugeren opdage, hvordan denne navigation fungerer, hvilket kan hjælpe med at skabe et lignende navigationsskema.
Strukturminedrift kan også bruges til at finde genstande ved at skrive regler i minedriftprogrammet. For eksempel, hvis der er et bogdatasæt, kan brugeren skrive en regel om, at bøger uden et indeks skal vende tilbage som fiktion, og dem med et indeks skal vende tilbage som ikke-fiktion. De fleste fiktionbøger mangler et indeks, så denne regel vil forudsige med høj nøjagtighed, hvad dataene er. Dette hjælper brugere, når de ser på et semistruktureret sæt, der har en organisatorisk metode, men ikke et, der passer til det, brugeren leder efter.
Efter at have fundet ud af strukturen af den semistrukturerede enhed, vil brugeren typisk sammenligne den med en anden semistruktureret enhed. Hvis brugeren har et forretningswebsted, kan han eller hun mine et andet forretningswebsted til navigation og links og se, hvordan hans eller hendes hjemmeside ligner. Ved at sammenligne den udvindede information kan brugeren finde måder at øge strukturens effektivitet.