Vad är strukturbrytning?
Structure mining är en typ av data mining där en semistrukturerad datakälla skannas och delar av dess struktur upptäcks och markeras. En semistrukturerad datakälla är en som inte använder den traditionella databasstrukturen i tabeller, men har ett semantiskt element som skiljer information via taggar och markörer. Strukturbrytning kan användas för att bryta databaser, webbplatser och många andra former av datorinformation för att upptäcka delar av strukturen. Det hjälper användare att antingen förstå hur bitar interagerar med varandra eller hur man hittar information under vissa taggar. Denna gruvdrift kan också användas för att förutsäga vad ett objekt är, baserat på regler skrivna av användaren.
Det finns många olika typer av data mining, och de flesta handlar om gruvdrift en traditionellt strukturerad källa. Detta inkluderar alla källor som använder tabeller och noder som är typiska för de flesta databaser. Vid strukturbrytning används endast semistrukturerade data. I det här fallet kommer uppgifterna från webbplatser eller enkla databaser som har en struktur men inte en som överensstämmer med traditionella databasregler. Data behöver taggar eller markörer som skiljer varje objekt för att brytas korrekt.
Genom att läsa den semistrukturerade datauppsättningen kan strukturbrytning upptäcka hur strukturen interagerar. Till exempel har varje webbplats en navigationsmodell, och det är denna modell som avgör hur sidorna interagerar. Genom att bryta strukturen kan användaren upptäcka hur denna navigering fungerar, vilket kan hjälpa till att skapa ett liknande navigeringsschema.
Strukturbrytning kan också användas för att hitta objekt genom att skriva regler i gruvprogrammet. Om det till exempel finns en bokdatauppsättning, kan användaren skriva en regel om att böcker utan index ska återvända som fiktion, och de med ett index ska återvända som icke-fiktion. De flesta fictionböcker saknar ett index, så denna regel förutsäger med hög noggrannhet vad data är. Detta hjälper användare när de tittar på en semistrukturerad uppsättning som har en organisationsmetod men inte en som passar vad användaren letar efter.
Efter att ha räknat ut strukturen för den semistrukturerade enheten kommer användaren vanligtvis att jämföra den med en annan semistrukturerad enhet. Om användaren har en företagswebbplats kan han eller hon bryta en annan företagswebbplats för navigering och länkar och se hur hans eller hennes webbplats liknar. Genom att jämföra den utvalda informationen kan användaren hitta sätt att öka strukturens effektivitet.