Wat is structuurwinning?

Structuurwinning is een type datamining waarin een semi-gestructureerde gegevensbron wordt gescand en elementen van de structuur ervan worden ontdekt en gemarkeerd. Een semi-gestructureerde gegevensbron is er een die niet de traditionele databasestructuur van tabellen gebruikt, maar een semantisch element heeft dat informatie scheidt via tags en markers. Structuurwinning kan worden gebruikt om databases, websites en vele andere vormen van computerinformatie te ontginnen om elementen van de structuur te ontdekken. Het helpt gebruikers te begrijpen hoe stukken met elkaar omgaan of hoe ze informatie kunnen vinden onder bepaalde tags. Deze mijnbouw kan ook worden gebruikt om te voorspellen wat een item is, gebaseerd op regels die door de gebruiker zijn geschreven.

Er zijn veel verschillende soorten datamining, en de meeste houden zich bezig met het mijnen van een traditioneel gestructureerde bron. Dit omvat elke bron die de tabellen en knooppunten gebruikt die typerend zijn voor de meeste databases. Bij structuurwinning worden alleen semi-gestructureerde gegevens gebruikt. In dit geval zijn de gegevens van websitesof eenvoudige databases die een structuur hebben, maar niet een die voldoet aan traditionele databaseregels. De gegevens hebben tags of markers nodig die elk item instellen om correct te worden gedolven.

Door de semi-gestructureerde gegevensset te lezen, kan structuurwinning ontdekken hoe de structuur interageert. Elke website heeft bijvoorbeeld een navigatiemodel en het is dit model dat bepaalt hoe de pagina's op elkaar inwerken. Door de structuur te ontginnen, kan de gebruiker ontdekken hoe deze navigatie werkt, wat kan helpen bij het maken van een soortgelijk navigerend schema.

Structuur mining kan ook worden gebruikt om items te vinden door regels te schrijven in het mijnbouwprogramma. Als er bijvoorbeeld een boekdataset is, kan de gebruiker een regel schrijven dat alle boeken zonder index als fictie moeten retourneren en die met een index als non-fictie moeten terugkeren. De meeste fictieboeken missen een index, dus deze regel zal met hoge nauwkeurigheid voorspellen wat de gegevens zijn. DitHelpt gebruikers bij het kijken naar een semi-gestructureerde set die een organisatiemethode heeft, maar niet een die past op wat de gebruiker zoekt.

Na het uitzoeken van de structuur van de semi-gestructureerde eenheid, vergelijkt de gebruiker deze meestal met een andere semi-gestructureerde eenheid. Als de gebruiker een zakelijke website heeft, kan hij of zij een andere zakelijke website voor navigatie en links delven en zien hoe zijn of haar website vergelijkbaar is. Door de gedolven informatie te vergelijken, kan de gebruiker manieren vinden om de efficiëntie van de structuur te verhogen.

ANDERE TALEN