Wat is structuurmijnen?

Structuurmining is een type datamining waarbij een semi-gestructureerde gegevensbron wordt gescand en elementen van de structuur worden ontdekt en gemarkeerd. Een semi-gestructureerde gegevensbron is er een die geen gebruik maakt van de traditionele databasestructuur van tabellen, maar wel een semantisch element heeft dat informatie scheidt via tags en markeringen. Structure mining kan worden gebruikt om databases, websites en vele andere vormen van computerinformatie te minen om elementen van de structuur te ontdekken. Het helpt gebruikers om te begrijpen hoe stukjes met elkaar omgaan of hoe ze informatie kunnen vinden onder bepaalde tags. Deze mining kan ook worden gebruikt om te voorspellen wat een item is, op basis van regels die door de gebruiker zijn geschreven.

Er zijn veel verschillende soorten datamining en de meeste houden zich bezig met het minen van een traditioneel gestructureerde bron. Dit omvat elke bron die de tabellen en knooppunten gebruikt die typisch zijn voor de meeste databases. In structuurmining worden alleen semi-gestructureerde gegevens gebruikt. In dit geval zijn de gegevens afkomstig van websites of eenvoudige databases die een structuur hebben maar niet een die voldoet aan de traditionele databaseregels. De gegevens hebben tags of markeringen nodig die ervoor zorgen dat elk item apart wordt gedolven.

Door de semi-gestructureerde gegevensset te lezen, kan structuurmijnbouw ontdekken hoe de structuur op elkaar inwerkt. Elke website heeft bijvoorbeeld een navigatiemodel en dit model bepaalt de interactie tussen de pagina's. Door de structuur te minen, kan de gebruiker ontdekken hoe deze navigatie werkt, wat kan helpen bij het maken van een vergelijkbaar navigatieschema.

Structuur mining kan ook worden gebruikt om items te vinden door regels in het miningprogramma te schrijven. Als er bijvoorbeeld een boekgegevensset is, kan de gebruiker een regel schrijven dat alle boeken zonder index moeten terugkeren als fictie, en die met een index moeten terugkeren als non-fictie. De meeste fictieboeken missen een index, dus deze regel zal met hoge nauwkeurigheid voorspellen wat de gegevens zijn. Dit helpt gebruikers bij het kijken naar een semi-gestructureerde set die een organisatorische methode heeft, maar niet een die past bij wat de gebruiker zoekt.

Na het uitzoeken van de structuur van de semi-gestructureerde eenheid, zal de gebruiker deze meestal vergelijken met een andere semi-gestructureerde eenheid. Als de gebruiker een bedrijfswebsite heeft, kan hij of zij een andere bedrijfswebsite ontginnen voor navigatie en links en kijken hoe zijn of haar website vergelijkbaar is. Door de gedolven informatie te vergelijken, kan de gebruiker manieren vinden om de efficiëntie van de structuur te verhogen.

ANDERE TALEN

heeft dit artikel jou geholpen? bedankt voor de feedback bedankt voor de feedback

Hoe kunnen we helpen? Hoe kunnen we helpen?