Wat is een gecontroleerde woordenschat?

Gecontroleerde woordenschat is een concept in de informatica en computerprogrammering waarbij alleen vooraf overeengekomen of goedgekeurde termen worden gebruikt bij het bouwen van relationele databases, doorzoekbare metadata of andere systemen waarin door mensen leesbare woorden worden gebruikt om informatie te markeren voor later gebruik. De methodologie om een ​​gecontroleerde woordenschat te gebruiken om informatie te classificeren, staat in schril contrast met het concept van de natuurlijke taalwoordenschat, waarin geen overeengekomen termen zijn en alle woorden die worden gebruikt, in plaats daarvan worden verbonden door gewogen relaties. Naast de woorden op het hoogste niveau die in een gecontroleerde woordenschat worden gebruikt, kunnen ondersteunende woorden worden gebruikt zodat synoniemen of andere termen die sterk zijn geassocieerd met de term op het hoogste niveau, het gebruik van het woord op het hoogste niveau kunnen activeren. De belangrijkste verschillen die worden gemeten tussen natuurlijke taalsystemen en gecontroleerde vocabulaire systemen zijn de relevantie van de resultaten van een zoekopdracht met behulp van de woorden, de hoeveelheid geretourneerde informatie en de algemene bruikbaarheid van het systeem.

Er zijn veel gevallen waarin een verzameling woorden of termen wordt gebruikt om informatie die willekeurig is, constant verandert of ongeorganiseerd toegankelijker maakt voor gebruikers. Zoektermen binnen een internetzoekmachine, een bedrijfsinformatiedatabase en zelfs een digitale onderzoeksbibliotheek zijn allemaal voorbeelden van toepassingen waarmee informatie kan worden gecategoriseerd met metagegevenstermen in tegenstelling tot een strikte hiërarchische structuur. De woorden die worden gebruikt om een ​​object in dergelijke situaties te beschrijven, vormen een soort doorzoekbare index van de grotere hoeveelheid informatie.

Een voorbeeld van het gebruik van gecontroleerde woordenschat kan worden gezien bij het overwegen van een archiveringssysteem voor een bedrijf. Bestanden moeten op een manier worden gecategoriseerd zodat ze gemakkelijk en voorspelbaar kunnen worden opgehaald. Als één bestand betrekking heeft op auto's, kan het worden opgeslagen onder de categorie "auto's". Als een andere persoon ook een bestand heeft dat zich bezighoudt met auto's, zonder een gecontroleerde vocabulaire, kan het bestand worden geplaatst onder de kop "auto's", waardoor de twee bestanden moeilijk te vinden zijn met een enkele zoekopdracht. Wanneer de categorieën worden beheerd, worden alle bestanden die met auto's te maken hebben, onder een enkele overeengekomen rubriek geplaatst.

Het voordeel van het gebruik van een gecontroleerde vocabulaire is dat informatie strikt op een voorspelbare manier wordt beschreven. Dit betekent dat iedereen die op de hoogte is van de woordenschat in staat zal zijn om effectief en nauwkeurig naar informatie te zoeken. Een complicatie met de woordenschat is echter dat de zoektermen moeilijker, zo niet onmogelijk zijn om automatisch te genereren en meestal enige menselijke tussenkomst vereisen, waardoor het een grote taak is om bestaande databases te converteren om een ​​gecontroleerde woordenschat te gebruiken. Als de woordenschat niet groot genoeg is, is er ook de mogelijkheid dat een enkele zoekopdracht zoveel informatie oplevert dat het onpraktisch wordt om te sorteren zonder een andere zoekmethode te gebruiken.

ANDERE TALEN

heeft dit artikel jou geholpen? bedankt voor de feedback bedankt voor de feedback

Hoe kunnen we helpen? Hoe kunnen we helpen?