Co to jest kontrolowane słownictwo?
Kontrolowane słownictwo jest pojęciem w informatyce i programowaniu komputerowym, które polega na używaniu tylko wcześniej uzgodnionych lub zatwierdzonych warunków podczas konstruowania relacyjnych baz danych, przeszukiwalnych metadanych lub innych systemów, w których słowa czytelne dla człowieka są używane do oznaczania informacji do późniejszego wyszukiwania. Metodologia wykorzystywania kontrolowanego słownictwa do klasyfikowania informacji jest wprost sprzeczna z koncepcją słownictwa języka naturalnego, w którym nie ma uzgodnionych terminów, a wszystkie użyte słowa są powiązane relacjami ważonymi. Oprócz słów najwyższego poziomu, które są używane w kontrolowanym słownictwie, można używać słów pomocniczych, aby synonimy lub inne terminy, które są silnie powiązane z terminem najwyższego poziomu, mogły uruchomić użycie słowa najwyższego poziomu. Główne różnice mierzone między systemami języka naturalnego i kontrolowanymi systemami słownictwa to trafność wyników zapytania wykorzystującego słowa, ilość zwracanych informacji oraz ogólna użyteczność systemu.
Istnieje wiele przypadków, w których zbiór słów lub terminów jest wykorzystywany w celu uczynienia informacji, które są arbitralne, stale zmieniane lub niezorganizowane, bardziej dostępne dla użytkowników. Wyszukiwane hasła w wyszukiwarce internetowej, korporacyjnej bazie danych, a nawet cyfrowej bibliotece badawczej są przykładami aplikacji, w których informacje można kategoryzować za pomocą terminów metadanych zamiast ścisłej hierarchicznej struktury. Słowa użyte do opisania obiektu w takich sytuacjach budują rodzaj przeszukiwalnego indeksu większej puli informacji.
Jeden przykład zastosowania kontrolowanego słownictwa można zobaczyć, rozważając system archiwizacji dla firmy. Pliki muszą być podzielone na kategorie w taki sposób, aby można je było łatwo i przewidywalnie odzyskać. Jeśli jeden plik dotyczy samochodów, można go złożyć w kategorii „samochody”. Jeśli inna osoba ma również plik dotyczący samochodów, bez kontrolowanego słownictwa, plik ten może zostać umieszczony pod nagłówkiem „samochody”, co utrudnia odnalezienie dwóch plików za pomocą jednego wyszukiwania. Gdy kategorie są kontrolowane, wszystkie akta dotyczące samochodów byłyby umieszczone pod jednym uzgodnionym nagłówkiem.
Zaletą używania kontrolowanego słownictwa jest to, że informacje są ściśle opisane w przewidywalny sposób. Oznacza to, że każdy, kto zna słownictwo, będzie w stanie skutecznie i dokładnie wyszukiwać informacje. Jednak komplikacja słownictwa polega na tym, że wyszukiwane hasła są trudniejsze, jeśli nie niemożliwe, do automatycznego generowania i zwykle wymagają interwencji człowieka, co sprawia, że przekształcenie istniejących baz danych w celu użycia kontrolowanego słownictwa jest dużym zadaniem. Jeśli słownictwo nie jest wystarczająco duże, istnieje również możliwość, że jedno zapytanie przyniesie tak dużą ilość informacji, że sortowanie bez użycia innej metody zapytań stanie się niepraktyczne.