Skip to main content

Что такое контролируемый словарь?

Контролируемый словарь - это концепция в области компьютерных наук и компьютерного программирования, которая включает использование только ранее согласованных или утвержденных терминов при построении реляционных баз данных, метаданных с возможностью поиска или других систем, в которых читаемые человеком слова используются для маркировки информации для последующего поиска. Методология использования контролируемого словаря для классификации информации прямо противоположна концепции словаря естественного языка, в которой нет согласованных терминов, а все используемые слова вместо этого связаны взвешенными отношениями. В дополнение к словам верхнего уровня, которые используются в контролируемом словаре, могут использоваться вспомогательные слова, так что синонимы или другие термины, которые тесно связаны с термином верхнего уровня, могут инициировать использование слова верхнего уровня. Основными различиями, которые измеряются между системами на естественном языке и системами с контролируемым словарем, являются релевантность результатов запроса с использованием слов, объем возвращаемой информации и общее удобство использования системы.

Во многих случаях набор слов или терминов используется для того, чтобы сделать информацию, которая является произвольной, постоянно изменяющейся или дезорганизованной, более доступной для пользователей. Поисковые термины в поисковой системе Интернета, корпоративная информационная база данных и даже цифровая исследовательская библиотека - все это примеры приложений, с помощью которых информацию можно классифицировать с помощью терминов метаданных в отличие от строгой иерархической структуры. Слова, используемые для описания объекта в таких ситуациях, создают своего рода поисковый индекс для большого пула информации.

Один пример использования контролируемой лексики можно увидеть при рассмотрении системы регистрации для компании. Файлы должны быть категоризированы таким образом, чтобы их можно было легко и предсказуемо извлечь. Если один файл имеет дело с автомобилями, то он может быть подан в категорию «автомобили». Если у другого человека также есть файл, имеющий дело с автомобилями, без контролируемого словаря, файл может быть помещен под заголовком «автомобили», что затрудняет поиск двух файлов с помощью одного поиска. Когда категории контролируются, тогда все файлы, связанные с автомобилями, будут помещаться под единым согласованным заголовком.

Преимущество использования контролируемого словаря заключается в том, что информация строго описывается предсказуемым образом. Это означает, что любой, кто знает словарный запас, сможет эффективно и точно искать информацию. Сложность со словарем, однако, заключается в том, что поисковые термины сложнее, если не невозможно, генерировать автоматически и обычно требуют вмешательства человека, что делает большую задачу преобразования существующих баз данных для использования контролируемого словаря. Если словарный запас недостаточно велик, то существует также возможность того, что один запрос вызовет такой большой объем информации, что становится непрактичным сортировать без использования другого метода запросов.