интернет

Что такое извлечение информации?

Иногда известный как поиск информации, извлечение информации (IE) - это процесс, который используется в компьютерных системах, чтобы позволить извлекать соответствующие данные из больших массивов данных, используя некоторый набор заранее определенных критериев. Идея, лежащая в основе извлечения информации, заключается в том, чтобы позволить легко идентифицировать и ассимилировать данные, которые имеют отношение к конкретной деятельности, без необходимости вручную проходить большие объемы информации, чтобы найти точные требуемые данные. Этот процесс аналогичен идеям концептуального майнинга или сетевого анализа, поскольку все эти подходы направлены на сбор полезной информации из более широкого пула доступных данных.

Общий подход к извлечению информации требует использования программ, способных сканировать источники информации, считающиеся машиночитаемыми. Это может включать в себя печатные документы, которые были отсканированы в какие-то электронные файлы, документы, подготовленные в виде электронных таблиц или документов для обработки текстов, или даже данные, которые содержатся в читаемых полях в базе данных. Как правило, устанавливаются параметры, которые позволяют программному обеспечению получить доступ к этим источникам данных и быстро сканировать их, используя конкретные критерии для определения приоритетов и извлечения определенных типов информации из доступного пула. Этот процесс обычно отличается от простого процесса поиска тем, что метод требует несоответствия конкретным словам или фразам как таковым, но вместо этого использует процесс, называемый обработкой на естественном языке, который помогает не только оценивать фактические слова, но также контекст и значение, подразумеваемое этим контекстом.

Сложности, связанные с извлечением информации, делают использование этого подхода несколько трудным для управления в глобальном масштабе, хотя существуют инструменты IE, которые очень хорошо работают только с ограниченным объемом данных, например источники данных, связанные с электронными файлами, размещенными на сервер корпорации или даже пул источников, включающих ограниченное количество новостных лент. При таком подходе можно идентифицировать некоторый тип события, возможно, даже ограничить отдачу включением определенного количества участников в событие, и расположить данные в соответствии с датой.

Как и во многих видах технологий, инструменты, используемые для извлечения информации, постоянно совершенствуются. С начала XXI века способность устанавливать параметры и использовать постоянно растущие массивы электронных данных в рамках поиска соответствующей информации значительно возросла. Это включает в себя возможность работать с большими объемами неструктурированных данных и использовать эти параметры для наведения некоторого порядка или структуры этих данных, что делает его еще более полезным для будущих поисков.