¿Qué es la extracción de información?

A veces conocida como recuperación de información, la extracción de información (es decir,) es un proceso que se utiliza con los sistemas informáticos para permitir que los datos relevantes se extraan de cuerpos de datos más grandes, utilizando algún conjunto de criterios predefinidos. La idea detrás de la extracción de información es hacer posible identificar y asimilar fácilmente datos que sean relevantes para una actividad particular, sin la necesidad de pasar manualmente grandes cantidades de información para encontrar los datos exactos requeridos. El proceso es similar a las ideas de minería conceptual o raspado web, ya que todos estos enfoques buscan recopilar información útil de un grupo más amplio de datos disponibles.

El enfoque general de la extracción de información requiere el uso de programación que sea capaz de escanear fuentes de información que se consideren legibles por la máquina. Esto puede incluir documentos de copia impresa que se han escaneado en algún tipo de archivos electrónicos, documentos preparados como hojas de cálculo o documentos de procesamiento de textos, o incluso los datos contenidos en campos legibles en una base de datos. Por lo general, se establecen parámetros que hacen posible que un programa de software tenga acceso a estas fuentes de datos y escanee rápidamente a través de ellos utilizando criterios específicos para priorizar y extraer ciertos tipos de información del grupo disponible. Este proceso suele ser diferente de un proceso de búsqueda simple, ya que el método requiere no coincidir palabras o frases específicas per se, sino que usa un proceso llamado procesamiento del lenguaje natural, que ayuda no solo a evaluar las palabras reales sino también el contexto y el significado implícito en ese contexto.

Las complejidades involucradas con la extracción de información hacen que el uso de este enfoque sea algo difícil de administrar a escala global, aunque hay herramientas de IE que funcionan muy bien solo con una cantidad limitada de datos, como las fuentes de datos asociadas con los archivos electrónicos alojadosen el servidor de una corporación, o incluso un grupo de fuentes que involucran un número limitado de noticias. Con este enfoque, es posible identificar algún tipo de evento, posiblemente incluso limitar los retornos a la inclusión de un cierto número de participantes en el evento, y tener los datos organizados según la fecha.

Al igual que con muchas formas de tecnología, las herramientas utilizadas para participar en la extracción de información se están refinando continuamente. Desde principios del siglo XXI, la capacidad de establecer parámetros y hacer uso de cuerpos cada vez mayores de datos electrónicos como parte de la búsqueda de información relevante ha aumentado significativamente. Esto incluye la capacidad de manejar grandes volúmenes de datos no estructurados y usar esos parámetros para aportar algún orden o estructura a esos datos, lo que lo hace aún más útil para futuras búsquedas.

OTROS IDIOMAS