Qu'est-ce que l'extraction d'informations?

Parfois appelée récupération d'informations, l'extraction d'informations est un processus utilisé avec des systèmes informatiques pour permettre l'extraction de données pertinentes à partir de corps de données plus importants, à l'aide d'un ensemble de critères prédéfinis. L’extraction d’informations a pour but de permettre d’identifier et d’assimiler facilement des données pertinentes pour une activité donnée, sans avoir à consulter manuellement de grandes quantités d’informations pour trouver les données exactes requises. Le processus est similaire aux idées d'extraction de concepts ou de grattage de sites Web, en ce sens que toutes ces approches cherchent à collecter des informations utiles à partir d'un pool plus large de données disponibles.

L’approche générale de l’extraction d’informations requiert une programmation capable de balayer des sources d’informations considérées comme lisibles par machine. Cela peut inclure des documents sur papier numérisés qui ont été numérisés dans une sorte de fichiers électroniques, des documents préparés sous forme de feuilles de calcul ou de documents de traitement de texte, ou même les données contenues dans des champs lisibles dans une base de données. En règle générale, des paramètres sont définis pour permettre à un logiciel d'accéder à ces sources de données et de les analyser rapidement à l'aide de critères spécifiques, afin d'établir des priorités et d'extraire certains types d'informations du pool disponible. Ce processus est généralement différent d’un processus de recherche simple en ce sens que la méthode demande de ne pas faire correspondre des mots ou des phrases spécifiques en soi, mais utilise plutôt un processus appelé traitement du langage naturel, qui aide non seulement à évaluer les mots réels mais également le contexte le sens impliqué par ce contexte.

La complexité de l’extraction d’informations rend difficile l’utilisation de cette approche à l’échelle mondiale, bien que certains outils d’EI fonctionnent très bien avec un nombre limité de données, telles que les sources de données associées aux fichiers électroniques hébergés sur le serveur d’une société, voire un pool de sources comportant un nombre limité de flux de nouvelles. Avec cette approche, il est possible d'identifier un type d'événement, voire même de limiter les retours à l'inclusion d'un certain nombre de participants à l'événement, et de disposer les données en fonction de la date.

Comme pour de nombreuses technologies, les outils utilisés pour extraire l’information sont continuellement améliorés. Depuis le début du XXIe siècle, la capacité de définir des paramètres et d’utiliser des corpus de données électroniques de plus en plus importants dans le cadre de la recherche d’informations pertinentes a considérablement augmenté. Cela inclut la capacité de traiter de gros volumes de données non structurées et d'utiliser ces paramètres pour apporter un ordre ou une structure à ces données, ce qui les rend d'autant plus utiles pour les recherches futures.

Qu'est-ce que l'extraction d'informations?

Cet article vous a‑t‑il été utile ?