Che cos'è l'estrazione di informazioni?
A volte noto come recupero di informazioni, l'estrazione di informazioni (IE) è un processo che viene utilizzato con i sistemi informatici per consentire l'estrazione di dati rilevanti da grandi quantità di dati, utilizzando una serie di criteri predefiniti. L'idea alla base dell'estrazione delle informazioni è quella di consentire di identificare e assimilare facilmente i dati rilevanti per una particolare attività, senza la necessità di scorrere manualmente grandi quantità di informazioni per trovare i dati esatti richiesti. Il processo è simile alle idee di concept mining o web scraping, in quanto tutti questi approcci cercano di raccogliere informazioni utili da un pool più ampio di dati disponibili.
L'approccio generale all'estrazione delle informazioni richiede l'utilizzo di una programmazione in grado di scansionare le fonti di informazioni considerate leggibili automaticamente. Ciò può includere documenti cartacei che sono stati scansionati in una sorta di file elettronici, documenti preparati come fogli di calcolo o documenti di elaborazione testi o persino i dati contenuti in campi leggibili in un database. In genere, vengono impostati parametri che consentono a un programma software di avere accesso a queste origini dati e di scansionarle rapidamente utilizzando criteri specifici per stabilire le priorità e estrarre determinati tipi di informazioni dal pool disponibile. Questo processo è in genere diverso da un semplice processo di ricerca, in quanto il metodo richiede di non abbinare parole o frasi specifiche di per sé, ma utilizza invece un processo chiamato elaborazione del linguaggio naturale, che aiuta a valutare non solo le parole reali ma anche il contesto e il significato implicito da quel contesto.
Le complessità legate all'estrazione delle informazioni rendono l'uso di questo approccio un po 'difficile da gestire su scala globale, sebbene esistano strumenti di IE che funzionano molto bene solo con una quantità limitata di dati, come le fonti di dati associate ai file elettronici ospitati il server di una società, o anche un pool di fonti che coinvolgono un numero limitato di feed di notizie. Con questo approccio è possibile identificare un certo tipo di evento, eventualmente anche limitare i ritorni all'inclusione di un certo numero di partecipanti all'evento e disporre i dati secondo la data.
Come con molte forme di tecnologia, gli strumenti utilizzati per impegnarsi nell'estrazione di informazioni vengono continuamente perfezionati. Dall'inizio del 21 ° secolo, la capacità di impostare parametri e utilizzare corpi di dati elettronici in costante aumento nell'ambito della ricerca di informazioni pertinenti è aumentata in modo significativo. Ciò include la capacità di gestire grandi volumi di dati non strutturati e utilizzare tali parametri per portare un po 'di ordine o struttura a tali dati, rendendolo ancora più utile per le ricerche future.