Wat is informatie-extractie?
Soms bekend als het ophalen van informatie, is informatie-extractie (IE) een proces dat wordt gebruikt met computersystemen om relevante gegevens te extraheren uit grotere hoeveelheden gegevens, met behulp van een aantal vooraf gedefinieerde criteria. Het idee achter informatie-extractie is het mogelijk te maken om gemakkelijk gegevens te identificeren en te verwerken die relevant zijn voor een bepaalde activiteit, zonder de noodzaak om handmatig grote hoeveelheden informatie te doorlopen om de exacte vereiste gegevens te vinden. Het proces is vergelijkbaar met de ideeën van concept mining of web scraping, in die zin dat al deze benaderingen proberen nuttige informatie te verzamelen uit een bredere pool van beschikbare gegevens.
De algemene benadering van informatie-extractie vereist het gebruik van programmering die informatiebronnen kan scannen die als machinaal leesbaar worden beschouwd. Dit kunnen papieren documenten zijn die zijn gescand in een soort elektronische bestanden, documenten die zijn voorbereid als spreadsheets of tekstverwerkingsdocumenten, of zelfs de gegevens die zich bevinden in leesbare velden in een database. Doorgaans worden parameters ingesteld die het mogelijk maken dat een softwareprogramma toegang krijgt tot deze gegevensbronnen en deze snel doorzoekt met behulp van specifieke criteria om bepaalde soorten informatie te prioriteren en uit de beschikbare pool te halen. Dit proces verschilt meestal van een eenvoudig zoekproces, omdat de methode vereist dat niet per se specifieke woorden of woordgroepen worden gevonden, maar in plaats daarvan een proces wordt gebruikt dat natuurlijke taalverwerking wordt genoemd, wat niet alleen helpt bij het evalueren van de werkelijke woorden, maar ook de context en de betekenis geïmpliceerd door die context.
De complexiteit van informatie-extractie maakt het gebruik van deze aanpak enigszins moeilijk te beheren op een wereldwijde schaal, hoewel er IE-tools zijn die alleen goed werken met een beperkte hoeveelheid gegevens, zoals de gegevensbronnen die zijn gekoppeld aan de elektronische bestanden die zijn ondergebracht op de server van een bedrijf, of zelfs een verzameling bronnen met een beperkt aantal nieuwsfeeds. Met deze aanpak is het mogelijk om een bepaald type evenement te identificeren, mogelijk zelfs het rendement te beperken tot het opnemen van een bepaald aantal deelnemers aan het evenement, en de gegevens op datum te ordenen.
Zoals bij vele vormen van technologie, worden de hulpmiddelen die worden gebruikt om informatie-extractie te verrichten, voortdurend verfijnd. Sinds het begin van de 21ste eeuw is het vermogen om parameters in te stellen en gebruik te maken van steeds grotere hoeveelheden elektronische gegevens als onderdeel van het zoeken naar relevante informatie aanzienlijk toegenomen. Dit omvat de mogelijkheid om met grote hoeveelheden ongestructureerde gegevens om te gaan en die parameters te gebruiken om die gegevens in orde te brengen of te structureren, wat het des te nuttiger maakt voor toekomstige zoekopdrachten.