Hvad er informationsudvinding?
Nogle gange kendt som informationsindhentning, information ekstraktion (IE) er en proces, der bruges med computersystemer for at tillade, at relevante data udvindes fra større datamængder ved hjælp af et sæt forud definerede kriterier. Ideen bag informationsekstraktion er at gøre det muligt let at identificere og assimilere data, der er relevante for en bestemt aktivitet, uden at det er nødvendigt manuelt at gennemgå store mængder information for at finde de nøjagtige data, der kræves. Processen svarer til ideerne om konceptindvinding eller skrotning af nettet, idet alle disse fremgangsmåder søger at indsamle nyttige oplysninger fra en bredere samling af tilgængelige data.
Den generelle tilgang til informationsekstraktion kræver anvendelse af programmering, der er i stand til at scanne informationskilder, der betragtes som maskinlæsbare. Dette kan omfatte papirkopier, der er scannet til en slags elektroniske filer, dokumenter, der er klargjort som regneark eller tekstbehandlingsdokumenter, eller endda de data, der er indeholdt i læsbare felter i en database. Typisk indstilles parametre, der gør det muligt for et softwareprogram at få adgang til disse datakilder og hurtigt scanne gennem dem ved hjælp af specifikke kriterier for at prioritere og trække visse typer information fra den tilgængelige pool. Denne proces adskiller sig typisk fra en simpel søgeproces, idet metoden kræver, at man ikke matcher specifikke ord eller sætninger i sig selv, men i stedet bruger en proces, der kaldes naturlig sprogbehandling, som hjælper med ikke kun at evaluere de faktiske ord, men også konteksten og den betydning, der indgår i den sammenhæng.
Kompleksiteterne med informationsekstraktion gør brugen af denne fremgangsmåde lidt vanskelig at administrere på global skala, selvom der er IE-værktøjer, der kun fungerer meget godt med en begrænset mængde data, såsom datakilderne, der er knyttet til de elektroniske filer, der ligger på serveren hos et selskab eller endda en pool af kilder, der involverer et begrænset antal nyhedsfeeds. Med denne tilgang er det muligt at identificere en eller anden type begivenhed, muligvis endda begrænse tilbagevenden til inkludering af et vist antal deltagere i begivenheden og få dataene arrangeret i henhold til dato.
Som med mange former for teknologi, forbedres de værktøjer, der bruges til at udføre informationsekstraktion, konstant. Siden begyndelsen af det 21. århundrede er muligheden for at indstille parametre og gøre brug af stadigt stigende organer af elektroniske data som en del af søgningen efter relevant information steget markant. Dette inkluderer muligheden for at håndtere store mængder ustrukturerede data og bruge disse parametre til at bringe en rækkefølge eller struktur til disse data, hvilket gør det meget mere nyttigt til fremtidige søgninger.