Hvad er informationsekstraktion?

Nogle gange kendt som informationsindhentning er informationsekstraktion (dvs.) en proces, der bruges med computersystemer til at lade relevante data udvindes fra større data af data ved hjælp af et sæt foruddefinerede kriterier. Ideen bag informationsekstraktion er at gøre det muligt let at identificere og assimilere data, der er relevante for en bestemt aktivitet, uden behov for manuelt at gennemgå store mængder information for at finde de nøjagtige data, der kræves. Processen ligner ideerne om konceptminedrift eller webskrabning, idet alle disse tilgange søger at indsamle nyttige oplysninger fra en bredere pulje af tilgængelige data.

Den generelle tilgang til informationsekstraktion kræver brug af programmering, der er i stand til at scanne informationskilder, der betragtes som maskinlæsbare. Dette kan omfatte papirkopi -dokumenter, der er blevet scannet til en slags elektroniske filer, dokumenter udarbejdet som regneark eller tekstbehandlingsdokumenter, eller endda de data, der er indeholdt i læsbare felter i en database. Typisk indstilles parametre, der gør det muligt for et softwareprogram at få adgang til disse datakilder og hurtigt scanne gennem dem ved hjælp af specifikke kriterier for at prioritere og trække visse typer oplysninger fra den tilgængelige pool. Denne proces er typisk forskellig fra en simpel søgeproces, idet metoden kræver ikke at matche specifikke ord eller sætninger i sig selv, men i stedet bruger en proces kaldet naturlig sprogbehandling, som hjælper ikke kun med at evaluere de faktiske ord, men også konteksten og den betydning, der er impliceret i denne sammenhæng.

MPå serveren til et selskab eller endda en pool af kilder, der involverer et begrænset antal nyhedsfeeds. Med denne tilgang er det muligt at identificere en form for begivenhed, muligvis endda begrænse afkastet til inkluderingen af ​​et vist antal deltagere i begivenheden og få dataene arrangeret efter dato.

Som med mange former for teknologi bliver de værktøjer, der bruges til at engagere sig i informationsekstraktion, konstant raffineres. Siden begyndelsen af ​​det 21. århundrede er evnen til at indstille parametre og gøre brug af stadigt stigende kroppe af elektroniske data som en del af søgningen efter relevant information steget markant. Dette inkluderer muligheden for at håndtere store mængder af ustrukturerede data og bruge disse parametre til at bringe en vis rækkefølge eller struktur til disse data, hvilket gør det desto mere nyttigt til fremtidige søgninger.

ANDRE SPROG

Hjalp denne artikel dig? tak for tilbagemeldingen tak for tilbagemeldingen

Hvordan kan vi hjælpe? Hvordan kan vi hjælpe?