Hva er utvinning av informasjon?

Noen ganger kjent som informasjonsinnhenting, er informasjonsutvinning (IE) en prosess som brukes med datasystemer for å tillate at relevante data blir utvunnet fra større datamaterialer, ved hjelp av et sett med forhåndsdefinerte kriterier. Tanken bak utvinning av informasjon er å gjøre det mulig å enkelt identifisere og assimilere data som er relevante for en bestemt aktivitet, uten å måtte gå manuelt gjennom store mengder informasjon for å finne de nøyaktige dataene som kreves. Prosessen er lik ideene om gruvedrift eller skraping av nett, ved at alle disse tilnærmingene søker å samle nyttig informasjon fra et bredere utvalg av tilgjengelige data.

Den generelle tilnærmingen til informasjonsutvinning krever bruk av programmering som er i stand til å skanne informasjonskilder som anses som maskinlestbare. Dette kan inkludere papirkopier som er skannet inn i en slags elektroniske filer, dokumenter utarbeidet som regneark eller tekstbehandlingsdokumenter, eller til og med dataene som er inneholdt i lesbare felt i en database. Normalt settes parametere som gjør det mulig for et program å få tilgang til disse datakildene og raskt skanne gjennom dem ved å bruke spesifikke kriterier for å prioritere og trekke ut visse typer informasjon fra det tilgjengelige bassenget. Denne prosessen er vanligvis forskjellig fra en enkel søkeprosess, ved at metoden ikke krever samsvar med bestemte ord eller uttrykk per se, men i stedet bruker en prosess som kalles naturlig språkbehandling, som hjelper til ikke bare å evaluere de faktiske ordene, men også konteksten og betydningen underforstått av den konteksten.

Kompleksitetene med informasjonsutvinning gjør bruken av denne tilnærmingen noe vanskelig å håndtere i global målestokk, selv om det er IE-verktøy som fungerer veldig bra bare med en begrenset mengde data, for eksempel datakildene knyttet til de elektroniske filene som ligger på serveren til et selskap, eller til og med en samling kilder som involverer et begrenset antall nyhetsstrømmer. Med denne tilnærmingen er det mulig å identifisere en eller annen type hendelse, eventuelt til og med begrense avkastningen til inkludering av et visst antall deltagere i arrangementet, og få dataene ordnet i henhold til dato.

Som med mange former for teknologi, blir verktøyene som brukes til å drive med informasjonsutvinning kontinuerlig foredlet. Siden begynnelsen av det 21. århundre har muligheten til å sette parametere og benytte seg av stadig større organer av elektroniske data som en del av søket etter relevant informasjon økt betydelig. Dette inkluderer muligheten til å håndtere store mengder ustrukturerte data og bruke disse parametrene for å bringe litt orden eller struktur til disse dataene, noe som gjør det desto mer nyttig for fremtidige søk.

ANDRE SPRÅK

Hjalp denne artikkelen deg? Takk for tilbakemeldingen Takk for tilbakemeldingen

Hvordan kan vi hjelpe? Hvordan kan vi hjelpe?