Vad är utvinning av information?
Ibland känd som informationshämtning, är informationsextraktion (IE) en process som används med datorsystem för att tillåta relevant data att utvinnas från större datamängder med hjälp av en uppsättning fördefinierade kriterier. Tanken bakom informationsutvinning är att göra det möjligt att enkelt identifiera och assimilera data som är relevanta för en viss aktivitet utan att manuellt måste gå igenom stora mängder information för att hitta exakta data som krävs. Processen liknar idéerna om begreppsbrytning eller skrotning på webben, eftersom alla dessa metoder försöker samla in användbar information från en bredare mängd tillgängliga data.
Den allmänna metoden för informationsextraktion kräver programmering som kan skanna informationskällor som anses vara maskinläsbara. Detta kan inkludera papperskopior som har skannats in i någon form av elektroniska filer, dokument som är förberedda som kalkylblad eller ordbehandlingsdokument eller till och med de data som finns i läsbara fält i en databas. Normalt ställs parametrar in som gör det möjligt för ett program att få tillgång till dessa datakällor och snabbt skanna igenom dem med hjälp av specifika kriterier för att prioritera och dra ut vissa typer av information från den tillgängliga poolen. Denna process skiljer sig vanligtvis från en enkel sökprocess, i det att metoden kräver att inte matcha specifika ord eller fraser i sig, utan istället använder en process som kallas naturligt språkbearbetning, vilket hjälper till att inte bara utvärdera de verkliga orden utan också sammanhanget och den innebörd som det sammanhanget innebär.
Komplexiteten med informationsutvinning gör användningen av detta tillvägagångssätt något svårt att hantera i global skala, även om det finns IE-verktyg som fungerar mycket bra endast med en begränsad mängd data, till exempel datakällorna associerade med de elektroniska filerna som finns på ett företags server, eller till och med en pool av källor som involverar ett begränsat antal nyhetsflöden. Med detta tillvägagångssätt är det möjligt att identifiera någon typ av händelse, eventuellt till och med begränsa returerna för att inkludera ett visst antal deltagare i evenemanget och få uppgifterna ordnade enligt datum.
Liksom med många former av teknik förädlas de verktyg som används för att utvinna information kontinuerligt. Sedan början av 2000-talet har förmågan att ställa in parametrar och använda sig av allt fler organ av elektronisk data som en del av sökningen efter relevant information ökat avsevärt. Detta inkluderar möjligheten att hantera stora volymer ostrukturerad data och använda dessa parametrar för att föra viss ordning eller struktur till den informationen, vilket gör det desto mer användbart för framtida sökningar.