Co je to extrakce informací?
Extrakce informací (IE), která se někdy nazývá získávání informací, je proces používaný v počítačových systémech, který umožňuje extrahovat relevantní data z větších částí dat pomocí určité sady předdefinovaných kritérií. Myšlenkou extrakce informací je umožnit snadnou identifikaci a asimilaci dat, která jsou relevantní pro konkrétní aktivitu, bez nutnosti manuálního procházení velkého množství informací k nalezení přesných požadovaných údajů. Proces je podobný myšlenkám těžby konceptů nebo webového škrabání, protože všechny tyto přístupy se snaží shromažďovat užitečné informace z širšího souboru dostupných dat.
Obecný přístup k extrakci informací vyžaduje použití programování, které je schopné skenovat zdroje informací, které jsou považovány za strojově čitelné. To může zahrnovat tištěné dokumenty, které byly naskenovány do nějakého druhu elektronických souborů, dokumenty připravené jako tabulky nebo dokumenty textového zpracování, nebo dokonce data, která jsou obsažena v čitelných polích v databázi. Obvykle jsou nastaveny parametry, které umožňují softwarovému programu získat přístup k těmto zdrojům dat a rychle je skenovat pomocí specifických kritérií pro upřednostnění a vytažení určitých typů informací z dostupného fondu. Tento proces se obvykle liší od jednoduchého vyhledávacího procesu, protože metoda vyžaduje neshodování konkrétních slov nebo frází per se, ale místo toho používá proces zvaný zpracování přirozeného jazyka, který pomáhá nejen při vyhodnocování skutečných slov, ale také kontextu a význam implikovaný v tomto kontextu.
Složitosti spojené s extrakcí informací ztěžují řízení tohoto přístupu v celosvětovém měřítku, i když existují nástroje IE, které fungují velmi dobře pouze s omezeným množstvím dat, jako jsou zdroje dat spojené s elektronickými soubory uloženými na server korporace nebo dokonce skupina zdrojů zahrnující omezený počet zpravodajských kanálů. S tímto přístupem je možné identifikovat nějaký typ události, případně omezit návratnost na zařazení určitého počtu účastníků do akce, a nechat si data uspořádat podle data.
Stejně jako u mnoha různých technologií jsou nástroje používané k extrakci informací neustále vylepšovány. Od začátku 21. století se významně zvýšila schopnost nastavovat parametry a využívat stále se rozšiřující těla elektronických dat v rámci vyhledávání relevantních informací. To zahrnuje schopnost vypořádat se s velkými objemy nestrukturovaných dat a pomocí těchto parametrů přenést do těchto dat určitý řád nebo strukturu, což je o to užitečnější pro budoucí vyhledávání.