Co je to extrakce informací?
Někdy známý jako získávání informací, extrakce informací (IE) je proces, který se používá s počítačovými systémy, aby umožňoval extrahování relevantních dat z větších dat pomocí určité sady předdefinovaných kritérií. Myšlenkou extrakce informací je umožnit snadno identifikovat a asimilovat data, která jsou relevantní pro konkrétní činnost, aniž by bylo nutné ručně procházet velkým množstvím informací, aby se zjistila přesná požadovaná data. Proces je podobný myšlenkám na těžbu konceptu nebo škrábání na webu, protože všechny tyto přístupy se snaží shromažďovat užitečné informace z širšího fondu dostupných dat.
Obecný přístup k extrakci informací vyžaduje používání programování, které je schopné skenovat zdroje informací, které jsou považovány za stroje čitelné. To může zahrnovat tištěné dokumenty, které byly naskenovány do nějakého druhu elektronických souborů, dokumenty připravené jako tabulky nebo dokumenty pro zpracování textu nebo dokonce údaje, které jsou obsaženy v čitelných polích v databázi. Obvykle jsou nastaveny parametry, které umožňují, aby softwarový program dostal přístup k těmto zdrojům dat, a rychle je skrz je pomocí konkrétních kritérií upřednostňuje a vytáhne určité typy informací z dostupného fondu. Tento proces se obvykle liší od jednoduchého vyhledávacího procesu v tom, že metoda vyžaduje neshodování konkrétních slov nebo frází sama o sobě, ale místo toho používá proces nazývaný zpracování přirozeného jazyka, který pomáhá nejen při hodnocení skutečných slov, ale také kontextu a význam předpokládaného tímto kontextem.
Složitost spojená s extrakcí informací ztěžuje použití tohoto přístupu v globálním měřítku, i když existují nástroje IE, které velmi dobře fungují pouze s omezeným množstvím dat, jako jsou zdroje dat spojené s umístěnými elektronickými soubory.na serveru korporace nebo dokonce na fondu zdrojů zahrnující omezený počet zpravodajských kanálů. S tímto přístupem je možné identifikovat nějaký typ události, možná dokonce omezit výnosy k zahrnutí určitého počtu účastníků v události a mít data uspořádaná podle data.
Stejně jako u mnoha forem technologie se nástroje používané k extrakci informací neustále zvyšují. Od začátku 21. století se schopnost nastavit parametry a využívání stále rostoucích orgánů elektronických dat v rámci hledání relevantních informací se výrazně zvýšila. To zahrnuje schopnost řešit velké objemy nestrukturovaných dat a použít tyto parametry k přivedení nějaké pořadí nebo struktury k těmto datům, což je o to užitečnější pro budoucí vyhledávání.