Co je to těžba datového proudu?
Dolování datových toků je strategie, která zahrnuje identifikaci a extrahování informací z aktivního datového toku. S tímto přístupem je myšlenka vytáhnout data, aniž by docházelo k jakémukoli typu přerušení v samotném proudu, což ostatním umožní využívat data také, i když probíhá extrakce. Tento typ úsilí o těžbu datového toku může zahrnovat nejrůznější data, od hlasového přenosu po přenos videa přes internet a dokonce i každodenní úkoly, jako je výběr peněz z bankovního účtu pomocí bankomatu nebo držení telefonního rozhovoru.
Jednou z charakteristik těžby datových toků je schopnost přesně promítat nebo předpovídat, jak najít požadované informace a jaký typ nástrojů pro vyhledávání znalostí pomůže při hledání a úspěšném extrahování požadovaných informací. Například, když zákazník zahájí transakci pomocí bankomatu, programování pro stroj zahájí vyhledávání relevantních informací o účtu, vyhledá data a poté určí, zda částka transakce sníží zůstatek na účtu pod přípustnou částku, na základě struktury účtu. Odtud může programování uživateli vrátit relevantní data, jako je například zdokumentování úspěšného dokončení požadované transakce a poskytnutí zůstatku účtu zbývajícího po zaznamenání kreditu nebo debetu, který je s transakcí spojen.
Dalším běžným příkladem těžby datových toků je základní vyhledávání na webu pomocí prohlížeče. Pomocí této aplikace koncový uživatel zadá vyhledávací hodnoty do pole a software, který řídí prohlížeč, se pokusí interpretovat tyto hodnoty a vrátit data, která mají určitý význam pro kritéria vyhledávání. V závislosti na tom, jak je prohlížeč nakonfigurován, může to také zahrnovat funkci, která se snaží předvídat záměr prováděného vyhledávání a nabízí další slova nebo fráze, které mohou pomoci upřesnit vyhledávání podle přání uživatele. Jakmile se uživatel usadil ve vyhledávací fráze, prohlížeč vrací výsledky v pořadí podle pořadí pomocí algoritmů, které jsou relevantní pro konfiguraci samotného prohlížeče.
Jednou z hlavních výhod těžby datových toků je schopnost přístupu k datům a jejich vyhledávání bez toho, aby ostatním skutečně zakázali používat stejná data. Protože datové toky se neustále aktualizují, výsledky extrakce se mohou čas od času změnit. Například provedení webového vyhledávání pomocí konkrétní vyhledávací fráze může dnes přinést jednu sadu výsledků, ale zítra může poskytnout poněkud odlišnou sadu výsledků na základě toho, jaké nové informace vstoupily do datového toku a jak vyhledávací stroj řadí tato data.