Co je sekvenční těžba?
Dolování sekvencí je typ dolování strukturovaných dat, ve kterém databáze a správce vyhledávají sekvence nebo trendy v datech. Tato data mining je rozdělena do dvou polí. Dolování sekvencí položek se obvykle používá v marketingu a dolování biologických řetězců se používá ve výzkumu biologie. Dolování sekvence se liší od běžné těžby trendů, protože data jsou specifičtější, což pro konstruktéry databází ztěžuje budování efektivní databáze, a někdy se může zhoršit, pokud se sekvence liší od běžné sekvence.
V jednom nebo druhém bodě jsou všechny databáze využívány k vyhledávání dat. Tato těžba pomáhá podnikům a stranám výzkumu najít něco, co potřebují. Obvykle hledají nějaký druh trendu, ale co tento trend je a jak konkrétní jsou informace, bude záviset na návrhu databáze. Při těžbě sekvencí je databáze vytvořena tak, aby nalezla velmi specifické sekvence, s malou až žádnou variací. Toto je jedinečná forma dolování strukturovaných dat, ve které databáze prohledává podobná strukturovaná data.
Sekvenční těžba může být rozdělena do dvou kategorií. Dolování položek se používá v marketingu a podnikání k nalezení konkrétních trendů v počtech prodejů, typech produktů, umístění produktu v obchodě a použití produktu. Tyto údaje se berou a aplikují na marketingové algoritmy, které pomohou strategizovat marketingový projekt a podpořit prodej. Informace o produktu a jeho obvyklém provedení jsou převzaty z databáze, ale definujícím aspektem dolování sekvence položek je to, že sekvence je převzata z databázových buněk s více symboly.
Důlní těžba je opakem těžby položek, protože se dívá na každý symbol spíše než na shluk. Při těžbě řetězců může být databáze nastavena tak, aby nalezla sekvenci ze zdroje proteinu nebo vzorků genů. To pomáhá při porovnávání mnoha vzorků genů, aby se zjistilo, zda jsou stejné nebo rozebralo velké sekvence a zjistilo, které sekvence obsahují. Většinou to využívají týmy biologického a lékařského výzkumu.
Vytvoření databáze pro těžbu sekvencí může být obtížné, protože na rozdíl od těžby trendů a jiných strukturovaných dat, musí se sekvence přesně shodovat. To také vede k problému těžby sekvencí. Pokud je sekvence jiná, nebude rozpoznána, což může ztížit těžbu sady položek. Těžba strun z toho obvykle těží, protože nejmenší rozdíl ve vzorku tkáně by mohl organismus - nebo cokoli výzkumný tým zkoumá - zcela odlišit od ostatních vzorků.