Cos'è il mining di sequenza?
Il mining di sequenze è un tipo di data mining strutturato in cui il database e l'amministratore cercano sequenze o tendenze nei dati. Questo data mining è diviso in due campi. Il mining di sequenze di set di elementi viene in genere utilizzato nel marketing e il mining di sequenze di stringhe viene utilizzato nella ricerca biologica. Il mining di sequenze è diverso dal normale trend mining, poiché i dati sono più specifici, il che rende difficile la creazione di un database efficace per i progettisti di database e talvolta può andare storto se la sequenza è diversa dalla sequenza comune.
In un punto o nell'altro, tutti i database vengono utilizzati per estrarre i dati. Questa attività di mining aiuta le aziende e i gruppi di ricerca a trovare ciò di cui hanno bisogno. Di solito, stanno cercando una sorta di tendenza, ma quale sia quella tendenza e quanto siano specifiche le informazioni dipenderà dalla progettazione del database. Nel mining di sequenze, il database è costruito per trovare sequenze molto specifiche, con variazioni minime o nulle. Questa è una forma unica di data mining strutturato in cui il database cerca somiglianze tra i dati strutturati.
Il mining di sequenza può essere suddiviso in due categorie. Il mining di Itemset viene utilizzato nel marketing e negli affari per trovare tendenze specifiche in termini di numeri di vendita, tipi di prodotto, posizionamento del prodotto in un negozio e utilizzo di un prodotto. Queste cifre sono prese e applicate agli algoritmi di marketing per aiutare a strategizzare un progetto di marketing e per rafforzare le vendite. Le informazioni su un prodotto e il modo in cui lo fa in genere sono tratte dal database, ma l'aspetto determinante del mining di sequenze di set di elementi è che la sequenza è presa da celle di database multi-simboli.
Il mining di stringhe è l'opposto del mining di set di elementi perché considera ogni simbolo singolarmente anziché come un cluster. Nel mining di stringhe, il database potrebbe essere impostato per trovare una sequenza da una fonte proteica o campioni genetici. Questo aiuta a confrontare molti campioni di geni per vedere se sono uguali o per scomporre grandi sequenze e trovare quali sequenze contengono. Per lo più lo usano i team di ricerca medica e biologica.
La creazione di un database per il mining di sequenze può essere difficile perché, a differenza del trend mining e di altri data mining strutturati, le sequenze devono corrispondere in modo specifico. Questo porta anche al problema del mining per le sequenze. Se la sequenza è diversa, non verrà riconosciuta, il che potrebbe rendere più difficile il mining di set di elementi. Il mining di stringhe in genere ne trae beneficio, perché la minima differenza in un campione di tessuto potrebbe rendere l'organismo - o qualunque cosa il team di ricerca stia cercando - completamente distinto dagli altri campioni.