Hvad er sekvensminedrift?
Sequence mining er en type struktureret data mining, hvor databasen og administratoren leder efter sekvenser eller tendenser i dataene. Denne dataindvinding er opdelt i to felter. Genstandssekvensudvinding bruges typisk i markedsføring, og strengsekvensudvinding bruges i biologiforskning. Sekvensminedrift er forskellig fra almindelig trendminedrift, fordi dataene er mere specifikke, hvilket gør det vanskeligt at opbygge en effektiv database for databasedesignere, og det kan undertiden gå galt, hvis sekvensen er forskellig fra den fælles sekvens.
På et eller andet tidspunkt bruges alle databaser til mine til data. Denne minedrift hjælper virksomheder og forskningspartier med at finde noget, de har brug for. Normalt leder de efter en slags tendens, men hvad denne tendens er, og hvor specifik informationen er, afhænger af databasedesignet. I sekvensminedrift er databasen bygget til at finde meget specifikke sekvenser med ringe til ingen variation. Dette er en unik form for struktureret data mining, hvor databasen ser gennem de strukturerede data for ligheder.
Sekvensminedrift kan opdeles i to kategorier. Itemet mining er brugt i marketing og forretning til at finde specifikke tendenser i salgstal, produkttyper, produktplacering i en butik og brugen af et produkt. Disse tal tages og anvendes på marketingalgoritmer for at hjælpe med at strategisere et marketingprojekt og til at styrke salget. Oplysninger om et produkt og hvordan det gør typisk er hentet fra databasen, men det definerende aspekt af gruppesætssekvensudvindingen er, at sekvensen er hentet fra multisymboledatabaser.
String mining er det modsatte af itemset mining, fordi det ser på hvert symbol individuelt snarere end som en klynge. Ved strengindvinding kan databasen muligvis indstilles til at finde en sekvens fra en proteinkilde eller genprøver. Dette hjælper med at sammenligne mange genprøver for at se, om de er ens eller nedbryde store sekvenser og finde hvilke sekvenser de indeholder. Det mest biologiske og medicinske forskerteam bruger dette.
Oprettelse af en database til sekvensminedrift kan være vanskeligt, fordi i modsætning til trendmining og anden struktureret datamining skal sekvenserne specifikt matche hinanden. Dette fører også til problemet med minedrift til sekvenser. Hvis sekvensen er en anden, vil den ikke blive genkendt, hvilket muligvis gør minedrift af artikelsæt vanskeligere. Strengminedrift drager typisk fordel af dette, fordi den mindste forskel i en vævsprøve kan gøre organismen - eller hvad forskerteamet forsker - fuldstændigt forskellig fra andre prøver.