Wat is sequentiemijnbouw?
Sequence mining is een type gestructureerde datamining waarbij de database en de beheerder sequenties of trends in de gegevens zoeken. Deze datamining is opgesplitst in twee velden. Itemset-sequentiemining wordt meestal gebruikt in marketing en stringsequentiemining wordt gebruikt in biologisch onderzoek. Sequence mining verschilt van reguliere trend mining, omdat de gegevens specifieker zijn, wat het bouwen van een effectieve database moeilijk maakt voor databaseontwerpers, en het kan soms mislopen als de volgorde verschilt van de algemene volgorde.
Op een gegeven moment worden alle databases gebruikt om naar gegevens te zoeken. Deze mijnbouw helpt bedrijven en onderzoekspartijen om iets te vinden dat ze nodig hebben. Meestal zijn ze op zoek naar een soort trend, maar wat die trend is en hoe specifiek de informatie is, hangt af van het databaseontwerp. In sequentiemining is de database gebouwd om zeer specifieke sequenties te vinden, met weinig tot geen variatie. Dit is een unieke vorm van gestructureerde datamining waarbij de database de gestructureerde gegevens doorzoekt op overeenkomsten.
Sequence mining kan worden onderverdeeld in twee categorieën. Itemset-mining wordt gebruikt in marketing en bedrijven om specifieke trends te vinden in verkoopaantallen, productsoorten, productplaatsing in een winkel en het gebruik van een product. Deze cijfers worden genomen en toegepast op marketingalgoritmen om een marketingproject te helpen strategiseren en de verkoop te ondersteunen. Informatie over een product en hoe het meestal werkt, is afkomstig uit de database, maar het bepalende aspect van de reeks mining van itemsets is dat de reeks wordt overgenomen uit databasecellen met meerdere symbolen.
String mining is het tegenovergestelde van itemset mining omdat het elk symbool afzonderlijk bekijkt in plaats van als een cluster. In string mining kan de database worden ingesteld om een sequentie van een eiwitbron of genmonsters te vinden. Dit helpt bij het vergelijken van veel genmonsters om te zien of ze hetzelfde zijn of om grote sequenties af te breken en te achterhalen welke sequenties ze bevatten. Meestal gebruiken biologische en medische onderzoeksteams dit.
Het maken van een database voor sequentiemining kan moeilijk zijn omdat, in tegenstelling tot trendmining en andere gestructureerde datamining, de sequenties specifiek op elkaar moeten aansluiten. Dit leidt ook tot het probleem van het delven van sequenties. Als de volgorde anders is, wordt deze niet herkend, wat het delven van itemsets moeilijker kan maken. String mining profiteert hier meestal van, omdat het kleinste verschil in een weefselmonster het organisme - of wat het onderzoeksteam ook onderzoekt - volledig van andere monsters kan onderscheiden.