Hva er dokumentklassifisering?
Akkurat som en nettleser trenger å organisere data slik at brukere kan resultater til et søk, lar dokumentklassifisering organisasjoner gjøre det enkelt å finne viktig informasjon. Dokumentkategorisering utføres på en annen måte enn å bruke søkemotoralgoritmer fordi spesifikke nøkkelord kan ha forskjellige betydninger. En slik metode må kunne måle konteksten til spesifikke forretningsdokumenter. Med overvåket dokumentklassifisering merker brukeren et sett med dokumenter som det automatiserte systemet kan bruke som modell. I den uten tilsynsmetoden er de matematisk organisert basert på lignende ord og uttrykk.
Brukeren har mest kontroll over dokumentklassifisering når regelbasert klassifisering brukes. Konteksten, kategoriene og reglene opprettes i henhold til det som er manuelt lagt inn. Under prosessen med dokumenthenting, kategoriseres alt etter de nøyaktige reglene en bruker spesifiserte. Kategorier må også tilordnes under den overvåkede metoden. Trinnet med å faktisk skrive ut reglene søkesystemet skal følge, fullføres imidlertid automatisk.
Med dokumentklynger, også kalt klassifisering uten tilsyn, utføres grupperingene og kategoriene automatisk. Det er ingen manuell innføring av regler, som kan være både gunstig og ufordelaktig. Denne prosessen sparer tid da det ikke trenger å skrives noen regler, og lignende dokumenter blir ofte funnet som ikke ble ansett som like i utgangspunktet. Ulempen er at dokumenter kan vises sammen som ikke opprinnelig var ment å være i samme kategori. Den mer automatiserte tilnærmingen er også mer beskatning av datasystemer.
For å finne en balanse mellom de to forskjellige metodene, har dataspesialister utviklet metoden for halvkontrollert dokumentklassifisering. Dokumentene som er kategorisert manuelt, kombineres med dokumentsett som ikke er merket. Programmer som kan knytte informasjon fra begge bruker dataene til å lære hvordan hvert dokument er klassifisert. Innhenting av informasjon hjelper til med en viss kontroll over klassifiseringsprosessen. Dokumentklynging blir mer effektiv når fraser kan brukes til å klynge dem, for eksempel med Suffix Tree Clustering, spesielt for dokumenter som er lagret online.
Informasjonsvitenskap har utforsket forskjellige måter å effektivisere data mining. De fleste virksomheter er koblet til Internett, så nettverksdrift må være så lite tidkrevende som mulig for at relevante dokumenter kan bli funnet. Dataforskere har også laget flere forskjellige algoritmer for å organisere dokumenter på en hierarkisk måte. Hver av dem er effektive på sin egen måte, og dokumentklassifisering blir fortsatt studert og definert av forskjellige programmer og tilpassede bedriftsmetoder.