Hvad er dokumentklassificering?
Ligesom en webbrowser er nødt til at organisere data, så brugerne kan resultaterne til en søgning, tillader dokumentklassificering organisationer at gøre det enkelt at finde vigtige oplysninger. Dokumentkategorisering udføres forskelligt end ved hjælp af søgemaskinealgoritmer, fordi specifikke nøgleord kan have forskellige betydninger. En sådan metode skal være i stand til at måle konteksten for specifikke forretningsdokumenter. Ved overvåget dokumentklassificering mærker brugeren et sæt dokumenter, som det automatiserede system kan bruge som en model. I den ikke-overvågede metode er de matematisk organiserede baseret på lignende ord og sætninger.
Brugeren har mest kontrol over dokumentklassificering, når der anvendes regelbaseret klassificering. Konteksten, kategorierne og reglerne oprettes i henhold til det, der manuelt indtastes. Under processen med dokumentindhentning kategoriseres alt efter de nøjagtige regler, som en bruger har specificeret. Kategorier skal også tildeles under den overvågede metode. Trinnet med faktisk at udskrive reglerne, som søgesystemet skal følge, afsluttes imidlertid automatisk.
Med dokumentklynger, også kaldet ikke-overvåget klassificering, udføres grupperinger og kategorier alle automatisk. Der er ingen manuel input af regler, som kan være både fordelagtige og ugunstige. Denne proces sparer tid, da der ikke behøver at blive skrevet nogen regler, og der findes ofte lignende dokumenter, der oprindeligt ikke blev betragtet som lignende. Ulempen er, at dokumenter muligvis vises sammen, som ikke oprindeligt var beregnet til at være i samme kategori. Den mere automatiserede tilgang er også mere beskatning af computersystemer.
For at finde en balance mellem de to forskellige metoder har computerspecialister udviklet metoden til semi-overvåget dokumentklassificering. De dokumenter, der kategoriseres manuelt, kombineres med dokumentsæt, der ikke er mærket. Programmer, der kan knytte information fra begge, bruger dataene til at lære, hvordan hvert dokument klassificeres. Indhentning af oplysninger hjælpes med en vis kontrol over klassificeringsprocessen. Dokumentklynger gøres mere effektive, når sætninger kan bruges til at klynge dem, f.eks. Med Suffix Tree Clustering, især for dokumenter, der er gemt online.
Informationsvidenskab har undersøgt forskellige måder at effektivisere minedrift af data. De fleste virksomheder er tilsluttet internettet, så webminedrift skal være så lidt tidskrævende som muligt for, at relevante dokumenter kan findes. Computer videnskabsmænd har også oprettet flere forskellige algoritmer til at organisere dokumenter på en hierarkisk måde. Hver er effektiv på sin egen måde, og dokumentklassificering studeres og defineres ved hjælp af forskellige softwareprogrammer og brugerdefinerede virksomhedsmetoder.