Vad är dokumentklassificering?
Precis som en webbläsare behöver organisera data så att användare kan göra resultat till en sökning, gör dokumentklassificering organisationer möjlighet att göra det enkelt att hitta viktig information. Dokumentkategorisering utförs på annat sätt än med sökmotoralgoritmer eftersom specifika sökord kan ha olika betydelser. En sådan metod måste kunna mäta sammanhanget för specifika affärsdokument. Med övervakad dokumentklassificering märker användaren en uppsättning dokument som det automatiska systemet kan använda som modell. I den oövervakade metoden är de matematiskt organiserade baserade på liknande ord och fraser.
Användaren har mest kontroll över dokumentklassificering när regelbaserad klassificering används. Kontext, kategorier och regler skapas enligt vad manuellt matas in. Under processen för dokumenthämtning kategoriseras allt enligt de exakta reglerna som en användare har angett. Kategorier måste också tilldelas under den övervakade metoden. Steget att faktiskt skriva ut reglerna som sökningssystemet bör följa är dock slutfört automatiskt.
Med dokumentklustering, även kallad klassificering utan tillsyn, görs grupperingarna och kategorierna automatiskt. Det finns ingen manuell inmatning av regler, vilket kan vara både fördelaktigt och ofördelaktigt. Denna process sparar tid eftersom inga regler behöver skrivas, och liknande dokument hittas ofta som ursprungligen inte ansågs liknande. Nackdelen är att dokument kan visas tillsammans som inte ursprungligen var avsedda att vara i samma kategori. Den mer automatiserade metoden är också mer beskattning av datasystem.
För att hitta en balans mellan de två olika metoderna har datorspecialister utvecklat metoden för halvkontrollerad dokumentklassificering. Dokumenten som kategoriseras manuellt kombineras med dokumentuppsättningar som inte är märkta. Program som kan associera information från båda använder data för att lära sig hur varje dokument klassificeras. Informationssökning stöds av viss kontroll över klassificeringsprocessen. Dokumentklustering effektiviseras när fraser kan användas för att klustera dem, till exempel med Suffix Tree Clustering, särskilt för dokument som lagras online.
Informationsvetenskap har utforskat olika sätt för att effektivisera datainrinning. De flesta företag är anslutna till Internet, så webbbrytning måste vara så lite tidskrävande som möjligt för att relevanta dokument kan hittas. Datorforskare har också skapat flera olika algoritmer för att organisera dokument på ett hierarkiskt sätt. Var och en är effektiv på sitt sätt och dokumentklassificering fortsätter att studeras och definieras med olika program och anpassade företagsmetoder.