Wat is documentclassificatie?
Net zoals een webbrowser gegevens moet ordenen, zodat gebruikers resultaten voor een zoekopdracht kunnen vinden, stelt documentclassificatie organisaties in staat het eenvoudig te maken om belangrijke informatie te vinden. Documentcategorisatie wordt anders uitgevoerd dan met behulp van zoekmachine-algoritmen omdat specifieke zoekwoorden verschillende betekenissen kunnen hebben. Een dergelijke methode moet de context van specifieke bedrijfsdocumenten kunnen inschatten. Met gecontroleerde documentclassificatie labelt de gebruiker een set documenten die het geautomatiseerde systeem als model kan gebruiken. In de niet-gecontroleerde methode zijn ze wiskundig georganiseerd op basis van vergelijkbare woorden en zinnen.
De gebruiker heeft de meeste controle over documentclassificatie wanneer op regels gebaseerde classificatie wordt gebruikt. De context, categorieën en regels worden gemaakt op basis van wat handmatig wordt ingevoerd. Tijdens het ophalen van documenten wordt alles gecategoriseerd volgens de exacte regels die een gebruiker heeft opgegeven. Categorieën moeten ook worden toegewezen tijdens de bewaakte methode. De stap van het daadwerkelijk uitschrijven van de regels die het zoeksysteem zou moeten volgen, wordt echter automatisch voltooid.
Met documentclustering, ook wel classificatie zonder toezicht genoemd, worden de groeperingen en categorieën automatisch uitgevoerd. Er is geen handmatige invoer van regels, die zowel gunstig als nadelig kunnen zijn. Dit proces bespaart tijd omdat er geen regels hoeven te worden geschreven en er vaak vergelijkbare documenten worden gevonden die aanvankelijk niet als vergelijkbaar werden beschouwd. Het nadeel is dat documenten samen kunnen verschijnen die oorspronkelijk niet in dezelfde categorie waren bedoeld. De meer geautomatiseerde aanpak is ook zwaarder voor computersystemen.
Om een evenwicht tussen de twee verschillende methoden te vinden, hebben computerspecialisten de methode voor semi-gecontroleerde documentclassificatie bedacht. De documenten die handmatig zijn gecategoriseerd, worden gecombineerd met documentsets die niet zijn gelabeld. Programma's die informatie van beide kunnen koppelen, gebruiken de gegevens om te leren hoe elk document is geclassificeerd. Het ophalen van informatie wordt geholpen door enige controle over het classificatieproces. Documentclustering wordt efficiënter gemaakt wanneer zinnen kunnen worden gebruikt om ze te clusteren, zoals met Suffix Tree Clustering, vooral voor documenten die online worden opgeslagen.
Informatiewetenschap heeft verschillende manieren onderzocht om datamining efficiënter te maken. De meeste bedrijven zijn verbonden met internet, dus webmining moet zo kort mogelijk duren om relevante documenten te vinden. Computerwetenschappers hebben ook verschillende algoritmen ontwikkeld om documenten op een hiërarchische manier te ordenen. Elk is effectief op zijn eigen manier en documentclassificatie wordt nog steeds bestudeerd en gedefinieerd door verschillende softwareprogramma's en aangepaste bedrijfsmethoden.