Was ist eine Dokumentenklassifikation?
So wie ein Webbrowser Daten organisieren muss, damit Benutzer zu einer Suche führen können, können Organisationen mithilfe der Dokumentklassifizierung wichtige Informationen auf einfache Weise finden. Die Kategorisierung von Dokumenten erfolgt anders als bei der Verwendung von Suchmaschinenalgorithmen, da bestimmte Schlüsselwörter unterschiedliche Bedeutungen haben können. Eine solche Methode muss in der Lage sein, den Kontext bestimmter Geschäftsdokumente zu beurteilen. Bei der überwachten Dokumentenklassifizierung kennzeichnet der Benutzer eine Reihe von Dokumenten, die das automatisierte System als Modell verwenden kann. Bei der unbeaufsichtigten Methode werden sie mathematisch basierend auf ähnlichen Wörtern und Ausdrücken organisiert.
Der Benutzer hat die größte Kontrolle über die Dokumentklassifizierung, wenn die regelbasierte Klassifizierung verwendet wird. Der Kontext, die Kategorien und die Regeln werden entsprechend der manuellen Eingabe erstellt. Während des Dokumentabrufs wird alles nach den genauen Regeln kategorisiert, die ein Benutzer festgelegt hat. Kategorien müssen auch während der überwachten Methode zugewiesen werden. Der Schritt des tatsächlichen Ausschreibens der Regeln, denen das Suchsystem folgen soll, wird jedoch automatisch abgeschlossen.
Bei Dokumentenclustern, die auch als unbeaufsichtigte Klassifizierung bezeichnet werden, werden die Gruppierungen und Kategorien automatisch erstellt. Es gibt keine manuelle Eingabe von Regeln, die sowohl vorteilhaft als auch nachteilig sein können. Dieser Vorgang spart Zeit, da keine Regeln geschrieben werden müssen und häufig ähnliche Dokumente gefunden werden, die anfangs nicht als ähnlich galten. Der Nachteil ist, dass Dokumente möglicherweise zusammen angezeigt werden, die ursprünglich nicht derselben Kategorie angehören sollten. Der stärker automatisierte Ansatz ist auch für Computersysteme anstrengender.
Um ein Gleichgewicht zwischen den beiden unterschiedlichen Methoden zu finden, haben Computerspezialisten die Methode der halbüberwachten Dokumentenklassifikation entwickelt. Die manuell kategorisierten Dokumente werden mit nicht beschrifteten Dokumentensätzen kombiniert. Programme, die Informationen aus beiden verknüpfen können, verwenden die Daten, um zu erfahren, wie jedes Dokument klassifiziert ist. Das Abrufen von Informationen wird durch eine gewisse Kontrolle über den Klassifizierungsprozess unterstützt. Das Clustering von Dokumenten wird effizienter, wenn Ausdrücke zu deren Clustering verwendet werden können, z. B. mit Suffix Tree Clustering, insbesondere für online gespeicherte Dokumente.
Die Informationswissenschaft hat verschiedene Wege erkundet, um Data Mining effizienter zu gestalten. Die meisten Unternehmen sind mit dem Internet verbunden. Daher muss Web Mining so zeitsparend wie möglich sein, damit relevante Dokumente gefunden werden können. Informatiker haben auch verschiedene Algorithmen entwickelt, um Dokumente hierarchisch zu organisieren. Jedes ist auf seine eigene Weise wirksam, und die Klassifizierung von Dokumenten wird weiterhin von verschiedenen Softwareprogrammen und benutzerdefinierten Unternehmensmethoden untersucht und definiert.