Was ist verlustfreie Datenkomprimierung?

Die verlustfreie Datenkomprimierung ist eine Computermethode zum Speichern und Zusammenführen von Dateien zu Archiven, die weniger physischen Speicherplatz beanspruchen als die Dateien, ohne dabei die in den Daten enthaltenen Informationen zu verlieren. Im Gegensatz dazu verringert eine verlustbehaftete Komprimierung die Dateigröße mit Annäherungen an die Daten, und die Wiederherstellung erfolgt nahezu faksimiliert mit dem ursprünglichen Dateiinhalt. Algorithmen, die für die verlustfreie Datenkomprimierung verwendet werden, sind im Wesentlichen ein Satz optimierter Regeln oder Anweisungen zum Codieren der Informationen unter Verwendung von weniger Speicherbits, wobei die Fähigkeit erhalten bleibt, die Daten in ihrem ursprünglichen Format ohne Änderung wiederherzustellen.

Zu den gängigen Dateitypen, die verlustfreie Datenkomprimierung verwenden, gehören die computergestützten zip- und gzip-Dateiarchive von International Business Machines (IBM). Ebenfalls verwendet werden Bilddateiformate wie GIF-Dateien (Graphic Interchange Format), PNG-Dateien (Portable Network Graphics) und BMP-Dateien (Bitmap). Datenkomprimierungsalgorithmen variieren auch basierend auf dem zu komprimierenden Dateityp, wobei häufige Variationen für Text-, Audio- und ausführbare Programmdateien gelten.

Die beiden Hauptkategorien von Algorithmen für die verlustfreie Datenkomprimierung basieren auf einem statistischen Modell von Eingabedaten und einem Abbildungsmodell von Bitfolgen in einer Datendatei. Routinemäßig verwendete statistische Algorithmen sind die Burrows-Wheeler-Transformation (BWT), der 1977 veröffentlichte Abraham-Lempel-und-Jacob-Ziv-Algorithmus (LZ77) und die PPM-Methode (Prediction by Partial Matching). Zu den häufig verwendeten Zuordnungsalgorithmen gehören der Huffman-Codierungsalgorithmus und die arithmetische Codierung.

Einige der verlustfreien Datenkomprimierungsalgorithmen sind Open-Source-Tools und andere proprietär und patentiert, obwohl Patente für einige inzwischen ebenfalls abgelaufen sind. Dies kann dazu führen, dass Komprimierungsmethoden manchmal auf das falsche Dateiformat angewendet werden. Aufgrund der Tatsache, dass bestimmte Datenkomprimierungsmethoden nicht miteinander kompatibel sind, kann das Speichern gemischter Dateien häufig eine Komponente einer Datei beeinträchtigen. Beispielsweise kann eine Bilddatei mit komprimiertem Text eine Verschlechterung der Lesbarkeit des wiederhergestellten Texts anzeigen. Scanner und Software, die die Grammatikinduktion verwenden, können zusammen mit Bilddateien gespeicherte Texte mit Hilfe der sogenannten latenten semantischen Analyse (LSA) nachvollziehen.

Eine andere Form des Zuordnungsalgorithmus zur verlustfreien Datenkomprimierung ist die Verwendung von Universalcode. Es ist flexibler zu verwenden als die Huffman-Codierung und erfordert keine vorherige Kenntnis der maximalen Ganzzahlwerte. Huffman-Codierung und arithmetische Codierung führen jedoch zu besseren Datenkomprimierungsraten. Es werden auch Anstrengungen unternommen, um universelle Datenkomprimierungsmethoden zu entwickeln, mit denen Algorithmen erstellt werden können, die für eine Vielzahl von Quellen gut funktionieren.

ANDERE SPRACHEN

War dieser Artikel hilfreich? Danke für die Rückmeldung Danke für die Rückmeldung

Wie können wir helfen? Wie können wir helfen?