Che cos'è la compressione dei dati senza perdita di dati?

La compressione dei dati senza perdita di dati è un metodo informatico per archiviare i file e combinarli in archivi che occupano meno spazio fisico in memoria rispetto ai file che altrimenti non perderebbero le informazioni che i dati contengono nel processo. La compressione con perdita, al contrario, riduce le dimensioni del file con approssimazioni dei dati e il ripristino ha un fac-simile al contenuto del file originale. Gli algoritmi utilizzati per la compressione dei dati senza perdita di dati sono essenzialmente un insieme di regole o istruzioni semplificate per la codifica delle informazioni utilizzando meno bit di memoria, pur mantenendo la possibilità di ripristinare i dati nel loro formato originale senza alterazione.

Alcuni tipi di file comuni che utilizzano la compressione dei dati senza perdita di dati includono gli archivi zip basati su computer International Business Machines (IBM) e gli archivi file gzip basati su computer Unix. Vengono anche utilizzati formati di file di immagine come il formato GIF (Graphic Interchange Format), Portable Network Graphics (PNG) e Bitmap (BMP). Gli algoritmi di compressione dei dati variano anche in base al tipo di file da comprimere, con variazioni comuni per file di testo, audio ed eseguibili.

Le due principali categorie di algoritmi per la compressione dei dati senza perdita di dati si basano su un modello statistico di dati di input e un modello di mappatura delle stringhe di bit in un file di dati. Gli algoritmi statistici di routine utilizzati sono la trasformata di Burrows-Wheeler (BWT), gli algoritmi Abraham Lempel e Jacob Ziv (LZ77) pubblicati nel 1977 e il metodo Prediction by Partial Matching (PPM). Gli algoritmi di mappatura utilizzati frequentemente includono l'algoritmo di codifica Huffman e la codifica aritmetica.

Alcuni degli algoritmi di compressione dei dati senza perdita di dati sono strumenti open source e altri sono proprietari e brevettati, anche se alcuni brevetti sono scaduti. Ciò può comportare l'applicazione a volte di metodi di compressione nel formato file errato. A causa del fatto che alcuni metodi di compressione dei dati sono incompatibili tra loro, la memorizzazione di file misti può spesso degradare un componente di un file. Ad esempio, un file di immagine con testo compresso può mostrare una degradazione nella leggibilità del testo una volta ripristinato. Scanner e software che utilizzano l'induzione grammaticale possono estrarre significato dal testo archiviato insieme ai file di immagine applicando quella che è nota come analisi semantica latente (LSA).

Un'altra forma di algoritmo di mappatura per la compressione dei dati senza perdita di dati è l'uso del codice universale. Più flessibile da utilizzare rispetto alla codifica Huffman, non richiede la conoscenza dei valori interi massimi in anticipo. La codifica Huffman e la codifica aritmetica producono tuttavia migliori tassi di compressione dei dati. Sono inoltre in corso sforzi per produrre metodi universali di compressione dei dati che creerebbero algoritmi che funzionano bene per una varietà di fonti.

ALTRE LINGUE

Questo articolo è stato utile? Grazie per il feedback Grazie per il feedback

Come possiamo aiutare? Come possiamo aiutare?