Wat is compressie zonder gegevensverlies?
Gegevenscompressie zonder verlies is een computermethode voor het opslaan en combineren van bestanden in archieven die minder fysieke ruimte in het geheugen in beslag neemt dan de bestanden anders zonder informatie te verliezen die de gegevens in het proces bevatten. Lossy compressie, daarentegen, vermindert de bestandsgrootte met benaderingen van de gegevens, en herstel is een facsimile van de originele bestandsinhoud. Algoritmen die worden gebruikt voor gegevenscompressie zonder verlies, zijn in wezen een reeks gestroomlijnde regels of instructies voor het coderen van de informatie met minder bits geheugen, terwijl de mogelijkheid behouden blijft om de gegevens naar het oorspronkelijke formaat te herstellen zonder wijzigingen.
Enkele veel voorkomende bestandstypen die verliesvrije gegevenscompressie gebruiken, zijn de computergebaseerde zip van International Business Machines (IBM) en archieven van Unix computergebaseerde gzip-bestanden. Ook worden afbeeldingsbestandsindelingen gebruikt, zoals de grafische indeling (GIF), draagbare netwerkafbeeldingen (PNG) en Bitmap-bestanden (BMP). Datacompressiealgoritmen variëren ook op basis van het bestandstype dat wordt gecomprimeerd, met veel voorkomende variaties voor tekst-, audio- en uitvoerbare programmabestanden.
De twee hoofdcategorieën van algoritmen voor verliesloze gegevenscompressie zijn gebaseerd op een statistisch model van invoergegevens en een toewijzingsmodel van bitstrings in een gegevensbestand. De gebruikte routinematige statistische algoritmen zijn de Burrows-Wheeler-transformatie (BWT), het Abraham Lempel en Jacob Ziv (LZ77) -algoritme gepubliceerd in 1977 en de Prediction by Partial Matching (PPM) -methode. Veel gebruikte mapping-algoritmen zijn het Huffman-coderingsalgoritme en rekenkundige codering.
Sommige van de verliesloze datacompressie-algoritmen zijn open source-tools en anderen zijn gepatenteerd en gepatenteerd, hoewel op sommige ook patenten zijn verlopen. Dit kan ertoe leiden dat compressiemethoden soms op het verkeerde bestandsformaat worden toegepast. Vanwege het feit dat bepaalde datacompressiemethoden niet compatibel zijn met elkaar, kan het opslaan van gemengde bestanden vaak een component van een bestand verslechteren. Een afbeeldingsbestand met gecomprimeerde tekst kan bijvoorbeeld een verslechtering vertonen van de leesbaarheid van de tekst die eenmaal is hersteld. Scanners en software die grammatica-inductie gebruiken, kunnen betekenis halen uit tekst die is opgeslagen samen met afbeeldingsbestanden door toepassing van wat bekend staat als latente semantische analyse (LSA).
Een andere vorm van mapping-algoritme-methode voor verliesloze datacompressie is het gebruik van universele code. Flexibeler in gebruik dan Huffman-codering, het vereist geen kennis van maximale gehele getallen vooraf. Huffman-codering en rekenkundige codering produceren echter betere datacompressiesnelheden. Er worden ook inspanningen geleverd om universele datacompressiemethoden te produceren die algoritmen zouden creëren die goed werken voor verschillende bronnen.