Hvad er tabsfri datakomprimering?
Tab uden datakomprimering er en computermetode til at gemme filer og kombinere dem i arkiver, der tager mindre fysisk plads i hukommelsen, end filerne ellers ville uden at miste nogen oplysninger, dataene indeholder i processen. Tabskompression reducerer derimod filstørrelsen med tilnærmelser til dataene, og gendannelse er tæt på det originale filindhold. Algoritmer, der bruges til tabsfri datakomprimering, er i det væsentlige et sæt strømlinede regler eller instruktioner til kodning af informationen ved hjælp af færre hukommelsesbits, mens de stadig bevarer evnen til at gendanne dataene til dets originale format uden ændringer.
Nogle almindelige filtyper, der bruger tabsfri datakomprimering, inkluderer International Business Machines (IBM) computerbaseret zip og Unix computerbaserede gzip-filarkiver. Der bruges også billedfilformater, såsom grafisk udvekslingsformat (GIF), bærbar netværksgrafik (PNG) og Bitmap (BMP) filer. Datakomprimeringsalgoritmer varierer også baseret på den filtype, der komprimeres, med almindelige variationer for tekst-, lyd- og eksekverbare programfiler.
De to hovedkategorier af algoritmer til tabsfri datakomprimering er baseret på en statistisk model af inputdata og en kortlægningsmodel af bitstrenge i en datafil. Brugte rutinemæssige statistiske algoritmer er Burrows-Wheeler-transformation (BWT), Abraham Lempel og Jacob Ziv (LZ77) -algoritmen, der blev offentliggjort i 1977, og Prediction by Partial Matching (PPM) -metoden. Kortlægningsalgoritmer, der ofte anvendes, inkluderer Huffman-kodningsalgoritmen og aritmetisk kodning.
Nogle af de tabsløse datakomprimeringsalgoritmer er open source-værktøjer, og andre er proprietære og patenterede, selvom patenter på nogle også nu er udløbet. Dette kan resultere i, at komprimeringsmetoder undertiden anvendes til det forkerte filformat. På grund af det faktum, at visse datakomprimeringsmetoder er uforenelige med hinanden, kan lagring af blandede filer ofte ødelægge en komponent i en fil. For eksempel kan en billedfil med tekst, der er komprimeret, vise degradering i tekstens læsbarhed, når den er gendannet. Scannere og software, der anvender grammatisk induktion, kan udtrække betydning fra tekst, der er gemt sammen med billedfiler ved at anvende det, der kaldes latent semantisk analyse (LSA).
En anden form for kortlægningsalgoritmemetode til tabsfri datakomprimering er brugen af universal-kode. Mere fleksibelt at bruge end Huffman-kodning, det kræver ikke kendskab til maksimale heltalværdier forud. Huffman-kodning og aritmetisk kodning producerer dog bedre datakomprimeringshastigheder. Der arbejdes også på at producere universelle datakomprimeringsmetoder, der vil skabe algoritmer, der fungerer godt til en række kilder.