ロスレスデータ圧縮とは
ロスレスデータ圧縮は、ファイルを保存してアーカイブに結合するコンピューター方式であり、プロセスでデータに含まれる情報を失うことなく、ファイルの場合よりもメモリ内の物理スペースが少なくなります。 対照的に、非可逆圧縮は、データの近似値でファイルサイズを縮小し、復元は元のファイルの内容に近いファクシミリです。 ロスレスデータ圧縮に使用されるアルゴリズムは、基本的に、より少ないメモリビットを使用して情報をエンコードするための一連の合理化されたルールまたは命令であり、データを変更せずに元の形式に復元する機能を保持します。
ロスレスデータ圧縮を使用する一般的なファイルタイプには、International Business Machines(IBM)のコンピューターベースのzipおよびUnixコンピューターベースのgzipファイルアーカイブがあります。 また、グラフィック交換形式(GIF)、ポータブルネットワークグラフィックス(PNG)、ビットマップ(BMP)ファイルなどの画像ファイル形式も使用されます。 データ圧縮アルゴリズムも、圧縮されるファイルの種類によって異なりますが、テキスト、オーディオ、および実行可能プログラムファイルには一般的なバリエーションがあります。
ロスレスデータ圧縮のアルゴリズムの2つの主なカテゴリは、入力データの統計モデルとデータファイル内のビット文字列のマッピングモデルに基づいています。 使用されるルーチンの統計アルゴリズムは、Burrows-Wheeler変換(BWT)、1977年に公開されたAbraham Lempel and Jacob Ziv(LZ77)アルゴリズム、およびPrediction by Partial Matching(PPM)メソッドです。 頻繁に使用されるマッピングアルゴリズムには、ハフマンコーディングアルゴリズムと算術コーディングが含まれます。
ロスレスデータ圧縮アルゴリズムの一部はオープンソースツールであり、その他は独自の特許を取得していますが、一部の特許も失効しています。 これにより、圧縮方法が間違ったファイル形式に適用される場合があります。 特定のデータ圧縮方法は相互に互換性がないため、混合ファイルを保存するとファイルのコンポーネントが劣化することがよくあります。 たとえば、テキストが圧縮された画像ファイルでは、復元されたテキストの可読性が低下する場合があります。 文法誘導を使用するスキャナーとソフトウェアは、潜在セマンティック分析(LSA)と呼ばれるものを適用することにより、画像ファイルとともに保存されているテキストから意味を抽出できます。
ロスレスデータ圧縮のマッピングアルゴリズム手法のもう1つの形式は、ユニバーサルコードの使用です。 ハフマンコーディングよりも柔軟に使用できるため、事前に最大整数値の知識を必要としません。 ただし、ハフマンコーディングと算術コーディングは、より優れたデータ圧縮率を実現します。 また、さまざまなソースで適切に機能するアルゴリズムを作成する汎用データ圧縮方法を作成する取り組みも進行中です。