這篇論文主要是針對多種應用於文件壓縮(text compression)的壓縮方法 從事研究。壓縮是一種對資料有效率編碼的技術。主要的目的在於降低資 料的重複性(redundancy)。藉由壓縮技術的使用我們可以節省存放資料的 空間及加快資料傳輸的速度。在論文中我們將討論可用來做文件壓縮的一 些無失真壓縮技術 ( lossless compression)。依據壓縮技術的所根據的 原理,無失真壓縮技術可分成兩大類 : 統計式壓縮法 (statistical compression) 和代換式壓縮法(substitutional compression)。大致上 而言,統計式壓縮法,如霍夫曼編碼 (Huffman coding) 及算術編碼 (arithmetic coding), 依據的是資料中每個字元(symbol)的發生機率, 每個字元將會依其在資料中出現機率的不同而得到長短不同的編碼,出現 機率越高的字元將會以較短的碼來表示。 代換式壓縮法,如紀夫-連伯壓 縮法(Ziv-Lempel compression),則將所要編碼的子字串以一特別的碼表 示而參考至已編碼過之資料中相同的字串。在本文中將介紹以上所提用於 文件壓縮上的壓縮技術之原理、演算法及一些實行上的改進和所須注意的 問題。這些技術包括霍夫曼編碼,算術編碼及紀夫-連伯壓縮法。 將這些 技術實際運用於一組測試資料所得之實驗結果如壓縮率、解碼及編碼時間 及所需使用之記憶體等也將於論文中做一比較。
|