|
一九四0年代, Shannon 定義熵值 (entropy) 為 「 隨機來源 (probabilistic source) 之資訊含量的度量」, 並運用此度量來量化各 種觀念 ,如雜訊、累贅、(redundancy)、通道容量,與編碼的效率。交叉 熵值(Cross-entropy)是「語言模型預測隨機來源資料之能力」很有用的 度量交叉熵值越低的語言模型 ,工作成效越好。 無論一個語言模型有多 好, 交叉熵值不可能被降到比來源的熵值還低,也就是說, 用任何語言模 型度量而得的交叉熵值是該語言熵值的上限,而熵值與交叉熵值間的差異 是此語言模型之不精確程度。 因此可以利用交叉熵值來檢驗一個語言模 型的好壞。本論文有三個目的:一是發展新的方法來建造以類別為基礎的 n元模型(class-based n-gram models), 二是估計中文的 entropy, 三是 分析中文處理的若干瓶頸。 我們的作法是估計中文與我們模型的交叉熵 值(cross entropy), 然後從結果分析中文處理的瓶頸。我們的模型主要 建立在「同義詞詞林」上。 此詞林是中國一群優秀的字典編纂者編成。 我們認為具有語言學基礎的分類法來分類應比其他分類法佳。 本論文的 第一項工作即是試著回答「以語言學為背景的模型是否比其他模型佳? 」 估計英文 entropy 的報告已有許多, 但是對於中文我們所知極少,本論文 的第二項工作是回答「中文的熵值是多少? 」部份研究宣稱未知字和專有 名詞是中文斷詞的瓶頸,並舉出由此衍生的問題。 我們將分析中文熵值的 各項組成, 並指出中文處理瓶頸之所在。結果, 中文與我們模型的交叉熵 值為每詞 12.66 bits, 這個值比 IWCB 的交叉熵值好了0.6 bit,而中文 處理的瓶頸在於專有名詞與未知詞。
|