跳到主要內容

臺灣博碩士論文加值系統

(44.192.79.149) 您好!臺灣時間:2023/06/02 23:23
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:林玉柱
研究生(外文):Yuh-Juh Lin
論文名稱:中文熵值上限的估算
論文名稱(外文):An Estimation of the Entropy of Chinese
指導教授:張俊盛張俊盛引用關係
指導教授(外文):Jyun-Sheng Chang
學位類別:碩士
校院名稱:國立清華大學
系所名稱:資訊科學學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:1994
畢業學年度:82
語文別:英文
論文頁數:41
中文關鍵詞:熵值交叉熵值語言模型平滑化分歧度瓶頸
外文關鍵詞:EntropyCross entropyLanguage modelSmoothingPerplexityBottlenecks
相關次數:
  • 被引用被引用:1
  • 點閱點閱:188
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
一九四0年代, Shannon 定義熵值 (entropy) 為 「 隨機來源
(probabilistic source) 之資訊含量的度量」, 並運用此度量來量化各
種觀念 ,如雜訊、累贅、(redundancy)、通道容量,與編碼的效率。交叉
熵值(Cross-entropy)是「語言模型預測隨機來源資料之能力」很有用的
度量交叉熵值越低的語言模型 ,工作成效越好。 無論一個語言模型有多
好, 交叉熵值不可能被降到比來源的熵值還低,也就是說, 用任何語言模
型度量而得的交叉熵值是該語言熵值的上限,而熵值與交叉熵值間的差異
是此語言模型之不精確程度。 因此可以利用交叉熵值來檢驗一個語言模
型的好壞。本論文有三個目的:一是發展新的方法來建造以類別為基礎的
n元模型(class-based n-gram models), 二是估計中文的 entropy, 三是
分析中文處理的若干瓶頸。 我們的作法是估計中文與我們模型的交叉熵
值(cross entropy), 然後從結果分析中文處理的瓶頸。我們的模型主要
建立在「同義詞詞林」上。 此詞林是中國一群優秀的字典編纂者編成。
我們認為具有語言學基礎的分類法來分類應比其他分類法佳。 本論文的
第一項工作即是試著回答「以語言學為背景的模型是否比其他模型佳? 」
估計英文 entropy 的報告已有許多, 但是對於中文我們所知極少,本論文
的第二項工作是回答「中文的熵值是多少? 」部份研究宣稱未知字和專有
名詞是中文斷詞的瓶頸,並舉出由此衍生的問題。 我們將分析中文熵值的
各項組成, 並指出中文處理瓶頸之所在。結果, 中文與我們模型的交叉熵
值為每詞 12.66 bits, 這個值比 IWCB 的交叉熵值好了0.6 bit,而中文
處理的瓶頸在於專有名詞與未知詞。
There are three tasks in this thesis: the first is to develop a
new approach to building class-based n-gram models,the second
is to estimate the entropy of Chinese, and the last is to ana-
lyze some bottlenecks in Chinese processing. We accomplish
these three closely related tasks by estimating the cross-
entropy of Chinese and our language model, and then analyse the
bottle- necks in Chinese processing from the results. The cross-
entropy of Chinese and our language model is 12.66 bits per
word or 3.88 bits per byte, which is better than IWCB by 0.6
bit per word. At last, we diagnose the bottlenecks in Chinese
processing as Name and Unknown classes in that they have
enormous perplexities in our model, which seem hard to be much
improved.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top