跳到主要內容

臺灣博碩士論文加值系統

(52.203.18.65) 您好!臺灣時間:2022/01/19 16:49
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:唐大任
研究生(外文):Da-Ren Tang
論文名稱:中文斷詞器之研究
論文名稱(外文):A Study of Chinese Parser
指導教授:王逸如王逸如引用關係
指導教授(外文):Yih-Ru Wang
學位類別:碩士
校院名稱:國立交通大學
系所名稱:電信工程系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:57
中文關鍵詞:斷詞器
外文關鍵詞:Parser
相關次數:
  • 被引用被引用:30
  • 點閱點閱:1171
  • 評分評分:
  • 下載下載:178
  • 收藏至我的研究室書目清單書目收藏:4
在本論文中,我們探討了斷詞器製作時的一些問題。首先利用斷詞規則與構詞規則配合詞庫,來幫助斷詞器斷詞,同時建立詞類雙連文模型,用以標記每個詞的詞類。在複合詞方面,由於定量複合詞與四字疊詞具有規律,因此我們利用構詞規則來結合,再使用斷詞規則挑選詞庫中的詞彙,或此複合詞。另外,若在輸出的詞串中有可結合的接頭/尾詞,我們則藉由規則將之與後/前面的詞彙結合成衍生詞。
利用中研院提供的平衡語料庫,當作測試語料,幫助瞭解斷詞器性能。觀察斷詞結果,可發現我們結合出的長詞多比平衡語料庫還長,且我們認為結合的長詞是合理的,加上斷詞結果與平衡語料庫一致部分,斷詞器的正確率約達96%;其餘不正確處,則多是專有名詞與詞庫收錄未完備造成。至於詞類標記的正確性初步觀察還不錯,尚需適合的測試語料來更精確地測量。
In this thesis, the parser for Chinese was studied. A parser is used to identify the words and their associated part of speech (POS) in a Chinese sentence. In our parser, the word matching rules proposed by the Chinese knowledge Information Processing group (CKIP), Academia Sinica; and the word combination rules for compounds were used. First, in the word matching unit, the first word in word chunk with the maximal length and the most plausible will be selected. Then, the word combination rules-determinative-measure(DM) compound and reduplication rules can be used to group the words into compound . In the thesis, there were done before the word matching in order to solve some ambiguities in the word matching unit. A prefix/suffix word construction rules were also used for post-processing, which can further construct the words into a derive word. Finally, the POS bigram model was used to determine the POS of output words in parser. The Sinica Corpus published by CKIP was used to evaluate the performance of out system; and the average word length of our system was larger than that done by CKIP parser. The result of our parser was more suitable for a speech synthesis system.
目 錄
中文摘要 Ⅰ
英文摘要 Ⅱ
誌謝 Ⅲ
目錄 Ⅳ
表目錄 Ⅶ
圖目錄 Ⅷ
第一章 緒論 1
1.1 研究動機 1
1.2 國語斷詞器的基本架構介紹 2
1.3 章節概要 3
第二章 詞庫整理與統計 4
2.1 詞庫之蒐集及整理 4
2.1.1詞庫與斷詞器的關係 4
2.1.2詞庫介紹與整理 5
2.2 中文詞庫〔八萬目詞〕說明與整理 7
2.3 附著語素定義與求取 9
第三章 斷詞器的建立 11
3.1 前置處理單元 12
3.2 構詞單元 13
3.2.1定量複合詞的構詞 14
3.2.2四字疊詞的構詞 18
3.3 斷詞單元 20
3.4 後置構詞單元 24
第四章 詞類雙連文模型的建立 27
4.1 馬可夫模型 27
4.2 語料庫 30
4.2.1〔中研院平衡語料庫3.0版〕的說明與修正 30
4.2.2 訓練語料與測試語料的建立 32
4.3 建立詞類雙連文模型 33
4.4 詞類標記產生單元 34
第五章 實驗結果與分析 36
5.1 斷詞單元 36
5.2 疊詞及定量複合詞構詞單元 37
5.2.1疊詞構詞規則 37
5.2.2定量複合詞構詞規則 39
5.3 加入疊詞及定量複合詞構詞規則之斷詞系統效能分析 41
5.3.1詞類標記結果 42
5.3.2斷詞結果與〔中研院平衡語料庫3.0版〕之比較與分析44
5.4 加入接頭/尾詞構詞規則之斷詞系統效能分析 47
第六章 結論與未來展望 50
參考文獻 51
附錄一 52
附錄二 54
【1】中文資訊處理分詞規範-第2次修訂, 87.5.29.
【2】Ruo-ping Jean Mo, Yao-Jung Yang, Keh-Jiann Chen, and Chu-Ren Huang ,
“Determinative-Measure Compounds in Mandarin Chinese”
【3】Keh-Jiann Chen, and Shing-Huan Liu, “WORD IDENTIFICATION FOR MANDARIN CHINESE SENTENCES”, 1992
【4】詞庫小組, “中文詞類分析”, 技術報告 93-05
【5】詞庫小組,“中央研究院平衡語料庫的內容與說明”, P13, 95-02
【6】F. Jelinek, “The Development of an Experimental Discrete Dictation Recognizer”, Proc. IEEE, Vol. 73, No. 11, pp.1616-1623, November 1985
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top