(3.237.178.91) 您好!臺灣時間:2021/03/04 09:20
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:李啟維
研究生(外文):Chi-Wei Lee
論文名稱:基於隱藏式馬可夫模型的中文改錯
論文名稱(外文):HMM-based Chinese Spelling Check
指導教授:張智星張智星引用關係張俊盛張俊盛引用關係
口試日期:2017-07-13
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:資訊工程學研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2017
畢業學年度:105
語文別:中文
論文頁數:47
中文關鍵詞:中文改錯隱藏式馬可夫模型集束搜尋向量支持機雜訊通道模型語言模型
外文關鍵詞:Chinese Spelling CheckHidden Markov Modelbeam searchNoisy Channel ModelLanguage model
相關次數:
  • 被引用被引用:0
  • 點閱點閱:236
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
本篇論文透過聯合報提供的改稿記錄分析記者們的錯字與一般撰寫者的差異性,發現其中的修改主要是因記者們的需求而生,例如因報紙版型的數字轉國字,及一些句子風格的俗化,而到一些異體字的出現,最後一大塊屬於詞與詞之間極容易搞混的案例,如”紀錄/記錄”。從中可看出,相較於之前的改錯字資料,偏向於較年幼或初學中文的人,聯合報的錯字範圍性更廣,不只有形音的錯字,更有許多更實際的修改。在這之中,我們挑選出數千個標準的句子,做為第一個專門檢測專業編輯者中文系統的標準測試集。
本文亦整合了字的形音及相關特徵,透過 SVM 訓練分類器,並依此分類器建立新的錯字更正集,訓練後的錯字更正集整體搜尋時間下降許多。在系統上導入Noisy Channel Model 與 Language Model 的句子計分方式,並比較 HMM 與Beam Search 的差異,發現 Beam Search 的結果優於 HMM。
First, we extracted the typos from UDN edit log, and do some analysis. By the above data, we create the first benchmark to examine the Chinese Spelling Check system for professional editor, like journalist, writer and so on. Second, we build a new confusion set which can reduce search time. By extracting the features from all the pairs of Chinese character, we can train a SVM classifier to explore potential confusion set based on known typos table. Last, we compared the result between HMM and beam search. With language model and noisy channel model, we tune the parameter to find the best accuracy from our benchmark. We found that beam search work much better than the method of HMM.
口試委員審定書 ii
誌謝 iii
摘要 iv
Abstract v
表格目錄 viii
圖表目錄 x
第1章 緒論 1
第1節 研究動機 1
第2節 研究方向 2
第3節 章節概要 4
第2章 文獻回顧 5
第3章 研究方法 7
第1節 N元語言模型 (N-gram Language Model) 8
第2節 雜訊通道模型 (Noisy Channel Model, NCM) 9
第3節 隱藏式馬可夫模型架構 (Hidden Markov Model, HMM) 10
第4節 集束搜尋 (Beam Search) 12
第5節 重排序 (Re-ranking) 13
第6節 錯字更正集 14
第1項 聲音相近 14
第2項 形狀相近 15
第3項 Fast Text 16
第4項 錯字更正集的生成 17
第5項 雜訊通道模型的機率 19
第4章 實驗結果 20
第1節 實驗資料 20
第1項 中研院平衡語料庫 20
第2項 Unihan 資料 20
第3項 SIGHAN 2013 資料 20
第4項 錯字勘誤表 20
第5項 聯合報改稿記錄 20
第2節 聯合報標準測試集建立 (UDN) 21
第1項 原始資料格式 21
第2項 錯字萃取方式 23
第3項 錯字類型 24
第4項 測試集的建立 28
第3節 錯字更正集的生成 30
第4節 評估指標 34
第5節 評測結果 36
第1項 HMM的比較 36
第2項 Beam Search 39
第3項 HMM 與 Beam Search 的比較 42
第4項 重排序加入 42
第5章 結論及未來展望 45
第1節 結論 45
第2節 未來展望 45
參考文獻 46
[1] Yih-Ru Wang, Liang-Chun Chang, Yeh-Kuang Wu and Yuan-Fu Liao (2013), “Conditional Random Field-based Parser and Language Model for Traditional Chinese Spelling Checker”, The 7th SIGHAN Workshop on Chinese Language Processing (SIGHAN-7).
[2] Shuiyuan Zhang, Jinhua Xiong, Jiapeng Hou, Qiao Zhang and Xueqi Cheng (2015), “HANSpeller++: A Unified Framework for Chinese Spelling Correction”, Eighth SIGHAN Workshop on Chinese Language Processing.
[3] Chao-Lin Liu, Min-Hua Lai, Kan-Wen Tien, Yi-Hsuan Chuang, Shih-Hung Wu and Chia-Ying Lee (2011), “Visually and phonologically similar characters in incorrect Chinese words: Analyses, identification, and applications”, ACM Transactions on Asian Language Information Processing, volume 10, pages 39.
[4] Yih-Jeng Lin, Feng-Long Huang and Ming-Shing Yu (2002), “A CHINESE SPELLING ERROR CORRECTIONS SYSTEM”, Processings of the Seventh Conference on Artificial Intelligence and Applications.
[5] Chuan-Jie Lin and Wei-Cheng Chu (2015), “A Study on Chinese Spelling Check Using Conufision Sets and N-grams Statistics.”, International Journal of Computational Linguistics and Chinese Language Processing. Volume 20, pages 23-47.
[6] Shih-Hung Wu, Yong-Zhi Chen, Ping-Che Yang, Tsun Ku and Chao-Lin Liu (2010), “Reducing the False Alarm Rate of Chinese Character Error Detection”, Proceedings of CIPS-SIGHAN Joint Conference on Chinese Language Processing, pages 54-61
[7] Hsun-Wen Chiu and Jason S. Chang (2014), “Chinese Spell Checking Based on Noisy Channel Model”, Master Thesis on National Tsing Hua University.
[8] Yih-Ru Wang and Yuan-Fu Liao (2014), “NCTU and NTUT’s Entry to CLP-2014 Chinese Spelling Check Evaluation”, Association for Computational Linguistics, In Proceedings of the 3rd CIPS-SIGHAN Joint Conference on Chinese Language Processing, pages 216-219.
[9] Hsun-Wen Chiu, Jian-Cheng Wu and Jason S. Chang (2013), “Chinese Spelling Checker Based on Statistical Machine Translation”, Proceedings of SIGHAN-7, pages 49-53.
[10] Yih-Ru Wang and Yuan-Fu Liao (2015), “Word Vector/Conditional Random Field-based Chinese Spelling Error Detection for SIGHAN-2015 Evaluation”, Proceedings of the Eighth SIGHAN Workshop on Chinese Language Processing (SIGHAN-8), pages 46-49.
[11] Jinhua Xiong, Qiao Zhang, Shuiyuan Zhang, Jianpeng Hou and Xueqi Cheng (2015), Computational Linguistics and Chinese Language Processing, Volume 20, No.1, pages 1-22.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔