(3.215.180.226) 您好!臺灣時間:2021/03/06 13:42
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:陳勇志
研究生(外文):Yong-Zhi Chen
論文名稱:利用雜訊通道模型與自動產生偵錯模板改良學生中文作文別字偵測與改正
論文名稱(外文):Improve the Detection of Improperly Used Chinese Characters with Noisy Channel Model and Detection Template
指導教授:吳世弘吳世弘引用關係
指導教授(外文):Shih-Hung Wu
學位類別:碩士
校院名稱:朝陽科技大學
系所名稱:資訊工程系碩士班
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2010
畢業學年度:98
語文別:中文
論文頁數:123
中文關鍵詞:中文別字偵錯偵錯模板雜訊通道模型
外文關鍵詞:Noisy Channel ModelDetection templatesChinese essay error detection
相關次數:
  • 被引用被引用:2
  • 點閱點閱:409
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:43
  • 收藏至我的研究室書目清單書目收藏:0
過去雖然有許多中文別字偵錯與改正的研究或系統,但是仍存在些許缺點,例如︰偵錯時間費時、假警報過於頻繁、正確偵測的別字不見得能夠準確的改正為正確字、無法針對不同的使用者取向提供不同的系統效能、偵測系統建置完成後無法添加知識庫持續改進系統效能等。
為了解決上述問題,我們提出結合偵測模板與基於統計式機器翻譯的別字偵錯與改正系統。這兩個模組基於大量的混淆字集與統計學生實際寫錯的別字所建構而成。透過混淆字集我們可以自動產生數以萬計的別字偵錯模板。而統計式機器翻譯所應用到的雜訊通道模型能夠改進單純使用語言模型的效果。我們的系統可以針對近音字、近形字以及學生常犯的別字進行偵錯與建議。
實驗部份我們則是複製過去三個文獻上的系統,並且統一使用一致的資料集,針對別字偵錯與改正的方法來進行較客觀的比較。經由實驗也證實我們的系統能夠有效的降低假警報並且取得最佳的F-Score效能。
There are five drawbacks of existent present Chinese character error detection systems. Specific drawbacks are summarized as follows: 1) The high time complexity. 2) The high false alarm rate. 3) The inability to correct most error characters that the systems detected. 4) The ineptitude to provide different modes for different users. 5) The icapability to increase the system performance by adding manually edited knowledge after the systems have been built.
To improve these drawbacks, we propose a system that combines a statistic module and a template matching module to detect and correct Chinese character errors. Our system automatically generates templates with the help of a dictionary and confusion sets. The statistic method is based on Noisy Channel Model, which surpasses the systems using language model only. The training sets include students’ essays with errors and a large amount of corpus. Our system can detect and correct three types of errors: pronunciation-related errors, form-related errors and common errors.
In this paper, we compare our system with three methods proposed in previous works and test them with the same data set in our experiments. The experiment results show that our system can reduce the false alarm significantly and give the best performance on f-score.
摘要 IV
Abstract V
誌謝 VI
目錄 VII
表目錄 X
圖目錄 XII
第一章 緒論 1
1.1 研究動機與目的 1
1.2 研究方法 3
1.3 名詞釋義 4
1.4 論文編排 6
第二章 文獻探討 7
2.1 過去別字偵錯系統及相關研究 7
2.2 我們過去的研究 9
2.3 實驗的比較對象 10
第三章 研究設計與系統方法設計 13
3.1 研究架構 13
3.2 詞彙斷詞與別字偵測 15
3.3 Template Module 17
3.3.1. 過去的Template Module 17
3.3.2. 本論文使用的Template Module 22
3.3.3. Template Module的偵錯方式 26
3.4 Translate Module 28
3.4.1. Language Model 29
3.4.2. Error Model 32
3.4.3. Translate Module的偵錯方式 33
3.5 Merge Corrections 35
3.6 POS Language Model 36
第四章 實驗與偵錯結果分析 37
4.1 實驗資料 37
4.1.1. 辭典 37
4.1.2. 混淆字集 38
4.1.3. 訓練語言模型的資料 39
4.1.4. 學生作文與交通部網頁 40
4.2 實驗設計與評估方式 47
4.3 實驗 48
4.3.1. 實驗一︰系統效能隨知識庫增長 48
4.3.2. 實驗二︰與過去的文獻做比較 52
4.3.3. 實驗三︰False Alarm對於別字偵錯系統的影響 56
4.3.4. 實驗四︰加入POS LM對於系統的改進 60
4.3.5. 實驗五︰針對交通部網頁進行偵錯 68
4.4 偵錯結果分析 69
第五章 結論與未來研究 81
5.1 結論 81
5.2 未來研究 82
參考文獻 85
附錄A 89
附錄B 100
附錄C 115
表目錄
表 1. 正反面語料知識庫部份範例 4
表 2. “辦”字部分的混淆字 5
表 3. 不同前後文造成詞彙標準不一致 23
表 4. 混淆的詞彙 23
表 5. 部份刪除的虛詞 24
表 6. 別字“辨”為例子 32
表 7. 範例“想辨法” 33
表 8. Translate Module偵錯範例 34
表 9. Tri-gram POS斷詞 36
表 10. “辦”字混淆字集 38
表 11. 訓練語言模型的新聞語料庫 39
表 12. 學生作文收集時間 42
表 13. 訓練集與測試集統計資料 43
表 14. 正別字近形與近音比例統計 43
表 15. 交通部底下的網頁 46
表 16. Top N偵錯模板數 48
表 17. 添加知識庫對於系統效能的變化 49
表 18. 與過去文獻比較的系統效能數據 52
表 19. 各個系統平均偵錯時間 53
表 20. 與過去文獻比較只針對含有別字句子的系統效能 56
表 21. 加入POS LM針對文章偵錯 60
表 22. 加入POS LM針對只含有別字句子偵錯 64
表 23. 交通部網頁偵錯數據 68
表 24. Template Module單獨使用的效能 89
表 25. Template Module單獨使用的效能 93
表 26. 只添加Template Module知識庫的Precision Mode與Detection Mode 94
表 27. 只添加Translate Module知識庫的Precision Mode與Detection Mode 97
表 28. Precision Mode正確改正但傳統LM沒有正確改正的例句 100
表 29. Precision Mode正確改正但傳統LM發生False Alarm 105
表 30. Precision Mode無法偵錯成功的例句 110
圖目錄
圖 1. 系統架構圖 13
圖 2. 斷詞範例 15
圖 3. 第一版的偵錯模板自動產生流程 18
圖 4. 偵錯模板的字元擴展範例 18
圖 5. 第二版的偵錯模板自動產生流程 19
圖 6. 應用混淆字集產生偵錯模板範例 20
圖 7. 偵錯模板自動產生簡易版流程圖 22
圖 8. 簡易版的偵錯模板產生範例 25
圖 9. Template Module偵錯例句 26
圖 10. 經刪減過後的部分詞彙 37
圖 11. 學生作文原文 40
圖 12. 學生作文電子檔 41
圖 13. 別字數與級分間距統計圖 44
圖 14. 用字數與級分間距統計圖 45
圖 15. 添加知識庫對於Precision的效能變化 50
圖 16. 添加知識庫對於Detection的效能變化 50
圖 17. 添加知識庫對於Correction的效能變化 51
圖 18. 添加知識庫對於F-Score的效能變化 51
圖 19. 與過去文獻比較的Precision數據 54
圖 20. 與過去文獻比較的Detection數據 54
圖 21. 與過去文獻比較的Correction數據 55
圖 22. 與過去文獻比較的F-Score數據 55
圖 23. 與過去文獻比較只針對含有別字句子的Precision數據 58
圖 24. 與過去文獻比較只針對含有別字句子的Detection數據 58
圖 25. 與過去文獻比較只針對含有別字句子的Correction數據 59
圖 26. 與過去文獻比較只針對含有別字句子的F-Score數據 59
圖 27. 加入POS LM針對文章偵錯的Precision數據 62
圖 28. 加入POS LM針對文章偵錯的Detection數據 62
圖 29. 加入POS LM針對文章偵錯的Correction數據 63
圖 30. 加入POS LM針對文章偵錯的F-Score數據 63
圖 31. 加入POS LM針對只含有別字句子偵錯的Precision數據 66
圖 32. 加入POS LM針對只含有別字句子偵錯的Detection數據 66
圖 33. 加入POS LM針對只含有別字句子偵錯的Correction數據 67
圖 34. 加入POS LM針對只含有別字句子偵錯的F-Score數據 67
圖 35. Template Module Precision走勢圖 91
圖 36. Template Module Detection走勢圖 91
圖 37. Template Module Correction走勢圖 92
圖 38. Template Module F-Score走勢圖 92
圖 39. 只添加Template Module知識庫的兩個模式Precision效能 95
圖 40. 只添加Template Module知識庫的兩個模式Detection效能 95
圖 41. 只添加Template Module知識庫的兩個模式Correction效能 96
圖 42. 只添加Template Module知識庫的兩個模式F-Score效能 96
圖 43. 只添加Translate Module知識庫的兩個模式Precision效能 98
圖 44. 只添加Translate Module知識庫的兩個模式Detection效能 98
圖 45. 只添加Translate Module知識庫的兩個模式Correction效能 99
圖 46. 只添加Translate Module知識庫的兩個模式F-Score效能 99
1. 林信宏. 基於貝氏機器學習法之中文自動作文評分系統. 國立交通大學資訊科學與工程研究所碩士論文. 2005年.
2. 粘志鵬. 基於支援向量機之中文自動作文評分系統. 國立交通大學資訊科學與工程研究所碩士論文. 2005年7月.
3. 張佑銘. 中文自動作文修辭評分系統設計. 國立交通大學資訊科學與工程研究所碩士論文. 2005年.
4. 蔡沛言. 自動建構中文作文評分系統:產生、篩選與評估. 國立交通大學資訊科學與工程研究所碩士論文. 2005年.
5. 曾雅文. 國中學生作文病句研究. 國立高雄師範大學國文教學碩士班碩士論文. 2004年.
6. 胡倩華. 偏誤分析與國中作文教學個案研究. 國立中山大學中國語文學系研究所碩士論文. 2005年.
7. 洪大弘. 基於語言模型及正反面語料知識庫之中文錯別字自動偵錯系統. 朝陽科技大學資訊工程系碩士論文. 2009年.
8. 教育部國語推行委員會. 教育部重編國語辭典修訂本. 台北市 : 教育部, 2007.
9. 教育部國語推行委員會. 常用國字辨似. 台北市 : 教育部, 1997.
10. 陳勇志, et al. 中文作文錯別字偵錯模板自動產生. The 13th Global Chinese Conference on Computer in Education. 2009, pp. 402-408.
11. Chen, Yong-Zhi, et al. Chinese Confusion Word Set for Automatic Generation of Spelling Error Detecting Template. The 21th Conference on Computational Linguistics and Speech Processing(Rocling2009). 2009, pp. 359-372.
12. Ren, Fuji, Shi, Hongchi and Zhou, Qiang. A hybrid approach to automatic Chinese text checking and error correction. In Proceedings of the ARPA Work shop on Human Language Technology. 1994, pp. 76-81.
13. Chang, Chao-Huang. A New Approach for Automatic Chinese Spelling Correction. In Proceedings of Natural Language Processing Pacific Rim Symposium. 1995, pp. 278-283.
14. Zhang, Lei, et al. Automatic Chinese Text Error Correction Approach Based-on Fast Approximate Chinese Word-Matching Algorithm. Proceedings of the 3rd world congress on Intelligent Control and Automation. 2000, pp. 2739-2743.
15. Zhang, Lei, et al. Approach in automatic detection and correction of errors in Chinese text based on feature and learning. Proceedings of the 3rd world congress on Intelligent Control and Automation. 2000, pp. 2744-2748.
16. Lin, Yih-Jeng, Huang, Feng-Long and Yu, Ming-Shing. A CHINESE SPELLING ERROR CORRECTION SYSTEM. Proceedings of the Seventh Conference on Artificial Intelligence and Applications. 2002.
17. Huang, Chuen-Min, Wu, Mei-Chen and Chang, Ching-Che. Error Detection and Correction Based on Chinese Phonemic Alphabet in Chinese Text. Proceedings of the Fourth Conference on Modeling Decisions for Artificial Intelligence (MDAI IV). 2007, pp. 463-476.
18. CKIP. AutoTag. 1999年.
19. Liu, Chao-Lin and Lin, Jen-Hsiang. Using structural information for identifying similar Chinese characters. Proceedings of the Forty Sixth Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL''08). 2008, pp. 93-96.
20. Liu, Chao-Lin, et al. Phonological and logographic influences on errors in written Chinese words. Proceedings of the Seventh Workshop on Asian Language Resources (ALR7), the Forty Seventh Annual Meeting of the Association for Computational Linguistics (ACL''09). 2009, pp. 84-91.
21. Liu, Chao-Lin, et al. Capturing errors in written Chinese words. Proceedings of the Seventh Workshop on Asian Language Resources (ALR7), the Forty Seventh Annual Meeting of the Association for Computational Linguistics (ACL''09). 2009, pp. 25-28.
22. Chen, Yong-Zhi, et al. Improve the Detection of Improperly Used Chinese Characters in Students'' Essays with Error Model. The 13th Global Chinese Conference on Computer in Education. 2010.
23. Ma, Wei-Yun and Chen, Keh-Jiann. A Bottom-up Merging Algorithm for Chinese. Proceedings of ACL workshop on Chinese Language Processing. 2003, pp. 31-38.
24. Hung, Ta-Hung and Wu, Shih-Hung. Chinese Essay Error Detection and Suggestion System. Taiwan E-Learning Forum. 2008.
25. Brown, Peter, et al. The mathematics of statistical machine translation: parameter estimation. Computational Linguistics. 1993, pp. 263-311.
26. Church, Kenneth and Mercer, Robert. Introduction to the special issue on computational linguistics using large corpora. Computational Linguistics. 1993, pp. 1-24.
27. Damerau, Fred. A technique for computer detection and correction of spelling errors. Communications of the ACM. 1964, pp. 171 - 176.
28. Kernighan, Mark, Church, Kenneth and Gale, William. A spelling correction program based on a noisy channel model. Proceedings of the 13th conference on Computational linguistics. 1990, pp. 205 - 210.
29. Katz, Slavam. Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recognizer. IEEE Transactions on ACOUSTICS, SPEECH, and SIGNAL PROCESSING. 1987, pp. 400-401.
30. Goodman, Joshua. A bit of progress in language modeling. Computer Speech & Language. 2001, pp. 403-434 .
31. Blum, Avrim and Mitchell, Tom. Combining Labeled and Unlabeled Data with Co-Training. Proceedings of the Workshop on Computational Learning Theory. 1998, pp. 92-100.
32. Klein, Dan and Manning, Christopher. Fast Exact Inference with a Factored Model for Natural Language Parsing. In Advances in Neural Information Processing Systems 15 (NIPS 2002). 2003, pp. 3-10.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔