(107.22.127.78) 您好!臺灣時間:2017/04/25 04:56          離開系統
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

本論文永久網址: 
研究生:洪大弘
研究生(外文):Ta-Hung Hung
論文名稱:基於語言模型及正反面語料知識庫之中文錯別字自動偵錯系統
論文名稱(外文):Automatic Chinese Character Error Detecting System Based on N-gram Language Model and Pragmatics Knowledge Base
指導教授:吳世弘吳世弘引用關係
指導教授(外文):Shih-Hung Wu
學位類別:碩士
校院名稱:朝陽科技大學
系所名稱:資訊工程系碩士班
論文出版年:2009
畢業學年度:97
語文別:中文
論文頁數:98
中文關鍵詞:N-gram 語言模型False Alarm正反面語料知識庫中文病句
外文關鍵詞:spelling check in ChineseN-gram Language ModelFalse AlarmPragmatics Knowledge Base
相關次數:
  • 被引用被引用:7
  • 點閱點閱:783
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:102
  • 收藏至我的研究室書目清單書目收藏:1
至今雖然已經有中文錯別字自動訂正方法及裝置,但是仍存在有值得努力改善的缺點,例如:演算法較費時,導致系統計算量增加,以及假警報(False Alarm)的問題,偵錯結果僅是更錯而不能給予適當的建議和說明範例,而且少有實際應用在電腦輔助教學上面。因此我們提出基於N-gram語言模型(N-gram language model)搭配正反面語料知識庫的方法,以及資訊檢索的技術改善效能,開發出一套有別於過去的中文作文自動偵錯流程及系統,針對同形字、同音字及成語三種錯誤類型進行偵錯與建議,能更快更正確偵查學生文章內容的錯誤,並且最重要的是給予適當的建議,期望能達到幫助提昇學生寫作能力之目的。
系統所依賴的N-gram 語言模型,其特性是能計算字詞組合的機率之特性,認定機率高者代表字詞組合的正確性越高,而語言模型規模相當依賴大型訓練語料,因此語言模型仍有缺點需克服,例如資料稀疏(Data sparseness)的問題,可以用smoothing的方法解決;還有跨領域的問題,訓練語料的性質越不同於測試的文章,所建立的語言模型效果越差,所以語料庫也要跟著改變與適應。還有加上正反面語料知識庫的方法,幫助系統先偵測出可能有錯的字,減少系統中語言模型的計算量,提昇系統效能。
實驗利用各種不同來源的中文文章測試,包括人工設定的資料以及現實生活中台北市某國中的作文,觀察分析系統對於中文病句的判斷能力,再使用Recall與Precision兩種標準來評估系統,觀察字詞與成語的錯誤,並針對實驗結果提出錯誤分析,以及使用問卷調查,分析我們提出的系統所能帶給國中生的幫助,實驗結果顯示,我們所提出的中文偵錯系統對於字詞和成語的錯誤偵測,不但有很好的成果,並且也能提供適當的建議以及說明,如此一來我們的系統也能提供給學生來練習寫作文,增進學生的語文能力,同時也能輔助教師教學。
Essay error detection is an important function for computer-aided essay composition. Systems that can detect the spelling errors and usage errors are very helpful for students. Previous systems based on confusion sets of each Chinese character tended to give false alarms and did not explain the errors. To overcome these drawbacks, we implement an error detection system of Chinese essay, based on statistic methods and knowledge base. It can label the errors and give suggestions. Previous works focus on all possible errors from words with similar shape or pronunciation. In addition to the common error patterns, we collect corpus of various correct usage such as idiom, maxim, and slang, which provides context of potential errors. Our system make decision based on n-gram language model, once a word is labeled as an error, the system will give explanation base on the correct context. Thus, our system can offer students information to improve their essay.
Traditionally, there are two difficulties on the application of language model. One is data sparseness, another is data adoptability. To deal with the drawback of N-gram language model on the data sparseness problem. We adopt several smoothing methods in our system. To overcome the adoptability, our system combines two language models to fit the usage of students. With a large knowledge base that contains thousands of common error patterns, our system can better identify error candidates.
In the experiments, simulate data and real essay corpus are used. We will report the recall and precision of our system, give error analysis, and find the possible benefit of our system. We believe the system can help students and teachers not only in class but also for distance learning via Internet.
摘要 I
Abstract II
誌 謝 III
1. 目錄 IV
2. 表目錄 VII
3. 圖目錄 IX
第一章 緒論 1
第一節 研究動機與目的 2
第二節 研究方法與步驟 4
第三節 名詞釋義 6
第四節 研究範圍與研究限制 8
第二章 文獻探討 10
第一節 語言模型 10
第二節 以往作文偵錯系統 11
第三節 錯別字的相關研究 14
第四節 電腦輔助教學 15
第三章 研究設計與實施 16
第一節 研究架構 16
第二節 相關研究 18
3.2.1 中文病句 18
3.2.2 正反面語料知識庫與資訊檢索技術的應用 19
3.2.3 N-gram語言模型 21
第三節 研究資料 26
第四節 實驗 30
第四章 系統偵錯之結果分析與討論 36
第一節 統計錯別字與各種關係 36
第二節 系統偵錯結果 38
第三節 系統漏判或誤判的案例分析 51
第四節 問卷調查與分析 55
第五節 給予學生學習與老師教學時的建議 79
第五章 結論與未來研究 80
第一節 結論 80
第二節 未來研究 81
參考文獻 82
附錄 88
表目錄
表1 常用國字辨似範例 7
表2 中文病句類型 8
表3 比較目前的偵錯技術與本實驗所提出的方法 12
表4 常用國字辨似範例 19
表5 中文新聞語料庫 26
表6 七年級與八年級每篇平均的錯誤字與平均級分 36
表7 七年級每個級分的平均錯誤字 36
表8 八年級每個級分的平均錯誤 37
表9 實驗1-1 的結果 39
表10 實驗1-2 的結果 40
表11 實驗2-1、2-2a 的結果1 41
表12 實驗2-1、2-2a 的結果2 42
表13 實驗2-2a、2-2b 的結果1 43
表14 實驗2-2a、2-2b 的結果2 44
表15 實驗2-3c 的結果1 45
表16 實驗2-3c 的結果2 46
表17 實驗2-3c 的結果3 47
表18 實驗2-3c 的結果4 48
表19 實驗3-1 Open test2 的結果與實驗2-1 Open test 比較結果 49
表20 實驗3-1 Open test2 的結果與實驗3-2 test 比較結果 50
表21 實驗3-2 test 所刪除的字詞清單 50
表22 系統計算兩個句子分數的結果 53
表23 系統計算兩個句子分數的結果 53
表24 問卷調查第一部份 55
表25 問卷調查第二部份 56
表26 問卷調查第三部份 56
表27 問卷調查分析使用者年齡 57
表28 問卷調查分析使用者性別 57

圖目錄
圖1 研究流程圖 4
圖2 中文作文偵錯系統運作的流程圖 5
圖3 舉例說明處理的限制 9
圖4 中文作文偵錯系統的研究流程圖 16
圖5 詳細偵錯系統流程圖 17
圖6 系統無法判斷的例子 18
圖7 Index 建立過程 20
圖8 檢索正反面語料庫產生偵錯候選詞的過程 20
圖9 舉例說明bigram,trigram 22
圖10 Step 1 文件原本的格式必須先經過去除Tag 與斷詞 27
圖12 Step 2 文件經過去除Tag 與n-gram 斷詞 27
圖12 Step 3 統計各字詞詞頻後,計算其條件機率,建立成uni-gram 28
圖13 Step 3 統計各字詞詞頻後,計算其條件機率,建立成bi-gram 28
圖14 正反面語料庫的例子 29
圖15 國字辨似的例子 29
圖16 資料的格式 31
圖17 系統Demo 畫面 33
圖18 系統偵錯結果 34
圖19 擷取系統偵錯結果 35
圖20 實驗1-1 的結果 39
圖21 實驗1-2 的結果 40
圖22 實驗2-1、2-2a 的結果1 41
圖23 實驗2-1、2-2a 的結果2 42
圖24 實驗2-2a、2-2b 的結果1 43
圖25 實驗2-2a、2-2b 的結果2 44
圖26 實驗2-3c 的結果1 45
圖27 實驗2-3c 的結果2 46
圖28 實驗2-3c 的結果3 47
圖29 實驗2-3c 的結果4 48
圖30 實驗3-1 Open test2 的結果與實驗2-1 Open test 比較結果 49
圖31 實驗3-1 Open test2 的結果與實驗3-2 test 比較結果 50
圖32 文章中被設定有錯的字 51
圖33 系統偵錯結果 51
圖34 系統評分結果 52
圖35 沒有考慮語意而判斷錯誤的例子 54
圖36 問卷調查分析使用者年齡 57
圖37 問卷調查分析使用者性別 57
圖38 第1 題問卷調查分析結果 58
圖39 第2 題問卷調查分析結果 59
圖40 第3 題問卷調查分析結果 60
圖41 第4 題問卷調查分析結果 61
圖42 第5 題問卷調查分析結果 62
圖43 第6 題問卷調查分析結果 63
圖44 第7 題問卷調查分析結果 64
圖45 第8 題問卷調查分析結果 65
圖46 第9 題問卷調查分析結果 66
圖47 第10 題問卷調查分析結果 67
圖48 第11 題問卷調查分析結果 68
圖49 第12 題問卷調查分析結果 69
圖50 第13 題問卷調查分析結果 70
圖51 第14 題問卷調查分析結果 71
圖52 第15 題問卷調查分析結果 72
圖53 第16 題問卷調查分析結果 73
圖54 第17 題問卷調查分析結果 74
圖55 第18 題問卷調查分析結果 75
圖56 第19 題問卷調查分析結果 76
圖57 第20 題問卷調查分析結果 77
[1] 王鴻儒, “高中職學生作文錯別字研究-以高雄市高中職學生作文為例”, 國立高雄師範大學國文教學系碩士論文, 2003年7月
[2] 李白芬, “國小學童認知風格及其錯字錯誤類型之關係研究”,國立嘉義師範學院初等教育研究所碩士論文, 1995年
[3] 林信宏, “基於貝氏機器學習法之中文自動作文評分系統” , 國立交通大學資訊科學與工程研究所碩士論文, 2005年7月
[4] Richard E. Mayer著, 林清山譯《教育心理學-認知取向》, 台北:遠流出版公司1991年版, 頁497
[5] 胡倩華, “偏誤分析與國中作文教學個案研究” , 國立中山大學中國語文學系研究所碩士論文, 2005年7月
[6] 陳宏銘, “提升國中生作文能力之研究” , 國立高雄師範大學國文教學碩士班, 碩士論文, 2006年7月
[7] 陳坤木, “電腦輔助學習在國民小學學生數學科精熟學習應用之研究” , 國立台南師範學院初等教育學系碩士論文, 1993年7月
[8] 陳雅如, “知識管理導向數位學習系統架構設計”, 南華大學資訊管理學研究所碩士論文, 2005年7月
[9] 粘志鵬, “基於支援向量機之中文自動作文評分系統” , 國立交通大學資訊科學與工程研究所碩士論文, 2005年7月
[10] 陳佩櫻, “台北市國小學童作文錯別字之研究”, 台北市立師範學院課程與教學研究所碩士論文, 2001年
[11] 郭祖珮, “高層思考寫作教學方案對國中生非傳統作文寫作效果之研究”, 國立臺灣師範大學教育心理與輔導研究所碩士論文, 2003年7月
[12] 郭紅伶, “相似字與非相似字認字教學策略對國小低年級認字困難學生學習生字成效之影響”, 台北市立師範學院國民教育研究所碩士論文, 2001年

[13] 張佑銘, “中文自動作文修辭評分系統設計” , 國立交通大學資訊 科學與工程研究所碩士論文, 2005年7月
[14] 曾雅文, “國中學生作文病句研究”, 國立高雄師範大學國文教學碩士班, 碩士論文, 2004年7月
[15] 楊玉麟, “數位學習教學策略在學習成效上之研究”, 國立中央大學資訊管理學系碩士在職專班碩士論文, 2005年7月
[16] 劉昭麟, 黃志斌, 翁睿妤, 莊怡軒, “形音相近的易混淆漢字的搜尋與應用”, Proceedings of the Twentieth Conference on Computational Linguistics and Speech Processing (ROCLING XX), September 2008, pp:108-122
[17] 劉寶珠, “作文運材教學設計之研究”, 國立臺灣師範大學國文系在職進修碩士論文, 2002年7月
[18] 蔡沛言, “自動建構中文作文評分系統:產生、篩選與評估” , 國立交通大學資訊科學與工程研究所碩士論文, 2005年7月
[19] Adam L. Berger, Vincent J. Della Pietra, Stephen A. Della Pietra, “A maximum entropy approach to natural language processing”, Computational Linguistics, Volume 22, Issue 1, March 1996, pp: 39-71
[20] Brown, Peter E; Cocke, John; Della Pietra, Stephen A.; Della Pietra, Vincent J.; Jelinek, Frederick; Lafferty, John D.; Mercer, Robert L.; and Roossin, Paul S., "A statistical approach to machine translation." Computational Linguistics, Volume 16 , Issue 2, 1990, pp: 79-85.
[21] Chang, C.H, “A New Approach for Automatic Chinese Spelling Correction” , In Proceedings of Natural Language Processing Pacific Rim Symposium, 1995, Seoul, Korea, pp: 278-283
[22] Chuen-Min Huang, Mei-Chen Wu, Ching-Che Chang, “Error Detection and Correction Based on Chinese Phonemic Alphabet in Chinese Text”, Proceedings of the Fourth Conference on Modeling Decisions for Artificial Intelligence (MDAI IV), August 2007, pp: 463-476
[23] CKIP( Chinese Knowledge Information Processing Group, 詞庫小組) , “Analysis of Chinese Part-of-Speech (中文詞類分析), Technology Report of CKIP #93-05(中文詞知識庫小組技術報告 #93-05),” Academia Sinica, Taipei, Taiwan, 1993.
[24] Dequan Zheng, Feng Yu, Tiejun, Sheng Li, “Documents Ranking Based on a Hybrid Language Model for Information Retrieval” IEEE International Conference on Information Acquisition, Aug. 2006, pp: 279-283
[25] Fei Song, W. Bruce Croft , “A general Language Model for Information Retrieval”, Proc. of Eighth International Conference on Information and Knowledge Management, 1999, pp: 316-321.
[26] Guo Dong ZHOU, “Modeling of Long Distance Context Dependency in Chinese”, Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, July 2003, pp: 71-77
[27] Iyer, R.M., Ostendorf, M., “Modeling Long Distance Dependence in Language: Topic Mixtures Versus Dynamic Cache Models”, IEEE Transactions on Speech and Audio Processing, Volume: 7, Issue: 1, Jan 1999, pp: 30-39
[28] J. Goodman, “A bit of Progress in Language Modeling”, Microsoft Research, Aug. 2001.
[29] J. Goodman, "A Bit of Progress in Language Modeling, Extended Version," Microsoft Research, Technical Report MSR-TR-2001-72, 2001.
[30] J. R. Bellegarda, “Statistical Language Model Adaptation: Reviewand Perspectives”, Speech Communication, vol.13, 2004, pp: 93-108
[31] J. Zhang, L. Sun, et al. “A Trigger Language Model-based IR System “, Proceedings of the 20th international conference on Computational Linguistics, 2004, pp: 680-686
[32] Jason S Chang, David Yu, Chun-Jun Lee, “Statistical Translation Model for Phrases” In Processing of Computational Linguistics and Chinese Language, Vol. 6, No. 2, August 2001, pp: 43-64
[33] Jen-Tzung Chien, “Association Pattern Language Modeling”, IEEE Transactions on Audio, Speech and Language Processing, Volume 14, Issue 5, Sept. 2006, pp: 1719-1728
[34] Jianfeng Gao, Joshua Goodman, Mingjing Li, Kai-Fu Lee, “Toward a Unified Approach to Statistical Language Modeling for Chinese”, ACM Transactions on Asian Language Information Processing, Vol. 1, No. 1, March 2002, pp: 3-33
[35] Katz, S. , “Estimation of Probabilities From Sparse Data for the Language Model Component of a Speech Recognizer”, IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 35, Issue 3, Mar 1987, pp 400-401.
[36] Lalit R. Bahl, Peter F. Brown, Peter V. De Souza, Robert L. Mercer, “A Tree-Based Statistical Language Model for Natural Language Speech Recognition”, IEEE Transactions on Acoustics Speech and Signal Processing, Vol. 37, No. 7, July 1989, pp: 1001-1008
[37] Lei Zhang, Chang ning Huang, Ming Zhou, Haihua Pan, “Automatic detecting/correcting errors in Chinese text by an approximate word-matching algorithm”, Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, 2000, pp: 248-254
[38] Qi Liang; Thomas Fang Zheng; Mingxing Xu; Wenhu Wu, “Language Model Adaptation Based on the Classification of a trigram''s Language Style Feature”, Natural Language Processing and Knowledge Engineering, 30 Oct.-1 Nov. 2005
[39] Ren, F. ; Shi, H. ; Zhou, Q. , “A hybrid approach to automatic Chinese text checking and error correction ” In Proceedings of the ARPA Work shop on Human Language Technology, March 1994, pp: 76-81
[40] Ronald Rosenfeld, “Adaptive Statistical Language Modeling: a Maximum Entropy Approach” Ph.D. Thesis Proposal, Carnegie Mellon University, September 1992.
[41] S. F. Chen, Joshua Goodman “An Empirical Study of Smoothing Techniques for Language Modeling”, Proc. of the 34th annual meeting on Association for Computational Linguistics ,Santa Cruz, California, 1996, pp: 310-318
[42] Sergios Theodoridis and Konstantion Koutroumbas, “Pattern Recognition (Third Edition) ”, Academic Press. pp 13-19
[43] Shih-Hung Wu , Chen-Yu Su, “An Evaluation of Adopting Language Model as the Checker of Preposition Usage”, Conference on Computational Linguistics and Speech Processing, September, 2006
[44] Slavam. Katz, “Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recognizer ”, IEEE Transactions on ACOUSTICS, SPEECH, and SIGNAL PROCESSING, VOL. ASSP-35, NO. 3, MARCH 1987, pp 400-401
[45] Sungho Ryu, Jin Hyung Kim, “Language Model Using Variable Length Tokens for Open Vocabulary Hangul Text Recognition”, Pattern Recognition
Volume 37, Issue 7, July 2004, pp: 1549-1552
[46] Ta-Hung Hung ; Shih-Hung Wu ; Tsun Ku ; Wen-Nan Wang, “Chinese Essay Error Detection and Suggestion System”, Taiwan E-Learing Forum(TWELF), 2008, Taichung
[47] Wu, A.-D., and Z.-X. Jiang, "Word Segmentation in Sentence Analysis," International Conference on Chinese Information Processing, 1998, Beijing, China, pp: 169-180
[48] Yih-Jeng Lin, Feng-Long Huang, Ming-Shing Yu, “A CHINESE SPELLING ERROR CORRECTION SYSTEM”, Proceedings of the Seventh Conference on Artificial Intelligence and Applications (TAAI), Session A7, 2002
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊
 
系統版面圖檔 系統版面圖檔