跳到主要內容

臺灣博碩士論文加值系統

(54.224.133.198) 您好!臺灣時間:2022/01/27 05:28
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:林嘉信
論文名稱:與多種拼音方法相容的國語輸入系統
論文名稱(外文):A Mandarin Input System Compatible With Multiple Pinyin Methods
指導教授:余明興余明興引用關係
指導教授(外文):Ming-Sing Yu
學位類別:碩士
校院名稱:國立中興大學
系所名稱:應用數學系
學門:數學及統計學門
學類:數學學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:57
中文關鍵詞:輸入法拼音容錯Character Tri-gramWord Uni-gram
外文關鍵詞:PinyinCharacter N-gram LMWord Uni-gram LM
相關次數:
  • 被引用被引用:9
  • 點閱點閱:789
  • 評分評分:
  • 下載下載:131
  • 收藏至我的研究室書目清單書目收藏:4
我們目標是要提供一個便利的國語輸入介面,至少能與下列三種拼音方式相容:教育部的注音符號第二式、中國的漢語拼音以及台灣的通用拼音。在節省按鍵的數目上,我們也減少了聲調的輸入,同時可解決變調後唸法與真正聲調不同的問題如:『總統(ㄗㄨㄥˊ-ㄊㄨㄥˇ)』&『總統(ㄗㄨㄥˇ-ㄊㄨㄥˇ)』。對於羅馬拼音不熟悉的人,或是習慣於其他拼音方式的人,我們的系統提供了一部份容錯的能力使得這些人也可以用羅馬拼音的方式來輸入國語。
我們希望系統能自動判別使用者輸入的是中文或英文,我們也重新定義了許多特殊的符號,讓注音符號輸入方便。我們也做了後接詞的預測,以期能增加輸入效率。另外,系統也提供了一個方便使用者修改的介面。我們也利用語言模型來做無聲調的音轉字處理,使用Character的N-gram(N=1,2,3)時,正確率為87.68%,而使用Word 的Uni-gram時,正確率為81.96%。
Our purpose is to provide a convenient Mandarin input system. We hope it can comply with the second type of Mandarin phonetic symbols (MPSⅡ)proposed by the Ministry of Education in Taiwan, Han-Yu Pinyin used in China, and Tong-Yong Pinyin in Taiwan. We use the toneless input, which can both save the number of keys and resolve the tone sandhi problem, for example in Mandarin”總統(ㄗㄨㄥˊㄊㄨㄥˇ)”&”總統(ㄗㄨㄥˇㄊㄨㄥˇ)”now all become” ㄗㄨㄥ ㄊㄨㄥ”.Our system provides a function to allow some errors when users input Mandarin with Roman Pinyin(including MPSⅡ, Han-Yu Pinyin, and Tong-Yong Pinyin).
The system can distinguish the input string between Mandarin and English. It can also predict the following characters in Mandarin. Of course it also has the function with which user can correct the wrong words. In our language model, we have compared two language models, “Character N-gram LM”(N=1,2,3)whose precision is 87.68%, and “word Uni-gram LM” whose precision is 81.96%. We use the better “Character N-gram LM” in our system.
附表目錄
表2-1 漢語拼音與通用拼音對照表 7
表4-1 中英判別處理表 25
表4-2 子音混淆集表 29
表4-3 介音混淆集表 29
表4-4 母音混淆集表 30
表4-5 字-Gram 統計資料表 33
表4-6 音-Gram 統計資料表 33
表4-7 Character N-gram同音CASE個數表 34
表5-1 Character N-gram LM實驗正確率表 41
表5-2 詞典字數分配表 42
表5-3 ASCED同音詞數統計表 43
表5-4 CFS同音詞數統計表 43
表5-5 ASCED+CFS同音詞數統計表 43
表5-6 Word Uni-gram LM實驗正確率表 46
表A-1 英文與「通用」、「漢語」衝突表 53
表A-2 英文與「注音二式」衝突表 54
附圖目錄
圖4-1 訓練階段架構圖 21
圖4-2 測試階段架構圖 22
圖4-3 擴展階段架構圖 23
圖4-4 系統流程圖 24
圖4-5 「ㄐㄧㄠ」混淆音處理圖 30
圖4-6 Character N-gram 等級說明圖 36
圖4-7 兩字組比較圖 36
圖4-8 多字組比較圖 36
圖5-1 Character N-gram LM實驗架構圖 41
圖6-1 系統概況圖 49
圖6-2 自訂音與拼音查詢圖 50
圖6-3 後接詞預測圖 51
圖6-4 改錯修正圖 51
章節介紹
第一章 緒論 1
1.1 前言 1
1.2 相關產品的簡介 2
1.3 章節的簡介 4
第二章 中文拼音方式討論 5
第三章 自然語言處理的介紹 10
3.1 自然語言處理的相關問題 10
3.1.1 機器翻譯 11
3.1.2 語音辨識與合成 14
3.2 自然語言處理的方法 15
第四章 系統的流程與架構 19
4.1 系統目標 19
4.2 系統架構 20
4.3 系統流程 23
4.3.1 中、英文 的判別 25
4.3.2 容錯的處理 27
4.3.3 無聲調的音轉字處理 32
4.3.4 後接字詞的預測 37
4.3.5 使用者的修改 38
第五章 實驗與討論 39
5.1 實驗說明與測試結果 39
5.1.1 頻率相乘與頻率相加比較 40
5.1.2 Character N-gram LM 41
5.1.3 Word Uni-gram LM 42
5.2 問題與討論 46
第六章 使用者介面說明 49
第七章 結語與未來研究方向 52
7.1 結語 52
7.2 未來研究方向 52
附錄 54
參考文獻 55
參考文獻
1. Bin YE ,”A Roman-Chinese Character Conversion System Correcting Pinyin Spell Errors with Application to the Chinese FEP”, IEICE Trans. Inf. & Syst. Vol. E83-D, No. 5 May 2000.
2. Chao-Huang Chang, “Noisy Channel Models for Corrupted Chinese Text Restoration and GB-to-Big5 Conversion”, Computational Linguistics and Chinese Language Processing, Vol. 3, No. 2, August 1998, pp. 79-92.
3. C. H. Chang, “A Pilot Study on Automatic Chinese Spelling Error Correction”, Communication of COLIPS, Vol. 4, No. 2, 1994, pp. 143-149.
4. Chu-Ren Huang, Keh-Jiann Chen, Feng-Yi Chen and Li-Li Chang, “Segmentation Standard For Chinese Natural Language Processing”, Computational Linguistics and Chinese Language Processing, Vol. 2, no. 2, August 1997, pp. 47-62.
5. Daniel Jurafsky & James H. Martin “Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Rocognition”, Prentice-Hall, 2000.
6. Feng-Long Hwang, Ming-Shing Yu, and Ming-Jer Wu, ”The Improving Techniques for Disambiguating Non-Alphabet Sense Categories”, in Proceedings of ROCLING XII, 2000, pp. 67-86.
7. Hung-Yan Gu and Chung-Chieh Yang, “A Dynamic-and-Static-Dictionaries Based Method for Accelerating Chinese-Character Inputting with Keyboard”, ROCLING. 1998, pp. 73-86.
8. Keh-Jiann Chen and Ming-Hong Bai, “Unknown Word Detection for Chinese by a Corpus-Based Learning Method”, International Journal of Computational Linguistics and Chinese Language Processing, Vol. 3, No. 1, February 1998, pp. 27-44.
9. Paul C. Bagshaw, “Phonemic Transcription by Analogy in Text-to-Speech Synthesis: Novel Word Pronunciation and Lexicon Compression”, Computer Speech and Language, 1998, Vol. 12, pp.119-142.
10. Ren-Yuan Lyu, Yuang-Jin Chiang, Ren-Zhou Fang, Wen-Ping Hsieh, “A Large-Vocabulary Taiwanese(Min-Nan) Speech Recognition System Based on Inter-Syllabic Initial-Final Modeling and Lexicon-Tree Search”, ROCLING XI Conference, 1998, pp. 139-149.
11. Rie Kubota Ando and Lillian Lee, “Mostly-Unsupervised Statistical Segmentation of Japanese Applications to Kanji”, 1st Conference of the North American Chapter of the Association for Computational Linguistics and 6th Conference on Applied Natural Language Processing(ANNP-NAACL), 2000.
12. Shaw-Hwa Hwang, Sin-Horng Chen, and Yih-Ru Wang, “A Mandarin Text-To-Speech System”, International Conference on Spoken Language Processing, 1996, pp. 1421-1424.
13. T. H. Ho, K. C. Tang, J. S. Lin and L. S. Lee, ”Integrating Long-Distance Language Modeling to Phoneme-to-Character Coversion”, in Proceedings of ROCLING X 1997, pp. 287-292.
14. Wen-Lian Hsu, “Chinese Parsing in a Phoneme-to-Character Conversion System Based on Semantic Pattern Matching”, International Journal on Computer Processing of Chinese and Oriental Languages, 1995, Vol.40, pp.227-236.
15. W. J. Teahan, Yingying Wen, Rodger McNab and Ian H. Witten, ”A Compression-based Algorithm for Chinese Word Segmentation”, Computational Linguistics, Vol. 26, Number 3, 2000, pp. 375-393.
16. Yih-Jeng Lin and Ming-Sing Yu, ”An Efficient Mandarin Text-to-Speech System on Time Domain”, IEICE Transactions on Information and System, Vol. E81-D, No. 6, 1998, pp. 545-555.
17. 林義証, ”中文常用字串-一個優於傳統語言模型的新觀念”, 中興大學應用數學系博士論文, 2002.
18. 李祥賓, and柯淑津, ”新聞文件摘要之研究”, ROCLING 2001, pp. 23-42.
19. 簡仁宗, and陳鴻儀, ”使用關聯法則為主之語言模型於擷取長距離中文文字關聯性”, ROCLING 2001, pp. 43-63.
20. 王稔志, 張俊盛, “適應性文件分類系統”, ROCLING 2001, pp. 99-121.
21. 許聞廉, and陳克建, “自然智慧型輸入法系統的語意分析-脈絡會意法”, Proceedings of the 6th International Symposium on Cognitive Aspects of the Chinese Language, 1993, pp. 527-540.
22. 葉瑞峰,王駿發, and許志興 “應用於音中仙國與聽寫機之短與規則分析與建立”, ROCLING 1995, pp. 253-272.
23. 簡立峰, and古鴻炎 ,”適合大量中文文件全文檢索的索引及資料壓縮技術”, ROCLING 1995, pp. 31-42.
24. 李琳山, ”產學合作計畫:國語聽寫機及其相關應用系列研究”, 科學發展月刊, 第26卷, 第12期, pp.1509-1515.
25. 台灣拼音交流站「http://888.rockin.net/pinpin」
26. 邱耀初老師研究室網頁「http://mail.scu.edu.tw/~t012345/index.htm」
27. 國語推行委員會首頁「http://www.edu.tw/mandr/index.htm」
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
1. 林美和(民74): 推動回歸主流教育應有的認識。特殊教育季刊,17,8-11頁。
2. 何華國(民89):澳洲特殊學生之融合教育。嘉義大學學報,69,161-181頁。
3. 吳淑美(民88): 融合教育與教育改革。幼教資訊,103,47-50頁。
4. 吳淑美(民86):融合式班級設立之要件。特教新知通訊,4(8),1-2頁。
5. 吳淑美(民80): 學前混合教育之班級管理。特殊教育季刊,39,7-10頁。
6. 吳淑美(民84):完全包含(full inclusion)模式可行嗎? 特教新知通訊,3(3),1-2頁。
7. 吳昆壽(民87):融合教育的省思。特教新知通訊五卷,7,169-172頁。
8. 吳武典(民87): 教育改革與特殊教育。教育資料集刊,23,197-220頁。
9. 李慶良(民87):紐西蘭教育部的多元文化特殊教育政策。特教新知通訊,5(7),173-176頁。
10. 王振德(民74): 回歸主流---其發展、涵意及相關的問題。特殊教育季刊,17,1-7頁。
11. 林麗容(民88):融合教育的實施方式及其相關的配合措施。國教輔導,38(3),19-22頁。
12. 胡致芬(民86): 重度障礙者之統合教育。特殊教育季刊,62,16-21頁。
13. 柯貴美(民87): 從教育改革聲中談特殊教育的轉型。國小特殊教育,25 ,52-59頁。
14. 許天威(民85): 加拿大的融合教育運動。載於第一屆加拿大研究學術研討會論文集,103-128頁。
15. 郭秀鳳(民84):障礙幼兒融合式教育之探討。特殊教育季刊,57,1-9頁。