(54.196.91.84) 您好!臺灣時間:2017/05/26 06:00          離開系統
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

本論文永久網址: 
研究生:林聰明
論文名稱:以注音語料庫為基礎的中文文件校稿系統
論文名稱(外文):A Phonetic Corpus Based Chinese Documents Amendment System
指導教授:喬逸偉
學位類別:碩士
校院名稱:佛光大學
系所名稱:資訊學系
學門:工程學門
學類:電資工程學類
論文出版年:2009
畢業學年度:98
語文別:中文
論文頁數:96
中文關鍵詞:中文文件校稿聲母韻母近似音一字多音
外文關鍵詞:ping-yingspell checkingword segmentation
相關次數:
  • 被引用被引用:1
  • 點閱點閱:564
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:44
  • 收藏至我的研究室書目清單書目收藏:1
拜電腦普及率高,電腦的使用幾乎是現代人們日常生活上不可缺的一部份。提供一些傳統文件所沒有的優點:可修正、可合併、可複製、可快速傳送、不佔空間、方便攜帶、保存等等優點的電子化文件正大量且迅速地佔領文書這個領域。
在文件電子化的人為輸入過程中總難免有錯誤的發生,在英文文件中單字不同詞性有其固定變化,不規則變化比率少,在文句中詞性位置是呈現規則性,校正系統幾乎可以百分之百找到其錯誤處。反過來中文字詞,需要用字型或發音來組合才能輸入字詞,若用注音類輸入法來輸入文件時,由於中文的特性,一字多音、同音異詞等變化,稍不留神就會選錯、或因輸入法自動選字功能,造成不是錯誤的錯誤。若沒有一個好的校稿機制,用人力去校查有可能無法盡找出其中錯別字。一份文件的正確性是有其影響性,非正式文件有點小差錯時不過貽笑大方、或是淪為茶餘飯後消遣而己。正式文件如公文、政府公告上,若有一字一詞之差而不能及時校正時不僅僅是落人笑話,甚至有可能引發法律糾紛等的重大問題。
目前在中文輸入部分,前端輸入部分如鍵盤輸入、語音辨識輸入、手寫輸入及光學辨識為了讓輸入正確性提高,改善和研究持續在進行且相關成熟產品己應用在商業上。但是,輸入階段後未及時校正的錯別字部份,到目前為止,並沒有從事於校正機制方面的研究。為能改善文件的正確性,本研究實做校稿系統,採窮取注音拼法的語料庫,配合一字多音、近似音等規則,搜尋出文件詞中疑似輸入錯別字部分,並由系統提列候選詞供參考修訂。本研究可適時修正前端輸入時所成的錯誤,提高了文件中中文字的字詞正確性。為廣大中文使用者提供一個方便、正確又迅速的文件校正系統。
Ping-ying ( phonogram ) based input method is a built-in Chinese input-method for almost every operating system installed on modern PCs. Thus, it becomes handy when people need to type in some Chinese text into their PCs. The problem is that there are many homophones in the Chinese writing system. There are even more if we take into account the approximate pronunciation words. The consequences of all these are that there are lots of ping-ying related text input errors in electronic docu-ments in Chinese.
Modern electronic document processing systems usually come with spell check-ing functions to assist users on their writings. This function works very well for al-phabetic writing systems, like English; but usually fails to fulfill the same role for ideographic writing systems, like Chinese. The problem is rooted deeply in the way that how alphabetic writing systems and ideographic writing systems treat their char-acters and words.
A character in Chinese alphabet, like 字, can be a meaningful word itself or just be a part of a longer word, like 字典. The idea is that educated readers can always figure out which way to go by the context of those characters. Thus, there are no firm rules set to tell when a symbol should be treated as a character or a word. Readers must use the surrounding context of those symbols to decide for themself. This works well for Chinese-speaking people but posts great challenges for Chinese computing researchers.
Lots of research efforts have been put into Chinese computing to take up those challenges. Those efforts focused mainly on different Chinese input methods and Chinese word segmentation problems, but few of them talked about the spell checking for electronic documents in Chinese. In this thesis, we propose a Ping-Ying corpus based Chinese spell checking method to take up the challenge.
The spell checking mechanism proposed in this master thesis consists of two phases. In the first phase, we employ a simple word segmentation algorithm to break the document under consideration into sequences of words and translate those words into separated phonogram strings. In the second phase, we systematically re-construct all possible homophones and words with approximate pronunciations based on the phonogram strings we collected in the first phase. By comparing the words we build from the phonogram strings and the words we collected from the first phase, we can make some intelligent suggestions for possible text input errors.
摘要 i
ABSTRACT ii
目錄 iii
表目錄 iv
圖目錄 v
第一章 緒論 1
第一節 研究動機 1
第二節 研究目的 2
第三節 研究績效評估 6
第二章 研究理論及背景 8
第一節 研究背景 8
第二節 文字史 11
第三節 注音符號 13
第四節 一字多音 16
第五節 近似音 18
第六節 聲調 26
第七節 斷詞 29
第八節 量詞 32
第三章 文獻回顧 34
第四章 研究架構 40
第一節 研究限制 40
第二節 研究架構 42
第三節 研究方法 45
第五章 程式實做實驗與比較 53
第一節 程式與資料 53
第二節 比對演算 67
第三節 實驗數據 78
第四節 錯誤修訂與問題分析 84
第六章 結論與未來 95
第一節 結論 95
第二節 未來 95
參考文獻 97
附錄1 聲母、韻母與聲調組合 附錄1-1
附錄2 一字多音總表 附錄2-1
附錄3 程式碼 附錄3-1
一、論文
[1]王建邦/90/交通大學/資訊科學研究所/碩士/以語料為主具容錯能力之中文注音輸入研究
[2]江漢昇94//國立臺灣師範大學/資訊工程研究所/碩士/中文輸入法之改良研究及「師大大師輸入法」之實作
[3]余方國/75/國立中興大學/應用數學研究所/碩士/一個沒有混淆現象的中文注音輸入法之探討
[4]李心權/74/大同大學/資訊科學研究所/碩士/中文注音輸入之語詞辨識
[5]李明潔/83/靜宜大學/外國語文學系/碩士/國語捲舌聲母「ㄓ」,「ㄔ」,「ㄕ」之社會變異研究
[6]李彥輯/87/國立交通大學/資訊工程系/碩士/中文語音辨識中聲韻母混淆集合之研究
[7]周國森/86/國立中央大學/資訊工程研究所/碩士/結構式特徵用於線上手寫中文文字的辨認
[8]季震寰/78/國立台灣大學/資訊工程研究所/碩士/結合詞典與統計的注音中文輸入系統
[9]林元淳/94/中興大學/資訊科學系所/碩士/中文文轉音系統中多音字讀音的預測
[10]林宏毅/93/長庚大學/資訊工程研究所/碩士/台語有聲文的自動注音系統
[11]易志由/95/樹德科技大學/資訊工程學系/碩士/以四方向量編碼為基礎之手寫中文字辨識系統
[12]林明灶/92/大同大學/電機工程研究所/博士/中文音節辨認之研究─混合模型法
[13]林欣怡/96/高雄師範大學/聽力學與語言治療研究所/碩士/國語音段不吻合時的口語語詞辨識
[14]林建成/93/立德管理學院/應用資訊研究所/碩士/應用基因演算法以整字串為差異之訓練的手寫辨識
[15]林柏志/82/大同工學院/機械工程研究所/碩士/電腦輔助中文鍵盤排列最佳化研究:─以注音輸入法為例
[16]邱政湧/91/中原大學/資訊工程研究所/碩士/標記傳遞模式應用於中文連續語音關鍵詞辨認系統
[17]施瓊斐/90/大葉大學/設計研究所/碩士/「漢語拼音輸入法」對於相關鍵盤之探究
[18]洪子彬/92/國立中興大學/應用數學系/碩士/利用階層分析法與筆畫結構來辨認線上手寫中文字之字首
[19]胡延宗93//大葉大學/資訊管理學系碩士在職專班/碩士/大新倉頡與嘸蝦米輸入法之輸入績效比較研究
[20]紀春興78//國立台灣大學/電機工程研究所/碩士/印象原理的注音中文輸入系統
[21]莊淳宇/95/國立中正大學/心理學所/碩士/文明產物對人類認知的影響—以不同之中文輸入法對漢字認知處理的影響為例
[22]陳建安/85/國立清華大學/電機工程研究所/碩士/手寫中文字識別之研究─糊集理論及應用
[23]陳德春/78/國立成功大學/電機工程研究所/碩士/國語注音文詞轉換之研究
[24陳緯達/93/國立中央大學/通訊工程研究所/碩士/類神經網路在手寫數字辨識之研究
[25]郭麗娟/81/國立台灣科技大學/管理技術研究所/碩士/大易輸入法鍵盤之設計研究
[26]潘宣平/96/國防管理學院/國防資訊研究所/碩士/應用語音符號編碼方法改進語音處理效能
[27]謝佳揚/91/國立清華大學/資訊工程學系/碩士/樣型比對技術應用於中文數字語音辨認之研究
[28]羅火嵐/94/中興大學/資訊科學系所/碩士/中文無聲調拼音輸入法及其實作
[29]羅志帆/84/國立成功大學/應用數學系/碩士/與說話者無關的中文韻母辨識
[30]Keh-Jiann Chen Wei-Yun Ma/Institute of Information science,Academia Sinica /Unknown Word Extracaction for Chinese Documents/
[31]Jing-Shin Chang , Chun-Kai Kung/Department of Computer Science & Information En-gineering National Chi-Nan University/A Chinese-to-Chinese Statistical Machine Trans-lation Model for Mining Synonymous Simplified-Traditional Chinese Terms
[32]Keh-Jiann Chen, Ming-Hong Bai/87/Computational Linguistics and Chinese Language Processing/Unknown Word Detection for Chinese by a Corpus-based Learning Method

二、參考書目
[1]國語一字多音審訂表 (1999) 教育部
[2]國語日報學生字典、國語日報出版中心、2002
[3]現代漢語量詞用法詞典、語言出版社(北京)、郭先珍、2002

三、網際網路網頁
[1]中文輸入法世界 http://input.foruto.com/source/index.html
[2]教育部全球資訊網http://www.edu.tw/index.aspx
[3]教育部國語推行委員會http://www.edu.tw/MANDR/index.aspx
[4]維基百科http://zh.wikipedia.org/一字多音、注音符號
[5]微軟公司http://www.microsoft.com/zh/tw/default.aspx

四、其他
[1]教育部國語推行委員會 《國語一字多音審訂表》公聽會資料、2009
[2]教育部國語推行委員會《八十七年常用語詞調查報告書》網路版
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊
 
系統版面圖檔 系統版面圖檔