(3.238.96.184) 您好!臺灣時間:2021/05/08 04:23
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

: 
twitterline
研究生:徐承暉
研究生(外文):Cheng-Huei Hsiu
論文名稱:詞性過濾對佛經詞彙擷取成效之研究
論文名稱(外文):Part-of-Speech Filtering for Term Extraction of Buddhist Sutras
指導教授:邊國維邊國維引用關係
指導教授(外文):Guo-Wei Bian
口試委員:周立平唐政元邊國維
口試委員(外文):Li-Ping ChouCheng-Yuan TangGuo-Wei Bian
口試日期:2013-01-14
學位類別:碩士
校院名稱:華梵大學
系所名稱:資訊管理學系碩士班
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2013
畢業學年度:101
語文別:中文
論文頁數:61
中文關鍵詞:詞彙擷取詞性過濾精確率召回率
外文關鍵詞:term extractionPOS filteringprecessionrecall
相關次數:
  • 被引用被引用:2
  • 點閱點閱:300
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:63
  • 收藏至我的研究室書目清單書目收藏:1
詞彙辨識是計算語言學的基礎,佛典浩瀚而且現有的一般詞典涵蓋度有限,如果能用自動化方式抽取詞彙,對佛經詞彙的完整性會有很大幫助。一般的統計式詞彙擷取技術所得之結果多有錯誤,需後續人工判別。如果能自動過濾結果,減少產出的錯誤詞彙,對後續處理極有助益。
本研究先利用統計式詞彙擷取技術,再對擷取結果進行詞彙過濾,將不合語法的詞組字串過濾,減少錯誤的詞彙數,過濾的規則是排除有虛詞的詞彙,再加上音譯詞判斷。一般而言實詞的意義比較具體,而虛詞的意義比較空洞,虛詞主要是作為連接成分或語氣之用,本研究將虛詞(包含:介詞、連詞、助詞)排除於認定的詞彙之外,另外數量詞及時間詞這些詞比較沒有具體的意義,主要是修飾之用,這些詞也會被排除。
實驗利用33部東漢早期佛經進行評估,此語料庫是經過專家人工斷詞過,由於是已斷詞的語料庫,可用來評估詞彙擷取的精確率與召回率。實驗結果顯示約能減少35%的錯誤詞彙,大幅提升詞彙擷取的精確率,實驗驗證此方法對佛經詞彙擷取確有幫助。

Term recognition is the basic processing in computational linguistics. Because the volume of Buddhism sutras is numerous, the most of terms of the sutras are not collected in the current dictionaries. If there is a reliable automatic term-extraction tool, it would be a great help for the coverage of the Buddhist terms. The term extraction tool using statistical technology could extract the candidates of terms from the data; however it also produced many errors.

In this study, an extraction tool was used to extract the candidates of terms from Chinese Buddhism sutras. Then some rules were applied to filter out the candidates which did not follow the word-building rules. Because the function characters didn’t have the concrete meanings, and most of the words were not consisted of these characters. Secondly, the identification of the transliteration of Buddhism-sutras is used to filter out the incorrect terms.

Thirty-three volumes of Buddhism-sutras translated in Chinese Han Dynasty were used to evaluate for our method. This data collection was segmented by linguistic expert. The experimental results show that the two-stage filtering method can raise the precision ratio about 35% from the original statistical method.

一、緒論
二、相關研究
2.1 中文詞彙擷取
2.2 詞的定義
2.2.1 詞彙分析
2.2.2 詞素
2.2.3 構詞種類
2.2.4 漢語語法成分
2.2.5 詞的分類
2.2.6 詞類的判斷
三、研究方法及流程
四、實驗說明
4.1 二字詞詞彙分析
4.2 三字詞詞彙分析
4.3 音譯詞的判斷
五、實驗結果
5.1實驗一 金剛經
5.1.1過濾介、代、助、連詞
5.1.2處理音譯詞
5.2實驗二 33部東漢早期佛經
5.2.1過濾介、代、助、連詞
5.2.2處理音譯詞
六、結論及未來研究建議
參考文獻
[1] CNKI學術論壇,中國漢語、漢字發展規律研究提綱,上網日期:101年7月28日,網址:http://kbs.cnki.net/forums/63183/ShowThread.aspx。
[2] 中研院中文斷詞系統,上網日期:民國101年9月16日,網址:http://ckipsvr.iis.sinica.edu.tw。
[3] 中國論文網,漢語詞類劃分的意義標準述評,上網日期:101年8月7日,網址:http://www.xzbu.com/5/view-1919516.htm。
[4] 方瑾,論現代漢語詞素、詞、詞組之界定及其教學啟示,台灣師範大學華語文研究所碩士論文,民國98年。
[5] 王楚蓁,現代漢語詞類劃分與教學方法,台灣師範大學華語文研究所碩士論文,民國97年。
[6] 古漢語詞彙的特點,上網日期:民國101年7月26日,網址:http://gz.eywedu.com/Article_343/200792622310659-1.html。
[7] 台灣華與教學入口網,孤立語,上網日期:民國101年8月7日,網址:http://twtcsl.org/further/isolating_language。
[8] 左松超,漢語語法(文言篇),五南出版社,臺北,民國92年。
[9] 朱怡霖,中文斷詞及專有名詞辨識之研究,台灣大學資訊工程研究所碩士論文,民國90年。
[10] 李仕春,從復音詞數據看上古漢語單音詞復音化現象,《西南交通大學學報》(社會科學版),2007年第2期。
[11] 竺家寧,從佛經看漢語雙音化的過渡現象,中正大學中文學術年刊第一期,第27~52頁,民國100年。
[12] 竺家寧,早期佛經中的派生詞研究,佛教思想的當代詮釋佛學研究論文集,第387-432頁,民國85年。
[13] 竺家寧,早期佛經詞彙研究:東漢佛經詞彙研究,國科會專題研究計畫成果報告,民國97年。
[14] 竺家寧,詞彙之旅,正中書局,臺北,民國98年。
[15] 邱立豐,互動式概念查詢應用於網路文件摘要之效益」,雲林科技大學資訊管理學系碩士論文,民國91年。
[16] 胡伯欣,文言文閱讀方法教學,國文天地第25卷第11期,民國99年。
[17] 高子晴,現代漢語詞類界定,台灣師範大學華語文研究所碩士論文,民國99年。
[18] 苑春法,基於語素資料庫的漢語語素及構詞研究,世界漢語教學第二期,1998年。
[19] 許中川、陳景揆,「探勘中文新聞文件」,資訊管理學報,第7卷第2期,第103-122頁,民國90年。
[20] 閆麗、付萱、王勇剛 ,淺析音譯詞的時代性,職業教育研究2011年第04期,民國100年。
[21] 陳寶余,古漢語中詞的兼類與活用的聯繫和區別,現代語文(語言研究版) 2004年第3期。
[22] 梁啟超,佛學研究十八篇,中華書局出版社,北京,1989年。
[23] 萬金川,宗教傳播與語文變遷 :漢譯佛典研究的語言學轉向所顯示的意義,正觀雜誌第十九期,民國90年。
[24] 曾元顯,「文字知識探勘與自動化資訊組織研究成果」,上網日期: 民國101年12月28日,網址:
http://web.ntnu.edu.tw/~samtseng /ResearchResults/keyword.htm。
[25] 曾元顯,「關鍵詞自動擷取技術之探討」,中國圖書館學會會訊 106 期,民國86年。
[26] 楊錫彭,漢語語素論,南京大學出版社,南京,民國92年。
[27] 趙元任,國語語法-中國話的文法,學海出版社,臺北,民國70年。
[28] 劉月華、潘文娛、故韡,實用現代漢語語法(增訂本)。北京商務印書館,北京,民國90年。
[29] 戴俊芬 ,「聯綿詞」於華語教學之編寫與學習策略,第一屆東方文化學術研討會,花蓮,民國98年5月。
[30] 謝佳倫,遺傳演算法應用於中文斷詞之研究,中央大學資訊管理研究所碩士論文,民國88年。
[31] 簡立峰,「尋易系統(Csmart)與中文智慧型資訊檢索」,資訊傳播與圖書館學,第3卷第2期,第 28-37頁,1996年12月。
[32] 譚全基,古代漢語基礎,源流文化,臺北,民國72年。
[33] Lee-Feng Chien, "PAT-Tree-Based Adaptive Keyphrase Extraction for Intelligent Chinese Information Retrieval", Information Processing and Management, Volume 35, Number 4, Pages 501-521, Elsevier Press, 1999.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔