跳到主要內容

臺灣博碩士論文加值系統

(18.97.14.85) 您好!臺灣時間:2024/12/12 09:11
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:許薰尹
研究生(外文):Shin-Yean Hsu
論文名稱:宋詞斷詞與本體論之建置
論文名稱(外文):Building a Semantic Ontology with Song Ci Segmentation
指導教授:曾憲雄曾憲雄引用關係
指導教授(外文):Shain-Shyong Tseng
學位類別:碩士
校院名稱:國立交通大學
系所名稱:理學院碩士在職專班網路學習學程
學門:電算機學門
學類:網路學類
論文種類:學術論文
畢業學年度:94
語文別:中文
論文頁數:83
中文關鍵詞:斷詞中文斷詞本體論宋詞
外文關鍵詞:SegmentationontologySONG-DYNASTY
相關次數:
  • 被引用被引用:3
  • 點閱點閱:325
  • 評分評分:
  • 下載下載:53
  • 收藏至我的研究室書目清單書目收藏:4
宋詞又稱長短句,繼唐詩之後成為流傳千古的中國藝術結晶。由於宋詞採韻文書寫,對於現代人而言,不易學習。若能建構一個提供宋詞詞彙相關知識的本體,描述詞彙的語意,以及詞彙之間的關係,便可幫助現代人了解詞彙的含意。而欲建置本體的首要工作便是對詞句進行斷詞,以從中獲取所需的相關知識。
在本論文中,我們提出一個針對宋詞需根據詞牌倚聲填詞,按節奏停頓,以及宋詞特有的領字等特色進行斷詞,並透過詞彙語意的描述,來建置宋詞詞彙本體以輔助學習。論文包含兩大部份:宋詞斷詞器與本體論建置:
宋詞斷詞器利用規則式(Rule-Based)斷詞方式,截取詞句中的詞彙。包含六大斷詞模組:專有名詞、領字、典故、構詞模組、節奏斷詞模組、對仗模組。從斷詞實驗結果得知,召回率、精確度和效度最高可達90%。
本體論建置則是將斷詞後所得到的詞彙,進行語意概念的分類,以及詞彙的前後連接詞彙、詞類、詞頻、同義詞、近義詞、反義詞、對仗詞與平仄等語意的描述。我們設計了語意編輯工具編輯詞彙的相關資訊,並且自動產生表達本體知識的OWL文件,大量降低本體建置的負擔。最後,我們設計「絕妙好詞」網站,讓使用者可以很容易地透過網際網路,檢索詞彙語意資訊,進行線上學習。
The Song Ci, known as Long Short Sentence, is the art of the ancient Chinese after Tang Poetry. Since Song Ci was written by verse (韻文), it’s hard for modern people to learn. If we could construct an ontology to describe the semantic of words in Song Ci and the relationships among them, learning and the understanding of Song Ci will became easier. Before building the ontology, we will segment words contained in the sentence of Song Ci, and acquire all related information for this purpose.

In this thesis, we propose a method according to Ci Pai (詞牌), rhythm of poetry, and the Empty word (領字) of Song Ci to segment words. After that, we construct an Song Ci ontology based on the semantic of words. This thesis contains two parts: Song Ci Parser and Ontology Building Module.
Song Ci Parser, a rule-based parser, includes six modules for Song Ci segmentation: Proper Noun Module(專有名詞模組), Empty Word Module(領字模組), Literary Quotation Module (典故模組) , Word building Module (構詞模組) , Rhythm Module (節奏斷詞模組), and Pair Module. The experimental results show that the finest recall, precision, and effectiveness rate are 90%.
Ontology Building Module will use the words preprocessed by Song Ci Parser to build an concept hierarchy of words in Song Ci. Finally we design a Semantic Editor to describe the semantics of word, E.g. Ci Pai (詞牌) , author name, frequency of words, word type, previous word, next word, antonym, near synonym, Synonym, etc. Finally, we build the “絕妙好詞” web site for people to learn the semantic of words from internet.
宋詞斷詞與本體論之建置 I
中文摘要 I
Abstract 1
誌謝 3
目錄 4
表目錄 6
圖目錄 7
演算法目錄 8
第一章 緒論 1
1.1. 研究動機 1
1.2. 研究目標 2
1.3. 論文架構 3
第二章 研究背景與相關資源 4
2.1. 宋詞簡介 4
2.1.1. 詞的別名 4
2.1.2. 詞的一般用語 4
2.2. 本體論工程 5
2.2.1. 本體論工程研究方法 6
2.2.2. TOVE本體論工程 6
2.3. 相關研究 7
2.3.1. 語意網與知識本體 7
2.3.2. 中文斷詞 8
2.4. 詞庫與資料庫的搜集和整理 11
2.4.1. 中央研究院詞庫〔八萬目詞〕 11
2.4.2. 專有名詞資料庫 12
2.4.3. 典故資料庫 12
2.4.4. 領字資料庫 12
2.4.5. 宋詞對仗資料庫 13
2.4.6. 同義詞詞林 14
2.4.7. 常用詞首、詞尾字資料庫 14
第三章 宋詞斷詞器與本體論設計 15
3.1. 系統架構 15
3.2. 宋詞斷詞器 16
3.2.1. 斷詞模組分析 16
3.2.2. 斷詞Meta Rule與斷詞順序規則 16
3.2.3. 專有名詞模組 17
3.3.4. 領字模組 21
3.2.5. 典故模組 22
3.2.6. 構詞模組 24
3.2.7. 節奏斷詞模組 28
3.2.8. 對仗模組 33
3.3. 解歧義 35
3.4 宋詞詞彙本體論 36
3.4.1. 本體論 36
3.4.2. RDF(S) 37
3.4.3. OWL 38
3.4.4. 建置宋詞詞彙本體論 39
第四章 實驗成果 46
4.1. 斷詞評估指標 46
4.2. 系統實作架構圖 47
4.3. 宋詞斷詞器實作 48
4.3.1. 物件導向的Ci物件模型 48
4.3.2. 宋詞斷詞器 49
4.4. 斷詞實驗 51
4.4.1. 僅以詞庫斷詞 51
4.4.2. 節奏斷詞模組實驗 52
4.4.3. 使用所有斷詞模組以及標準斷詞順序 53
4.4.4. 除專有名詞模組,使用標準斷詞順序 54
4.4.5. 除領字模組,使用標準斷詞順序 55
4.4.6. 除典故模組,使用標準斷詞順序 56
4.4.7. 除構詞模組,使用標準斷詞順序 58
4.4.8. 除對仗模組,使用標準斷詞順序 59
4.4.9. 解歧義 60
4.4.10. 斷詞實驗小結 60
4.5. 本體論實作 61
4.5.1. 實作架構 61
4.5.2. 語意設計工具 62
4.5.3. 絕妙好詞網站-宋詞語彙網路 65
第五章 結論與未來展望 68
[1] Fernndez, M., Gmez-Prez, A. and Juristo, N. "Methontology: From ontological art towards ontological engineering”, In Proceedings of Workshop on Ontological Engineering: AAAI-97 Spring Symposium Series, Stanford, CA, 1997.
[2] Michael Gruninger and Mark S Fox, “TOVE Methodology for the Design and Evaluation of Ontologies”, Department of Industrial Engineering University of Toronto, Toronto, Canada, M S A, 1995.
[3] Mike Uschold, Michael Gruninger. The Knowledge Engineering Review, 1996.
[4] Tim Berners-Lee. , Weaving the Web: Origins and Future of the World Wide Web, Texere Publishing, US., 1999.
[5] Resource Description Framework (RDF). 9 Mar. 2006. World Wide Web Consortium. 25 May. 2006 < http://www.w3.org/RDF/>.
[6] Suggested Upper Merged Ontology. 11 Oct. 2005. IEEE Standard Upper Ontology Working Group. 25 May. 2006 <http://ontology.teknowledge.com/>.
[7] 中英雙語知識本體詞網。2003年10月1日。中央研究院。2006年5月25日。<http://BOW.sinica.edu.tw>.
[8] 中文斷詞系統。2004年9月1日。中央研究院。2006年5月25日。<http://ckipsvr.iis.sinica.edu.tw/>.
[9] 宋詞全首閱讀。2004年。中央研究院。2006年5月25日。<http://elearning.ling.sinica.edu.tw/SCPoemsframe.html>.
[10] 唐宋金元詞文庫及賞析系統。2001年8月。南京師範大學。2006年5月25日。<http://202.119.104.80/Ci_ku/ci_web/title2.htm>.
[11] 俞士汶、胡俊峰,「唐宋詩之詞彙自動分析及應用(Word-based Statistical Analysis of Chinese Ancient Poetry)」,語言暨語言學,第四卷第三期,2003。
[12] 胡俊峰,"基於詞彙語義分析的唐宋詩電腦輔助深層研究",北京大學,博士論文,2001 年5月25日。
[13] 羅鳳珠,「詩詞語言詞彙切分與語意分類標記之系統設計與應用」,第四屆數位典藏技術研討會,中央研究院主辦,2005年9月1-2 日。
[14] 羅鳳珠,「唐宋詞單字領字研究」,第七屆漢語詞彙語意學研討會,臺灣交通大學主辦,2006年5月22-23日。
[15] 羅鳳珠,「以資訊科技作為宋詞領字研究方法探討」,第六屆詞彙語意學會議,廈門大學主辦,2005年4月21-22日。
[16] 詞庫小組,「中文詞類分析」,中文詞知識庫小組技術報告#93-05,南港,中央研究院,1993
[17] 詩詞典故網站。2002年10月10日。羅鳳珠。2006年5月25日。<http://cls.hs.yzu.edu.tw/ORIG/>.
[18] 龍沐勛,倚聲學 (詞學十講),里仁書局,2003年9月初版三刷。
[19] 王力,詩詞格律,中華書局,2004年2月再版。
[20] 士會,詩詞挈領,萬里機構萬里書店,2001年7月第二次印刷。
[21] 梅家駒、竺一鳴、高蘊琦、殷鴻翔編,同義詞詞林,上海:上海辭書出版社,1996年第二版。
[22] 常用詞首、詞尾字資料庫查詢。中央研究院詞庫小組。2006年5月25日。<http://140.109.19.103/affix/>.
[23] 吳丈蜀,詞學概說,中華書局,香港,2002年。
[24] 陳振寰,讀詞常識,萬卷樓圖書公司,1990年3月初版。
[25] Mo, Ruo-ping Jean, Yao-Jung Yang, Keh-Jiann Chen and Chu-Ren Huang., ”Determinative-Measure Compounds in Mandarin Chinese: Their Formation Rules and Parser Implementation.”, In Proceedings of ROCLING IV (R.O.C. Computational linguistics Conference). , pp. 111-134.
[26] 唐大任,"中文斷詞器之研究",國立交通大學,碩士論文,民國九十一年七月。
[27] 詞庫小組,「資訊處理用中文分詞標準草案」,經濟部中央標準局,1996年。
[28] 陳弘治,詞學今論,文津出版社,1991年7月。
[29] RDF Vocabulary Description Language 1.0: RDF Schema. 10 Feb. 2004. World Wide Web Consortium. 25 May. 2006 <http://www.w3.org/TR/rdf-schema/>.
[30] OWL Web Ontology Language Overview. 10 Feb. 2004. World Wide Web Consortium. 25 May. 2006 <http://www.w3.org/TR/owl-features/>.
[31] DAML+OIL (March 2001) Reference Description. 18 Decc 2001.World Wide Web Consortium. 25 May. 2006 <http://www.w3.org/TR/daml+oil-reference>.
[32] 高明,王熙元,陳弘治,張仁青,莊雅州,閔宗述,李周龍編,中國文學總欣賞,9,初版,錦繡文化企業,民國81年8月。
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top