跳到主要內容

臺灣博碩士論文加值系統

(35.172.223.251) 您好!臺灣時間:2022/08/17 01:09
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:程飛凰
研究生(外文):Fei-Huang Cheng
論文名稱:非督導式詞彙語義辨識研究─利用WordNet定義與雙語辭典之作法
論文名稱(外文):Unsupervised Word Sense Disambiguation Using WordNet Definition and Bilingual Dictionary
指導教授:張俊盛張俊盛引用關係
指導教授(外文):Jason S. Chang
學位類別:碩士
校院名稱:國立清華大學
系所名稱:資訊工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:60
中文關鍵詞:語意辨識自然語言處理
外文關鍵詞:Word Sense DisambiguationNatural Language Processing
相關次數:
  • 被引用被引用:0
  • 點閱點閱:236
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
字義歧義問題(word sense disambiguation)在自然語言處理(natural language processing)中是一個困難而且重要的問題。在解決字義歧義的過程中,往往需要大量已標註字義的訓練資料,然而這樣的資料卻不易取得。因此本篇論文提出一個非督導式(unsupervised)的訓練方法,免除人工標註字義,以解決訓練資料取得不易的問題。
本篇論文直接以WordNet定義區隔字義。主要利用雙語語料中,另一種語言所提供的語意資訊,和WordNet提供的定義,找出兩者的關連性,以自動標註語料例句中目標字的字義,藉此得到訓練資料。再從這些訓練資料中,擷取字義歧義的特徵。
我們根據BBI搭配詞辭典(The BBI Dictionary of English Word Combinations)的分析方法,從訓練資料中,擷取目標字的搭配詞(collocation),作為辨別字義的特徵。並利用WordNet提供的語意關係,對搭配詞擷取適當的語意類別,擴充辨別字義的特徵,以減輕資料稀疏的問題(sparse data problem)。
實驗以朗文當代英漢雙語辭典(LDOCE)的中英文例句當作雙語的訓練資料。而測試資料則採用布朗語料庫(Brown corpus),並選擇形容詞hard做為測試與評估。實驗結果顯示正確率可達93%,證明我們的方法對於辨別字義有良好的效果。

Word sense disambiguation is an important and difficult problem in the field of natural language processing. A sense tagged corpus is often used as training data in word sense disambiguation research. But constructing a sense tagged corpus is very time consuming.
This paper presents an unsupervised word sense disambiguation approach using WordNet definition and bilingual dictionary. We extract collocations as features to disambiguate word sense. The experiment uses bilingual sentences in the LDOCE as training data and Brown corpus as testing data. We have tested and evaluated the English adjective “hard”. Experimental results show that the accuracy rate using the proposed method is 93%, that indicates our approach is effective for word sense disambiguation.

第一章 緒論 1
1.1 研究動機與目的 1
1.2 非督導式解決字義歧義概要 2
1.3 擷取特徵 2
第二章 相關研究 4
2.1 非督導式方法的相關研究 4
2.2 擷取特徵的相關研究 6
第三章 利用雙語語料非督導式地解決字義歧義 8
3.1 字義區隔方式 8
3.2 利用雙語語料作為訓練資料 9
3.2.1 自動標註雙語語料的字義 9
3.3 定義為本的翻譯模型 10
3.3.1 符號定義 10
3.3.2 演算法 11
3.3.3 範例 13
3.3.4 討論 18
第四章 擷取特徵 19
4.1 擷取特徵概述 19
4.2 擷取搭配作為特徵 20
4.2.1 搭配 21
4.2.2 以搭配作為特徵的測試公式 23
4.3 利用語意關係減輕資料稀疏問題 24
4.3.1 WordNet語意關係 25
4.3.2 接續變化度 27
4.3.3 利用接續變化度取得適當的語意類別 29
4.3.4 範例 31
4.3.5 結合搭配和語意類別以辨別字義的測試公式 33
4.4 討論 34
第五章 實驗與結果 35
5.1 實驗資料 35
5.2 實驗一:辨別字義的基準 36
5.3 實驗二:非督導式辨別字義——以搭配為特徵 37
5.3.1 實驗方法 37
5.3.2 實驗結果 38
5.3.3 錯誤分析和討論 39
5.4 實驗三:非督導式辨別字義——以搭配和語意類別為特徵 40
5.4.1 實驗方法 40
5.4.2 實驗結果 41
5.4.3 錯誤分析和討論 42
第六章 結論與未來工作 43
6.1 結論 43
6.2 未來工作 43
附錄一 訓練資料 45
附錄二 測試資料 52

1. Benson, Morton, Evelyn Benson, Robert Ilson. 1997. The BBI Dictionary of English Word Combinations. Amsterdam: John Benjamins.
2. Chang, Jason S, David Yu, Chun-Jun Lee. 2002. Statistical Translation Model for Phrases. Computational Linguistics, vol.6 no.2, pp. 43-63.
3. Dagan, Ido, and Alon Itai. 1994. Word Sense Disambiguation Using a Second Language Monolingual Corpus. Computational Linguistics 20:563-596.
4. EAGLES Central Secretariat. Word Sense Disambiguation. http://www. ilc.pi.cnr.it/EAGLES96/rep2/node39.html
5. Gale, William A., Kenneth W. Church and David Yarowsky. 1992. Using Bilingual Materials to Develop Word Sense Disambiguation Methods. In Proceedings of TMI-92, pp. 101-112.
6. Hafer, M. and S. Weiss. 1974. Word Segmentation by Letter Successor Varieties. Information Storage and Retrieval, vol.10, page 45-52.
7. Ker, S. J. and Chang J. S. 1997. A Class-based Approach to Word Alignment. Computational Linguistics, 23/2, pp. 313-343.
8. Kucera, H. and W. N. Francis. 1967. Computational Analysis of Present-day American English. Providence: Brown University Press.
9. Leacock, C. and M. Chodorow. 1998. Combining Local Context and WordNet Similarity for Word Sense Identification. In C. Fellbaum (editor) WordNet: An Electronic Lexical Database. pp. 265-283, The MIT Press: Cambridge, MA.
10. Leacock, C., M. Chodorow and George A. Miller. 1998.Using Corpus Statistics and WordNet Relations for Sense Identification. Computational Linguistics, vol.24. no.1, pp.147-165.
11. Longman Group. 1992. Longman English-Chinese Dictionary of Contemporary English, Published by Longman Group (Far East) Ltd., Hong Kong.
12. Manning, Chris and Hinrich Schütze. Foundations of Statistical Natural Language Processing. MIT Press. Cambridge, MA: May 1999.
13. Miller, George A., and Walter G. Charles. 1991. Contextual Correlates of Semantic Similarity. Language and Cognirive Processes 6:1-28.
14. Towell, Geoffery and Ellen M. Voorhees. 1998. Disambiguating Highly Ambiguous Words. Computational Linguistics, vol.24 no.1, pp.125-145.
15. Yarowskey, David. 1995. Unsupervised Word Sense Disambiguation Rivaling Supervised Methods. In ACL 33, pp. 189-196
16. 游大緯和張俊盛. 2002. 統計式片語對應與翻譯模型. 清華大學資訊工程研究所碩士論文,新竹.
17. 謝靜婷和張俊盛. 2002. Semi-Automatic Construction of Chinese WordNet Using Class-based Translation Model, 清華大學資訊工程研究所碩士論文,新竹.
18. 解志強. 2002. 中譯英時的詞彙搭配問題 (On the Issue of Collocation in Chinese-to-English Translation). 長榮學報. 5(2): 135-149.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top