跳到主要內容

臺灣博碩士論文加值系統

(35.172.223.251) 您好!臺灣時間:2022/08/17 01:10
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:謝祥綺
研究生(外文):Hsiang-chi Hsieh
論文名稱:利用主題與關鍵詞分析之查詢擴充研究
論文名稱(外文):Research on Query Expansion- Using Topic Analysis and Keyword Extraction
指導教授:張俊盛張俊盛引用關係
學位類別:碩士
校院名稱:國立清華大學
系所名稱:資訊工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:77
中文關鍵詞:資訊檢索自然語言處理查詢擴充主題分析中文片語擷取自動建構索引典
外文關鍵詞:Information RetrievalNautal Language ProcessingQuery ExpansionTopic AnalysisChinese phrase extractionconstructing thesauri automatically
相關次數:
  • 被引用被引用:2
  • 點閱點閱:274
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:5
資訊科技的進步讓個人乃至企業都需面對極大量的資訊,為了讓使用者能精確的由大量資訊中取得自己所需的部分,「資訊檢索」這門學科的重要性正日益增加。「查詢擴充」是「資訊檢索」中一項重要的技術,希望能透過額外關鍵詞的加入,讓使用者得到更好的查詢結果。本文以自然語言的技術,提出對詞彙及文件之主題分析,以及中文片語擷取的方法,並以此進行自動建構索引典及查詢擴充詞之研究。
文件的主題由其中的詞彙決定,而詞彙的主題則由它所出現的文件決定。在藉由外部資源的輔助下,我們先決定起始的詞彙主題,之後再反覆訓練出文件及詞彙的主題。我們發現,文件的主題分析能從語料中有效過濾出和查詢最相關的前10%文件,而詞彙的主題相似度也是兩關鍵詞相似程度之良好指標。
另外,我們提出「前行接續變化度」這個統計式的方法,搭配簡單片語詞性規則,能有效取得語料中的名詞片語關鍵詞。
最後,我們應用前述這兩個方法,於自動建立索引典及查詢擴充關鍵詞之研究。

Because of the progress of Information Technology, how to get the desired information precisely become a pressing problem. The study of “Information Retrieval” addresses the issues of efficient information storage and retrieval methods, and “Query Expansion” is an important technique in this field. In order to increase the effectiveness of query expansion, this paper presents methods of topic analysis for documents and keywords. Further more, using these methods, we try to construct thesauri automatically and extract query expansion keywords.
We obverse that the topic of a document is determined by its content words, and the topic of a keyword is determined by the documents it appears. So, the analysis is done by repeatedly computing topics of documents and that of keywords. The experiments showed that the topic analysis of documents can filter out 90% of non-relevant documents for the query. And the topic similarity between two keywords is also a good judge about the relevance of one keyword to the other.
For keyword extraction, we introduce “Predecessor and Successor Variety”, which combined with rules of part of speech, is very effective for extracting Chinese noun phrases from corpus. Finally, we apply these methods to the research of constructing thesauri automatically and query expansion.

致謝辭 i
摘要 ii
Abstract iii
第一章 簡介 1
第一節 資訊檢索簡介 1
第二節 查詢擴充簡介 3
第三節 資訊檢索的研究資源 4
第四節 論文內容 6
第二章 自然語言處理為本的資訊檢索研究 7
第一節 詞彙語意分析與自動建立索引典的相關研究 7
第二節 文件主題分析的相關研究 8
第三節 片語擷取的相關研究 9
第三章 詞彙及文件的主題分析 11
第一節 LLOCE主題分類架構 11
第二節 決定文件主題的因素 11
第三節 詞彙的主題向量 16
第四節 由原始資料取得詞彙的主題向量 17
第五節 演算法 21
第六節 實驗與評估 22
第四章 中文片語擷取 25
第一節 雙連詞及三連詞的收集 25
第二節 前行接續變化度 26
第三節 片語詞性規則 27
第四節 實驗結果 29
第五章 自動建構索引典之研究 31
第一節 中文專有名詞的特性 31
第二節 演算法 31
第三節 實驗結果 34
第六章 查詢擴充關鍵詞之研究 41
第一節 演算法 41
第二節 實驗結果與評估 44
第七章 結果討論與未來方向 47
第一節 結果討論 47
第二節 未來方向 50
參考文獻 52
附錄一 LLOCE主題分類架構 55
附錄二 CKIP與LLOCE主題分類架構之對應 59
附錄三 「法律」、「疾病」下位詞 61
附錄四 查詢擴充關鍵詞前50名中較優良的關鍵詞 71

1. ALAN F. SMEATON, Using NLP or NLP Resources for Information Retrieval Tasks, In Strzalkowski, T., editor, Natural Language Information Retrieval. Kluwer Academic Publishers., 1997
2. Buckley, C. and G. Salton, Automatic Query Expansion Using SMART: TREC-3, Overview of the Third Text Retrieval Conference(TREC-3), pp. 69-80, 1995
3. David A. Evans and Chengxiang Zhai, Noun-Phrase Analysis in Unrestricted Text for Information Retrieval, Proceedings of the 34th Annual Meeting of Association for Computational Linguistics, 1996
4. Ellen M. Voorhees, Natural Language Processing and Information Retrieval, In M. T. Pazienza, (Ed.), Information Extraction: Towards Scalable, Adaptable Systems (pp.32-48). Germany: Springer., 1999
5. Elizabeth D. Liddy, Woojin Paik and Edmund S. Yu, Document Filtering Using Semantic Information from a Machine Readable Dictionary, Proceedings of the Workshop on Very Large Corpora, pp. 20-29, 1993
6. Elizabeth D. Liddy and Sung H. Myaeng, DR-Link: A System Update for TREC-2, Proceedings of Second Text Retrieval Conference (TREC-2), pp. 85-100, 1994
7. Gregory Grefenstette, Explorations in Automatic Thesaurus Discovery, Kluwer Academic Publishers, 1994
8. Jane Greenberg, Automatic Query Expansion via Lexical-Semantic Relationships, Journal of the American Society for Information Science 2001 52 (5)402-415, pp. 402-415
9. Kuang-hua Chen and Hsin-Hsi Chen, The Chinese Text Retrieval Tasks of NTCIR Workshop 2, Proceedings of the Second NTCIR Workshop on Research in Chinese & Japanese Text Retrieval and Text Summarization, pp. 51-58, 2001
10. Mandar Mitra, Chris Buckley, Amit Singhal, Claire Cardie, An Analysis of Statistical and Syntactic Phrases, Conference Proceedings of RIAO-97, pp. 200-214, 1997
11. Noriko Kando, Overview of the Second NTCIR Workshop, Proceedings of the Second NTCIR Workshop on Research in Chinese & Japanese Text Retrieval and Text Summarization, pp. 35-44, 2001
12. Richard Sproat and Chilin Shih, A Statistical Method for Finding Word Boundaries in Chinese Text, Computer Processing of Chinese and Oriental Languages, 4, pp. 336-351, 1990.
13. Weiquan Liu and Joe Zhou, Building a Chinese Text Summarizer with Phrasal Chunks and Domain Knowledge, Proceedings of ROCLLING XIII, pp. 87-96, 2000.
14. Yonggang Qiu and Hans-Peter Frei, Improving the Retrieval Effectiveness by a Similarity Thesaurus, Technical Report 225, ETH, Zurich, Department of Computer Science, 1994
15. Yufeng Jing and W. Bruce Croft, An Association Thesaurus for Information Retrieval, RIAO 94 Conference Proceedings, pp. 146-160, 1994
16. 王稔志,適應性的新聞分類系統,清華大學資訊工程研究所碩士論文, 新竹, 2001
17. 游大緯,統計式片語對應與翻譯模型 ,清華大學資訊工程研究所碩士論文,新竹, 2002
18. 謝靜婷, Semi-Automatic Construction of Chinese WordNet—Using Class-Based Translation Model,清華大學資訊工程研究所碩士論文,新竹, 2002

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top