跳到主要內容

臺灣博碩士論文加值系統

(44.211.84.185) 您好!臺灣時間:2023/05/30 05:29
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:林典鍵
研究生(外文):Tien-Chien Lin
論文名稱:利用維基百科連結作資訊檢索查詢擴展
論文名稱(外文):Query Expansion via Wikipedia Link
指導教授:吳世弘吳世弘引用關係
指導教授(外文):Shih-Hung Wu
學位類別:碩士
校院名稱:朝陽科技大學
系所名稱:資訊工程系碩士班
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2008
畢業學年度:96
語文別:中文
論文頁數:68
中文關鍵詞:Okapi維基百科虛擬關聯回饋查詢擴展
外文關鍵詞:OkapiWikipediaQuery ExpansionPseudo Relevance Feedback
相關次數:
  • 被引用被引用:0
  • 點閱點閱:586
  • 評分評分:
  • 下載下載:87
  • 收藏至我的研究室書目清單書目收藏:3
使用者操作檢索系統時,通常只看前面幾篇文件是否是想找的文件,而無法看完全部的文件,如何將TopN篇文件的精準度提高是個重要的議題。使用查詢擴展可以提高召回率,但如果新的查詢詞更為精準的話,則TopN的精準度也會提高。維基百科是個內容豐富的線上百科全書,用它來做查詢擴展可以找出精確、適當的擴充字。我們使用著名的Okapi演算法,搭配維基百科 條目裡的anchor text來作查詢擴展,實驗證明使用維基百科作查詢擴展會比只使用Okapi還好。
Query expansion is a well-known technique to increase recall value. Previous works show that good query expansion can also increase top N precision. Since users usually browse top N search results first, the precision of top N search result is very important. In this paper, we use the anchor texts in Wikipedia as a resource to expand the original query. Query term in Wikipedia will be expanded with the anchor texts in the Wikipedia page. We conduct experiments on TREC data disk 4 and 5 and compare with Okapi BM25. The experiment results show improvement on mean average precision.
摘要 I
Abstract II
誌 謝 III
目錄 IV
表目錄 VII
圖目錄 VIII
第一章 導論 1
1.1 研究動機與目的 1
1.2 研究方法 2
1.3 研究限制 3
1.4 研究貢獻 3
1.5 論文編排 3
第二章 相關研究 4
2.1 Okapi BM25 4
2.2 關聯回饋 5
2.3 維基百科 6
第三章 研究方法 10
3.1資料集 10
3.2評估 13
3.3實驗流程 14
第四章 實驗結果 19
4.1使用三種QE來擴展不同N個新字 19
4.2混合使用OkapiQE和ShortQE 21
4.3研究TopN篇精準度 22
4.4 擴展字重複與不重複的比較 24
4.5 最佳擴展字數 26
第五章結論與未來研究方向 29
5.1 結論 29
5.2 未來研究方向 29
參考文獻 31
附錄A 維基外覆程式 34
A.1取得跨語言語料原理 34
A.2 維基百科HTML Tag分析 35
A.3 取得語言列表 36
A.4 取得條目翻譯 38
A.4.1 已取得語言列表做法 39
A.4.2 未取得語言列表做法 39
A.4.3 解決簡繁體轉換問題 39
A.5 取得定義內容 40
A.5.1 擷取長、短定義內容 41
A.5.2 已取得語言列表做法 42
A.5.3 未取得語言列表做法 42
A.6 取得定義連結 44
A.6.1 已取得語言列表做法 44
A.6.2 未取得語言列表做法 45
A.7 取得條目同義字 46
A.7.1 已取得語言列表做法 46
A.7.2 未取得語言列表做法 46
A.8 User Case 47
A.9 C# API介面 48
A.10 Web Service 49
附錄B 三種QE對39 Topics所擴展10個新字 51
(候選字不滿10字,則擴展出候選字數) 51
附錄C限定字不可重複,三種QE對39 Topics所擴展10個新字 57
附錄D 10 Terms OkapiQE 評估結果 63
附錄E 10 Terms ShortQE 評估結果 65
附錄F 10 Terms LongQE 評估結果 67

表目錄
表 1. 查詢主題 “Lyme disease” 11
表 2. 39 Topics 和相關文件數 12
表 3. 三種QE 擴展10 個新字 19
表 4. 三種QE 擴展20 個新字 20
表 5. 三種QE 擴展50 個新字 20
表 6. 混合使用OkapiQE 和LongQE 擴展10 個字 22
表 7. Top N 精準度 24
表 8. 10 擴展字重複與不重複比較 25
表 9. 20 擴展字重複與不重複比較 26
表 10. ㄧ到二十個擴展字評估 27

圖目錄
圖 1. 維基百科條目“Lyme disease” 8
圖 2. 條目“Lyme disease”所屬目錄 8
圖 3. 目錄網頁內容 9
圖 4 . System Flow 15
圖 5. 使用“OkapiQE”來擴展查詢主題“Lyme disease” 17
圖 6. 使用“LongQE”來擴展查詢主題“Lyme disease” 18
圖 7. 取得跨語言語料原理 34
圖 8. 維基百科HTML 架構 36
圖 9. 維基百科HTML 原始檔中語言列表部分 37
圖 10. 語言列表中的超連結 37
圖 11. 維基百科HTML 原始檔中條目名稱部分 40
圖 12. 維基百科HTML 原始檔中長定義內容部分 41
圖 13. 維基百科HTML 原始檔中短定義內容部分 42
圖 14. 維基外覆程式User case 47
圖 15. 維基外覆程式C# API 介面 48
圖 16. 維基外覆程式Web Service 50
Chris Buckley, Gerard Salton, James Allan, “The effect of adding relevance information in a relevance feedback environment”, In Proceedings of SIGIR 17. 1994, pp. 292-300.
D. Hawking , N. Craswell, “Very large scale retrieval and web search”, In Proceedings of TREC: Experiment and Evaluation in Information Retrieval. MIT Press, 2005.
E. Gabrilovich, and S. Markovitch, “Overcoming the Brittleness Bottleneck using Wikipedia: Enhancing Text Categorization with Encyclopedic Knowledge”, In Proceedings of The 21st National Conference on Artificial Intelligence (AAAI), 2006, pp. 1301–1306.
Fan, Weiguo, Luo, Ming, Wang, Li, Xi, Wensi and Fox, Edward A, “Tuning Before Feedback:Combining Ranking Discovery and Blind Feedback for Robust Retrieval”, In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. 2004, pp. 138-145.
G. Salton, C. Buckley, “Improving retrieval performance by relevance feedback”, Journal of the American Society for Information Science. 1990, 41(4): pp. 288-297.
Harman D, “Relevance feedback revisited”, In Proceedings of SIGIR 15. 1992, pp. 1-10.
Hang Cui , Ji-Rong Wen , Jian-Yun Nie , Wei-Ying Ma, “Probabilistic query expansion using query logs”, In Proceedings of the 11th international conference on World Wide Web. 2002, pp. 325-332.
M. Mitra, A. Singhal, C. Buckley, “Improving Automatic Query Expansion”, In Proceedings of the 21st Ann. Int''l ACM SIGIR. Research and Development in Information Retrieval. 1998, pp. 206-214.
Rada Mihalcea, “Using Wikipedia for AutomaticWord Sense Disambiguation”, In Proceedings of NAACL HLT. 2007, pp. 196–203.
S.E. Robertson, S. Walker, S. Jones, M.M. Hancock-Beaulieu, and M. Gatford, “Okapi at trec-3”, In Proceedings of the Third Text Retrieval Conference, Gaithersburg, MD. 1995, pp. 109-126.
S.E. Robertson, S. Walker, “Okapi / Keenbow at TREC-8”, In Proceedings of the Eighth Text REtrieval Conference.2000, pp. 151-162.
Schuetze, “Automatic Word Sense Discrimination. Computational Linguistics”, 1998, 24( 1 ): pp. 97-124.
Singhal, Mitra, Buckley, “Learning routing queries in a query zone”, In Proceedings of ACM SIGIR. 1997, pp. 25-32.
Spink A., Jansen J., Ozmultu H.C, “Use of query reformulation and relevance feedback by Excite users”, In Proceedings of Internet Research: Electronic Networking Applications and Policy. 2000, pp. 317-328.
Simone Paolo Ponzetto, and Michael Strube, “An API for measuring the relatedness of words in Wikipedia”, In Proceedings of the ACL 2007 Demo and Poster Sessions, Prague. 2007, pp. 49–52.
Torsten Zesch, Iryna Gurevych, and Max Mühlhäuser, “Analyzing and accessing wikipedia as a lexical semantic resource”, In Proceedings of Biannual Conference of theSociety for Computational Linguistics and LanguageTechnology, Tuebingen, Germany. 2007, pp. 213–221.
T. Joachims, “A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization”, In Proceedings of 14th International Conference on Machine Learning (ICML-97). 1997, pp. 143-151.
Tien-Chien Lin, and Shih-Hung Wu , “Query Expansion via Wikipedia Link”, In Proceedings of the 2008 International Conference on Information Technology and Industrial Application 2008.
Xu J., Croft, W.B, “Query Expansion Using Local and Global Document Analysis”, In Proceedings of SIGIR 19. 1996, pp. 4-11.
Y. Li, R.W.P. Luk, E.K.S. Ho and F.L. Chung, “Improving weak ad-hoc queries using wikipedia as external corpus”, In Proceedings of SIGIR 2007. 2007, pp. 797-798.
Yonggang Qiu, Hans-Peter Frei, “Concept based query expansion”, In Proceedings of SIGIR 16. 1993, pp. 161–169.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top