跳到主要內容

臺灣博碩士論文加值系統

(35.172.223.251) 您好!臺灣時間:2022/08/17 01:04
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:張佑任
研究生(外文):Chang, Yu-Jen
論文名稱:中文全文資訊檢索效能之評量--全文檢視模型與群集索引模型
論文名稱(外文):A Research of Performance Evaluation of Mandarin Chinese Full-Text Information Retrieval--Full-Text Scan Model vs. Cluster Indexing Model
指導教授:鍾國貴鍾國貴引用關係黃雲龍黃雲龍引用關係
指導教授(外文):Chung, Kuo-KueiHuang, Yun-Long
學位類別:碩士
校院名稱:南華大學
系所名稱:資訊管理學系碩士班
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:113
中文關鍵詞:資訊檢索效能評量全文檢視模型群集索引模型奇異值分解
外文關鍵詞:Information RetrievalEffectiveness EvaluationFull-Text Scan ModelCluster Indexing ModelSingular value Decomposition
相關次數:
  • 被引用被引用:2
  • 點閱點閱:322
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:4
中文全文資訊檢索之研究,因中文語言的本質與特徵,所以起步比西文資訊檢索的研究較晚,目前中文全文資訊檢索研究的困難點,在於缺乏一個具有科學實驗效度研究環境與效能評量的標準。本研究分別採用中央研究院的中文全文檢索系統(CTP;1996)和黃雲龍(1997)的群集索引模型系統,來探討中文全文資訊檢索效能評量。
就當前中文資訊檢索研究發展而言,本研究希望有下面三項貢獻:
1.探討不同模型的檢索效能之比較研究。
2.發展更成熟的中文檢索系統之群集索引模型,以提供應用研究的基礎。
3.提供中文資訊檢索可行的研究實驗環境(如:實驗平臺、評量標準與程序規劃)。
實驗利用民國八十二年兒童日報醫藥新聞(502篇文件),使用21個查詢句,在各項實驗與研究控制下,檢索效能評量的實驗結果歸納如下所述:
1.全文檢視模型,平均檢出率為99.02%,平均精確率為17.72%。
2.群集索引模型,在自動選詞環境下,以群集索引構面100,相似性界限值0.3為條件下:
(1)群集索引模型─IDF加權模式,檢出率為80.73%,精確率為45.09%。
(2)群集索引模型─TF加權模式,檢出率為65.97%,精確率為43.52%。
3.群集索引模型,在人工選詞環境下,以群集索引構面100,相似性界限值0.3為條件下:
(1)群集索引模型─IDF加權模式,檢出率為82.81%,精確率為47.11%。
(2)群集索引模型─TF加權模式,檢出率為64.81%,精確率為42.72%。
4.經由上述實驗結果,提出以下發現:
(1)群集索引模型─IDF加權模式,在自動選詞與人工選詞下,檢索效能均優於全文檢視模型。
(2)群集索引模型─IDF加權模式的檢出率顯著優於群集索引模型─TF加權模式,而精確率並沒有顯著差異。
(3)群集索引模型,當群集索引構面愈多時,自動選詞與人工選詞的檢索效能,並沒有顯著差異。換言之,索引詞彙可以運用自動斷詞所產生的詞彙來替代。
資訊檢索相關研究已經有一段很長的時間,各種演算法與理論不斷推陳出新,在系統上也不斷改良,但是仍然沒有一個系統能真正滿足使用者,未來的系統必須能夠以各種方式來檢索資料,甚至於相關回饋時能夠運用不同模式來檢索。
另外,中文資訊檢索的研究涉及了許多議題,但是對於不同模式的檢索系統之間效能評量的研究卻少之又少,中文資訊檢索的研究發展,倘若能建構一個標準的評估環境,如大型文件集、查詢句、相關判斷、標準評量模式等,對未來研究若能在標準的評估環境下實驗,將有助於系統機制的發展與改善檢索效能。
Full-Text Information Retrieval is becoming an interdisciplinary interest. Mandarin Chinese Full-Text Information Retrieval is facing more basic difficulties than English context because of research lag and language nature. Lack of an objective test collection and a standard effectiveness evaluation for information retrieval experiments is the fundamental issue for Mandarin Chinese Full-Text information retrieval. In this thesis, we will introduce two different systems, including the Chinese Text Processor (CTP) developed by Academia Sinica in 1996, and the Cluster Indexing Model (CIM) developed by Huang Yun-Long in 1997. Also we will use same corpus (documents set), to evaluate system performance.
Concerning the research status in Chinese, this research will have three contributions. First, analysis the fitness method of Full-Text Information Retrieval in same corpus or documents set. Second, developing a mature Cluster Indexing Model as the fundamental of advance application researches. Finally, this project will construct test collections and a standard effectiveness evaluation for Full-Text Information Retrieval researches in Chinese.
Involving with medicine of Children’s Daily News (502 documents) and 21 queries. Under a series of experiments, the following conclusions are discovered:
1.The average recall of CTP is 99.02%, and its average precision is 17.72%.
2.In automatic term segmentation methods, under index dimension 100 and similarity threshold 0.3:
(1)The recall of CIM-IDF is 80.73%, and the precision is 45.09%.
(2)The recall of CIM-TF is 65.97%, and the precision is 43.52%.
3.In manual term segmentation methods, under index dimension 100 and similarity threshold 0.3:
(1)The recall of CIM-IDF is 82.81%, and the precision is 47.11%.
(2)The recall of CIM—TF is 64.81%, and the precision is 42.72%.
4.According to the results of above experiments, the following conclusions are discovered:
(1)The performance of CIM-IDF is better than CTP in automatic and manual term segmentation.
(2)The performance of CIM-IDF is better than CIM—TF in automatic and manual term segmentation.
(3)In CIM-IDF, when index dimension greater than 80, the results show that the performance of automatic and manual term segmentation are similar. It showed clearly that automatic term segmentation methods could substitute for manual.
Many researchers have devoted to developing information retrieval systems for a long time. They are find new ways of doing things from different theories and improve system of performance, but not any one system can by satisfy. However, The IR system should support different retrieval models, and relevance feedback can use to differ model in the future.
Besides, research has involved many topics for discussion in Mandarin Chinese Full-Text information retrieval. However, it was lack of effectiveness evaluation in diverse information retrieval. If research could construct a standard of evaluation environment (ex. large corpus, query, relevance judgment, and a standard of evaluation), it will improve system of performance to contributive.
中文摘要 …………………………………………………………………………… i
英文摘要 …………………………………………………………………………… iii
誌謝 ………………………………………………………………………………… vi
目錄 ………………………………………………………………………………… vii
表次 ………………………………………………………………………………… ix
圖次 ………………………………………………………………………………… x
第一章 緒論 …………………………………………………………………… 1
第一節 研究背景 ………………………………………………………… 1
第二節 研究動機 ………………………………………………………… 5
壹、 知識時代,數位化資訊檢索 ……………………………………… 5
貳、 資訊檢索的應用與發展 …………………………………………… 6
參、 建構客觀性實驗平臺之環境 ……………………………………… 6
肆、 中文全文資訊檢索績效評量 ……………………………………… 7
第三節 研究目的 ………………………………………………………… 9
第四節 論文架構 ………………………………………………………… 11
第二章 文獻探討 ……………………………………………………………… 12
第一節 資訊檢索的概念 ………………………………………………… 12
壹、 資訊檢索系統 ……………………………………………………… 13
貳、 資訊需求 …………………………………………………………… 14
參、 文件的組織 ………………………………………………………… 16
第二節 相關的概念 ……………………………………………………… 18
壹、 相關的定義 ………………………………………………………… 18
貳、 相關判斷等級尺度對檢索績效影響 ……………………………… 20
參、 相關判斷過程與實際測試 ………………………………………… 21
第三節 檢索模型 ………………………………………………………… 23
壹、 全文檢視模型 ……………………………………………………… 23
貳、 群集索引模型 ……………………………………………………… 24
第四節 績效評量 ………………………………………………………… 35
壹、 評量標準 …………………………………………………………… 35
貳、 檢索結果呈現方式 ………………………………………………… 38
第三章 研究設計 ……………………………………………………………… 43
第一節 研究範疇 ………………………………………………………… 43
第二節 研究架構 ………………………………………………………… 45
第三節 研究流程 ………………………………………………………… 47
第四節 研究限制 ………………………………………………………… 49
壹、 測試語料選擇 ……………………………………………………… 49
貳、 使用者資訊需求描述與查詢問題 ………………………………… 50
參、 文件的相關判斷 …………………………………………………… 51
第四章 實驗結果分析 ………………………………………………………… 52
第一節 實驗概要簡介 …………………………………………………… 52
壹、 實驗環境概要 ……………………………………………………… 52
貳、 實驗評量變數 ……………………………………………………… 53
參、 實驗評量與呈現方式 ……………………………………………… 54
第二節 檢索研究基礎環境分析 ………………………………………… 55
壹、 語料庫分析 ………………………………………………………… 55
貳、 索引詞選詞分析 …………………………………………………… 56
參、 查詢句分析 ………………………………………………………… 58
第三節 實驗結果 ………………………………………………………… 59
壹、 人工選詞,群集索引TF與IDF加權模式的效能優劣 ………… 59
貳、 自動選詞,群集索引TF與IDF加權模式的效能優劣 ………… 63
參、 群集索引TF與IDF加權模式,自動與人工選詞的效能優劣 …… 66
肆、 群集索引IDF加權模式與CTP的效能優劣 ……………………… 69
第四節 錯誤分析與實驗討論 …………………………………………… 73
壹、 錯誤分析 …………………………………………………………… 73
貳、 實驗討論 …………………………………………………………… 74
第五章 結論與未來研究建議 ……………………………………………… 78
第一節 結論 ……………………………………………………………… 78
壹、 索引詞選取 ………………………………………………………… 78
貳、 奇異值與最適索引構面探討 ……………………………………… 79
參、 相似值與界限值探討 ……………………………………………… 81
肆、 實驗結論探討 ……………………………………………………… 84
第二節 未來研究建議 …………………………………………………… 86
壹、 未來實驗建議 ……………………………………………………… 86
貳、 資訊檢索效能評量的議題 …………………………………………… 87
參、 群集索引系統的藍圖 ……………………………………………… 89
肆、 結論 ………………………………………………………………… 88
參考文獻 ………………………………………………………………………… 91
附錄一 CTP系統與群集索引模式數值計算操作說明 ……………………… 96
附錄二 查詢句內容、檢索詞彙與相關文件數 ……………………………… 99
附錄三 查詢句內容、檢索詞彙與相關文件數 ……………………………… 103
[1] 吳忻萍,以隱藏語意索引為基礎之中文全文資訊檢索,國立臺灣大學資訊管理學研究所,碩士論文,1997年。
[2] 吳美美著,中文資訊檢索系統使用研究,臺灣學生書局,臺北市,2001年4月。
[3] 陳淑美,財經新聞自動分類研究,國立臺灣大學圖書館學研究所,碩士論文,1992年。
[4] 張琪玉著,情報語言學基礎,武漢大學出版社,武漢,1998年10月。
[5] 黃卓倫,利用隱藏語意索引進行文件分段檢索之研究,國立臺灣大學資訊管理學研究所,碩士論文,1997年。
[6] 黃雪玲,「資訊需求者與次判斷者相關判斷之比較研究」,國立臺灣大學圖書館學研究所,碩士論文,1995年。
[7] 黃雲龍,“中文全文資訊檢索研究的基礎環境規劃”,第四屆國際資訊管理實務研討會,臺北縣,1998年11月。
[8] 黃雲龍,「中文全文文件群集索引理論研究與實證」,圖書與資訊學刊,第24期,頁44-68,1998年3月。
[9] 黃雲龍,「中文全文文件群集索引理論研究--向量空間模型(Vector-Space Model)的建構」,國立臺灣大學商學研究所,博士論文,1997年。
[10] 黃雲龍、謝清俊、謝清佳,“中文全文文件自動索引研究系統規劃”,第八屆國際資訊管理學術研討會,臺北市,1997年5月29-30日。
[11] 黃慕萱著,資訊檢索中「相關」概念之研究,臺灣學生書局,臺北市,1996年4月。
[12] 曾蕾,聯機環境中的情報檢索語言,書目文獻出版社,北京,1996年12月。
[13] 楊允言,文件自動分類及其相似性排序,國立清華大學資訊科學研究所,碩士論文,1993年。
[14] 廖書賢,「中文全文資訊檢索研究實驗平臺規劃與建置」,國立臺灣大學資訊管理學研究所,碩士論文,1998年。
[15] 廖書賢、黃雲龍,“從TREC的發展趨勢回顧中文全文資訊檢索關鍵議題”,第五屆三軍官校基礎學術研討會,高雄市,1998年。
[16] Berry, Michael W., Ztatko Drmac, and Elizabeth R. Jessup, “Matrices, Vector Spaces, and Information Retrieval”, SIAM REVIEW, 41:2, 1999, pp.335-362.
[17] Blair, David C. and M. E. Maron, “An Evaluation of Retrieval Effectiveness for A Full-Text Document Retrieval System”, Communications of the ACM, 28:3, Mar. 1985, pp.289-299.
[18] Buckland, Michael and Fredric Gey, “The Relationship between Recall and Precision”, Journal of the American Society for Information Science, 45:1, 1994, pp.12-19.
[19] Burgin, Robert, “Variations in Relevance Judgments and the Evaluation of Retrieval Performance”, Information Processing & Management, 28:5, 1992, pp.619-627.
[20] Chowdhury, G. G., Introduction to modem information retrieval, Library Association Publishing, London, 1999.
[21] Cooper, S. William, “On Selecting a Measure of Retrieval Effectiveness” , In Readings in Information Retrieval. Edited by K. S. Jones and P. Willett, (CA: Morgan Kaufmann, 1997), pp.191-204.
[22] Ellis, David, “The Dilemma of Measurement in Information Retrieval Research”, Journal of the American Society for Information Science, 47:1, 1996, pp.23-36.
[23] Ellis, David, Jonathan Furner, and Peter Willett, “On the Creation of Hypertext Links in Full-Text Documents: Measurement of Retrieval Effectiveness”, Journal of the American Society for Information Science, 47:4, 1996, pp.287-300.
[24] Froehich, Thomas J., “Relevance Reconsidered-Towards an Agenda for the 21st Century: Introduction to Special Topic Issue on Relevance Research”, Journal of the American Society for Information Science, 45:3, 1994, pp.124-134.
[25] Harter, P. Stephen, “Variations in Relevance Assessments and the Measurement of Retrieval Effectiveness”, Journal of American Society for Information Science 47:1, 1996, pp.37-49.
[26] Kemp, D. A. “Relevance, Pertinence and Information System Development.” Information Storage and Retrieval, 10:2, 1974, pp.37-47.
[27] Losee, Robert M., “An Analytic measure Predicting Information Retrieval System Performance”, Information Processing & Management, 27:1, 1991, pp. 1-13.
[28] Salton, Gerard, “The State of Retrieval System Evaluation”, Information Processing & Management, 28:4, 1992, pp.441-449.
[29] Salton, Gerard, “Automatic Text Processing: the transformation, analysis, and retrieval of information by computer”, Addison-Wesley Publishing Company, New York, 1989.
[30] Salton, Gerard, “Another Look at automatic Text-Retrieval Systems”, Communications of the ACM, 29:7, July. 1986, pp.648-656.
[31] Salton, Gerard and Christopher Buckley, “Term-Weighting Approaches in Automatic Text Retrieval”, In Readings in Information Retrieval. edited by K. S. Jones and P. Willett, (CA: Morgan Kaufmann, 1997), pp.323-327.
[32] Salton, Gerard and M. J. McGill, “The SMART and SIRE Experimental Retrieval Systems”, In Readings in Information Retrieval. Edited by K. S. Jones and P. Willett, (CA: Morgan Kaufmann, 1997), pp.381-399.
[33] Salton, Gerard, A. Wong, and C. S. Yang, “A Vector Space Model for Automatic Indexing”, In Readings in Information Retrieval. Edited by K. S. Jones and P. Willett, (CA: Morgan Kaufmann, 1997), pp.273-280.
[34] Saracevic, Tefko., Paul Kantor, Alice T. Chamis and Donna Trivison, “A Study of Information Seeking and Retrieving I. Background and Methodology II. User, Questions, and Effectiveness III. Searchers, Searches, and Overlap”, Journal of the American Society for Information Science, 39:3, 1988, pp.161-216.
[35] Su, Louise T., “The Relevance of Recall and Precision in User Evaluation”, Journal of the American Society for Information Science, 45:3, 1994, pp.207-217.
[36] Su, Louise T., “Evaluation Measures for Interactive Information Retrieval”, Information Processing & Management, 28:4, 1992, pp.503-516.
[37] Tague-Sutcliffe Jean M., “Some Perspective on the Evaluation of Information Retrieval System”, Journal of the American Society for Information Science, 47:1, 1996, pp.1-3.
[38] Taylor, R. S., “Question-Negotiation and Information Seeking in Libraries”, College and Research Libraries, 1968, pp.182-183.
[39] Van Rijsbergen, C. J. and W. B. Croft, “Document Clustering: An Evaluation of Some Experiments With The Cranfield 1400 Collection”, Information Processing & Management, Vol. 11,1975, pp.171-182.
[40] Voorhees, Ellen M., Donna Harman, “Overview of the Ninth Text Retrieval Conference (TREC-9) ”, The Ninth Text Retrieval Conference (TREC-9),NIST Special publication. http://www.trec.org/
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top