跳到主要內容

臺灣博碩士論文加值系統

(44.201.72.250) 您好!臺灣時間:2023/09/27 10:58
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:黃卓倫
研究生(外文):Huang, Jwo-Luen
論文名稱:利用隱藏語意索引進行文件分段檢索之研究
論文名稱(外文):Passage Retrieval Using Latent Semantics Indexing
指導教授:曹承礎曹承礎引用關係
指導教授(外文):Timothy Chou
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:資訊管理學系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:1997
畢業學年度:85
語文別:中文
論文頁數:67
中文關鍵詞:資訊檢索分段檢索隱藏語意索引
外文關鍵詞:information retrievalpassage retrievallatent semantics indexing
相關次數:
  • 被引用被引用:8
  • 點閱點閱:232
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:4
隨著資訊科技的進步,資訊的量隨著逐漸增加,而使用者所面對的資訊也
就越來越多。因此,若缺少幫助我們搜尋資訊的技術,資料的搜尋將會相
當困難。為了解決這個問題,產生了資訊檢索 (information retrieval)
這個技術。在這種技術之下,使用者所期望的是資訊檢索系統能夠將使用
者「想要」的內容搜尋出來;除了檢索結果必須與使用者的需求相似以外
,還包含了檢索結果本身對使用者的意義有多大。因此,若檢索結果中只
含一小部份使用者真正想要的資訊,這種檢索結果對使用者來說也就價值
較低。在目前的資訊檢索系統之下,系統所想要達成的目標是將最相關的
文件傳回給使用者。但有時,使用者希望系統傳回的是更精確的檢索範圍
,如段落、表列等。這些文件段落對使用者來說才是真正有用的資訊。而
現有的資訊檢索演算法,並不能完全符合此一部份的應用。因此,必須對
原有的演算法做一修改,以符合此類的應用。為了解決分段檢索這個問題
,本研究實作一個文件區塊檢索系統,利用LSI (Latent Semantics
Indexing) 進行文件的概念檢索。同時也對LSI這類檢索方式在分段檢索
的情況下所表現出來的的性質做一探討。這些研究方向中包含了最佳的查
詢條件長度、最佳的斷詞方式、分段方式對LSI的影響、LSI新增文件時的
影響、以及relevance feedback是否能對本系統產生幫助。研究結果發現
,本分段檢索系統在分段方式為文件本身段落、斷字方式為取長字串、以
及查詢條件長度中等情況下,效果最好。在利用folding-in新增研究上,
我們首先發現利用文件向量矩陣進行分段檢索比利用段落向量矩陣檢索效
果要好。而在新增文件的影響上,本研究發現在新增文件某一比例以下,
可以不用重新計算索引矩陣。最後,我們對relevance feedback的效果做
一研究。結果發現relevance feedback的確對檢索非常有幫助。在所有的
查詢中,精確度均增高許多。因此,可以做以下的結論:LSI檢索方式確
實適合進行文件區塊以及概念檢索。特別是由某一文件段落找出相關的文
件段落此類應用,LSI段落檢索非常適合。因此,對段落檢索此類應用,
LSI是一可行之方案。
With the development of information technology and the
increasing ofinformation flow, everyone has to face more and
more information. Therefore, without technology for information
filtering, it would be very difficult to find the needed
information. In order to solve this difficulty, the information
retrieval therefore developed. When using this technology, users
expect this technology help to search for what they really need.
The query result must not only match users'' requirement, but
also be meaningful to users. Thus, if the query result includes
only a small portion of meaningful information, it will be of no
value to users.Using current information retrieval system, the
target of the system is to return most relevant document to
users. But sometimes users expect more precise result like
paragraphs, lists, etc.. These "passages" are really meaningful
to users. However, current information retrieval algorithms can
not match this kind of application. Thus, original algorithms
should be modified to meet these requirements.In order to solve
the problem of passage retrieval, a passage retrieval system is
implemented by using LSI (Latent Semantics Indexing). At the
same time the properties of LSI under passage retrieval is
investigated. These properties includes optimal query length,
optimal word segmentation, optimal document segmentation, impact
when appending new documents, and the benefit of relevance
feedback.In this research, the passage retrieval system works
best when document paragraphs, longer Chinese word, and adequate
query length are used. In this research on appending documents
using folding-in technique, documents can be appended without
re-SVD the document index. A ratio of new document is found to
prevent re-computing the matrix. Second, the document vector
matrix can be used in passage retrieval. Finally, the research
on relevance feedback shows that this technique is useful.Thus,
the conclusion is: LSI indeed fits passage and concept
retrieval, especially when searching for relevant documents from
some passages. Thus, LSI is feasible for passage retrieval.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊