研究生(外文):Jia-Yuan Wang
論文名稱(外文):An Effective Multilingual Document Retrieval System for Electronic Business
指導教授(外文):Wen-Chen Huang
外文關鍵詞:Sentence Structure Analysis ModelMulti-language Information RetrievalOntological-ModelIndex extension
隨著這幾年網際網路的普及與發展,從網路上我們可以得到各式各樣的資訊,面對這些繁雜又龐大的資訊。使用者要如何找到最符合需求的資訊並且不必經過冗長的資料收集與尋找,跨語言資訊檢索(Cross-Language Information Retrieval, CLIR)就是為了此目的而生。使用者經由輸入關鍵字或是語句就能擷取到最適當的資訊,多語言資訊檢索(Multi-Language Information Retrieval, MLIR)其實就是跨語言資訊檢索的進階搜尋。以往跨語言資訊檢索提供一對一的檢索模式而多語言資訊檢索提供的是一對多的檢索模式,其差異在於多語言資訊檢索模式在語言翻譯時原始語言(Source Language)必須藉由中繼語言(Meta Language)的轉換來查詢目標語言(Target Language)。但是此兩種檢索模式最主要的目的不外乎是幫助使用者使用某一種特定語言做查詢,同時可以檢索出不同語言的相關文件,使用者不需要自行翻譯搜尋的字或語句,使用自己熟悉的語言便能夠檢索出其他語言的文件。
在本論文中,我們顛覆傳統不再只是針對使用者下的Query進行分析與查詢擴充,我們將重點著重在文件的分析與索引擴展(Index Expansion)上。使用句構分析模型(Sentence Structure Analysis Model, SSAM)來取代傳統的斷詞方法,更準確的擷取出能夠表現文件內容的索引,再來使用知識本體論模型(Ontological-Model)來體現文件與文件之間語義網路的關係。
The main purpose of Cross-Language Information Retrieval (CLIR) is to help users find the information to meet their need. By using the proposed system, users enter keywords or a statement would be able to retrieve the most appropriate information, Multi-Language Information Retrieval (MLIR) is actually the advanced search of CLIR. In the past, CLIR provided one language to another language’s information retrieval model. Yet, multilingual information retrieval models provided users to use one language to retrieve multiple languages. The main difference of CLIR and MLIR is that multi-language information retrieval model need to translate Source Language to Meta Language and then use Meta Language to retrieve Target Language. However, the goal of these two kinds of retrieval models is to help users to obtain the information from specific query language and do not need to translate the query terms to other languages.
In this paper, without dealing with the Query Terms and Query Expansion, we focus on Document indexing and proposed the concept of Index Expansion. Word segmentation is replaced by Sentence Structure Analysis Model. Using the Ontological-Model to reflect the relationship between document and document obtain indexes of documents more accurately.
In our research, we use the data sets provided by the 8th NII Test Collection for IR Systems (NTCIR), including the languages of Traditional Chinese, Simplified Chinese and Japanese as the test data set. The results show that our proposed method effectively enhances the retrieval accuracy of multi-language document retrieval.
摘要 I
Abstract III
致謝 V
目錄 VI
圖錄 X
壹、緒論 1
一、研究背景 1
二、研究動機 2
(1)斷詞問題 2
(2)文件索引擴展 3
三、研究目的 4
四、研究貢獻與重要性 4
五、論文架構 5
貳、文獻探討 6
一、跨語言資訊檢索簡介 6
二、斷詞方法 9
(1)Unigram 9
(2)Bigram 10
(3)N-gram 10
三、Query翻譯 11
(1)Google翻譯 11
(2)Wikipedia翻譯 12
(3)以字典為基礎(Dictionary-based) 13
(4)互動式翻譯 14
四、Query擴展 15
五、OOV Terms 17
六、WSD 18
參、研究方法 19
一、系統架構 19
二、系統建置環境與工具 19
(1)系統環境 19
(2)建置工具 19
(3)資料庫結構 20
三、以句構分析模型取代N-gram方法 24
(1)句構分析模型 24
(2)Query processing 25
(3)Document processing 29
四、使用本體論於索引擴展 32
(1)索引擴展流程 33
(2)同義擴展 33
(3)同類型擴展 35
(4)建置Ontology-Based Tree 35
五、Google翻譯 37
六、OKAPI BM25檢索結果排序 38
肆、實驗結果 40
一、實驗限制 40
二、分數評估 40
三、實驗資料 42
(1)文件集 42
(2)查詢集 46
四、實驗一:斷詞方法效益比較 48
(1)實驗說明 48
(2)實驗結果 49
五、實驗二:擴展方法用在文件索引之效益比較 53
(1)實驗說明 53
(2)實驗結果 53
六、結果分析與討論 57
(1)結果分析 57
(2)討論 58
伍、結論與未來研究 59
一、結論 59
二、未來研究方向 60
(1)提供跨國企業實際使用 60
(2)智慧型問答系統 60
(3)使用其他資料集做測試 60
(4)進行其他語言之資訊檢索應用 60
(5)將跨語言資訊檢索應用在語言學習上 60
陸、參考文獻 61
一、中文部分 61
二、英文部分 61
