跳到主要內容

臺灣博碩士論文加值系統

(44.200.94.150) 您好!臺灣時間:2024/10/16 15:23
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:王嘉苑
研究生(外文):Jia-Yuan Wang
論文名稱:企業電子化之下的跨國語言檢索系統
論文名稱(外文):An Effective Multilingual Document Retrieval System for Electronic Business
指導教授:黃文楨黃文楨引用關係
指導教授(外文):Wen-Chen Huang
學位類別:碩士
校院名稱:國立高雄第一科技大學
系所名稱:企業電子化研究所
學門:商業及管理學門
學類:企業管理學類
論文種類:學術論文
論文出版年:2010
畢業學年度:98
語文別:中文
論文頁數:64
中文關鍵詞:索引擴展知識本體模型多語言資訊檢索句構分析模型
外文關鍵詞:Sentence Structure Analysis ModelMulti-language Information RetrievalOntological-ModelIndex extension
相關次數:
  • 被引用被引用:0
  • 點閱點閱:285
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
隨著這幾年網際網路的普及與發展,從網路上我們可以得到各式各樣的資訊,面對這些繁雜又龐大的資訊。使用者要如何找到最符合需求的資訊並且不必經過冗長的資料收集與尋找,跨語言資訊檢索(Cross-Language Information Retrieval, CLIR)就是為了此目的而生。使用者經由輸入關鍵字或是語句就能擷取到最適當的資訊,多語言資訊檢索(Multi-Language Information Retrieval, MLIR)其實就是跨語言資訊檢索的進階搜尋。以往跨語言資訊檢索提供一對一的檢索模式而多語言資訊檢索提供的是一對多的檢索模式,其差異在於多語言資訊檢索模式在語言翻譯時原始語言(Source Language)必須藉由中繼語言(Meta Language)的轉換來查詢目標語言(Target Language)。但是此兩種檢索模式最主要的目的不外乎是幫助使用者使用某一種特定語言做查詢,同時可以檢索出不同語言的相關文件,使用者不需要自行翻譯搜尋的字或語句,使用自己熟悉的語言便能夠檢索出其他語言的文件。
在本論文中,我們顛覆傳統不再只是針對使用者下的Query進行分析與查詢擴充,我們將重點著重在文件的分析與索引擴展(Index Expansion)上。使用句構分析模型(Sentence Structure Analysis Model, SSAM)來取代傳統的斷詞方法,更準確的擷取出能夠表現文件內容的索引,再來使用知識本體論模型(Ontological-Model)來體現文件與文件之間語義網路的關係。
我們使用NTCIR第四屆與第六屆所提供之查詢集,包含繁體中文、英文、日文等文件集來作為測試資料。這些文件經過我們提出之研究模型分析後,實驗結果顯示,我們提出之句構分析模型能夠比之前的研究提升平均檢索準確度39%,單語資訊檢索可以比之前的研究提升了47%。
The main purpose of Cross-Language Information Retrieval (CLIR) is to help users find the information to meet their need. By using the proposed system, users enter keywords or a statement would be able to retrieve the most appropriate information, Multi-Language Information Retrieval (MLIR) is actually the advanced search of CLIR. In the past, CLIR provided one language to another language’s information retrieval model. Yet, multilingual information retrieval models provided users to use one language to retrieve multiple languages. The main difference of CLIR and MLIR is that multi-language information retrieval model need to translate Source Language to Meta Language and then use Meta Language to retrieve Target Language. However, the goal of these two kinds of retrieval models is to help users to obtain the information from specific query language and do not need to translate the query terms to other languages.
In this paper, without dealing with the Query Terms and Query Expansion, we focus on Document indexing and proposed the concept of Index Expansion. Word segmentation is replaced by Sentence Structure Analysis Model. Using the Ontological-Model to reflect the relationship between document and document obtain indexes of documents more accurately.
In our research, we use the data sets provided by the 8th NII Test Collection for IR Systems (NTCIR), including the languages of Traditional Chinese, Simplified Chinese and Japanese as the test data set. The results show that our proposed method effectively enhances the retrieval accuracy of multi-language document retrieval.
摘要 I
Abstract III
致謝 V
目錄 VI
表錄 VIII
圖錄 X
壹、緒論 1
一、研究背景 1
二、研究動機 2
(1)斷詞問題 2
(2)文件索引擴展 3
三、研究目的 4
四、研究貢獻與重要性 4
五、論文架構 5
貳、文獻探討 6
一、跨語言資訊檢索簡介 6
二、斷詞方法 9
(1)Unigram 9
(2)Bigram 10
(3)N-gram 10
三、Query翻譯 11
(1)Google翻譯 11
(2)Wikipedia翻譯 12
(3)以字典為基礎(Dictionary-based) 13
(4)互動式翻譯 14
四、Query擴展 15
五、OOV Terms 17
六、WSD 18
參、研究方法 19
一、系統架構 19
二、系統建置環境與工具 19
(1)系統環境 19
(2)建置工具 19
(3)資料庫結構 20
三、以句構分析模型取代N-gram方法 24
(1)句構分析模型 24
(2)Query processing 25
(3)Document processing 29
四、使用本體論於索引擴展 32
(1)索引擴展流程 33
(2)同義擴展 33
(3)同類型擴展 35
(4)建置Ontology-Based Tree 35
五、Google翻譯 37
六、OKAPI BM25檢索結果排序 38
肆、實驗結果 40
一、實驗限制 40
二、分數評估 40
三、實驗資料 42
(1)文件集 42
(2)查詢集 46
四、實驗一:斷詞方法效益比較 48
(1)實驗說明 48
(2)實驗結果 49
五、實驗二:擴展方法用在文件索引之效益比較 53
(1)實驗說明 53
(2)實驗結果 53
六、結果分析與討論 57
(1)結果分析 57
(2)討論 58
伍、結論與未來研究 59
一、結論 59
二、未來研究方向 60
(1)提供跨國企業實際使用 60
(2)智慧型問答系統 60
(3)使用其他資料集做測試 60
(4)進行其他語言之資訊檢索應用 60
(5)將跨語言資訊檢索應用在語言學習上 60
陸、參考文獻 61
一、中文部分 61
二、英文部分 61
一、中文部分
張嘉銘,2006年,“片語翻譯模型為本之雙語名詞片語擷取”,國立清華大學,碩士論文。
梁哲瑋,2004年,“利用Ontological Chain解決跨語言資訊檢索系統中的翻譯歧義性的問題”,國立交通大學,碩士論文
許志全,2009年,“以概念查詢評估查詢擴展方法與線上搜尋引擎”,朝陽科技大學,碩士論文。
曾彥博,2010年,“詞彙共現關係在跨語言檢索之應用”,華梵大學,碩士論文。
鄭貞信,2007年,“英中日韓文的跨語言檢索之比較”,華梵大學,碩士論文。
盧文祥,2003年,“以網路探勘為基礎之術語翻譯擷取技術”,國立交通大學,博士論文。
蘇辰豫,2007年,“在跨語言資訊檢索中使用N-gram翻譯及維基百科翻譯解決未知詞問題”,朝陽科技大學,碩士論文。
二、英文部分
Bai, J., & Nie, J. (2008). Adapting information retrieval to query contexts. Information Processing and Management, 44, 1901–1922.

Bhogal, J., Macfarlane, A., & Smith, P. (2007). A review of ontology based query expansion. Information Processing and Management, 43, 866–886.

Capstick, J., Diagne, A. K., Erbach, G., Uszkoreit, H., Leisenberg, A., & Leisenberg, M. (2000). A system for supporting cross-lingual information retrieval. Information Processing and Management, 36, 275-289.

De Marneffe, M., MacCartney, B., & Manning, C. D. (2006). Generating Typed Dependency Parses from Phrase Structure Parses. In The fifth international conference on Language Resources and Evaluation. Available: http://nlp.stanford.edu/software/lex-parser.shtml.

He, X., Wang, P., Qi, H., Yang, M., Lei, G., & Xue, Y. (2008). Using Google Translation in Cross-Lingual Information Retrieval. In Proceedings of the seventh NTCIR workshop meeting on Advanced Cross-lingual Information Access, Information Retrieval for Question Answering. Tokyo: National Institute of Informatics. Available: http://research.nii.ac.jp/ntcir/workshop/.

Hsu, C., Li, Y., Chen, Y., & Wu, S. (2008). Query Expansion via Link Analysis of Wikipedia for CLIR. In Proceedings of the seventh NTCIR workshop meeting on Advanced Cross-lingual Information Access, Information Retrieval for Question Answering. Tokyo: National Institute of Informatics. Available: http://research.nii.ac.jp/ntcir/workshop/.

Kang, B., & Choi, K. (2002). Effective foreign word extraction for Korean in formation retrieval. Information Processing and Management, 38, 91-109.
Kishida, K. (2005). Technical issues of cross-language information retrieval: a review. Information Processing and Management, 41, 433–455.

Kishida, K. (2007). Term disambiguation techniques based on target document collection for cross-language information retrieval: An empirical comparison of performance between techniques. Information Processing and Management, 43, 103–120.

Kando, N. (2008). Overview of the Seventh NTCIR Workshop. In Proceedings of the seventh NTCIR workshop meeting. Tokyo: National Institute of Informatics. Available: http://research.nii.ac.jp/ntcir/workshop/.

Kando, N. (2010). Overview of the Eighth NTCIR Workshop. In Proceedings of the eighth NTCIR workshop meeting. Tokyo: National Institute of Informatics. Available: http://research.nii.ac.jp/ntcir/workshop/.

Lee, C., Lee, G., & JungYun, S. (2000). Autoatic WordNet mapping using word sense disambiguation. In Proceedings of the ACL-2000 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Copora (pp. 142-147).

Lee, J. H., Cho, H. Y., & Park, H. R. (1999). n-Gram-based indexing for Korean text retrieval. Information Processing and Management, 35, 427-441.

Lehtokangas, R., Airio, E., & Järvelin, K. (2004). Transitive dictionary translation challenges direct dictionary translation in CLIR. Information Processing and Management, 40, 973–988.

Levow, G., Oard, D. W., & Resnik, P. (2005). Dictionary-based techniques for cross-language information retrieval. Information Processing and Management, 41, 523–547.

Li, Q., Chen, Y. P., Myaeng, S., Jin Y., & Kang, B. (2009). Concept unification of terms in different languages via web mining for Information Retrieval. Information Processing and Management, 45, 246–262.

Mihalcea, R., & Moldovan, D. (2000). Semantic Indexing using WordNet Senses. In Proceedings of the ACL-2000 Workshop on Recent Advances in Natural Language Processing and Information Retrieval (pp. 35-45).

Miller, G. A. (1995). WordNet: A Lexical Database. Communication of ACM, 38(11), 39-41

Oard, D. W., He, D., & Wang, J. (2008). User-assisted query translation for interactive cross-language information retrieval. Information Processing and Management, 44, 181–211.

Sakai, T., Shima, H., Kando, N., Song, R., Lin, C., Mitamra, T., & Sugimoto, M. (2010). Overview of NTCIR-8 ACLIA IR4QA. In Proceedings of the eighth NTCIR workshop on Advanced Cross-lingual Information Access, Information Retrieval for Question Answering. Tokyo: National Institute of Informatics. Available: http://research.nii.ac.jp/ntcir/workshop/.

Vallet, D., Fernández, M., & Castells, P. (2005). An Ontology-Based Information Retrieval Model. In A. Gómez-Pérez et al. (Eds.), Euroopean Semantic Web Conference. LNCS (3532, pp. 455-70). Berlin: Springer-Verlag.

Wang, Y., Tsai, R. T., & Hsu, W. (2009). Web-based pattern learning for named entity translation in Korean–Chinese cross-language information retrieval. Expert Systems with Applications, 36, 3990–3995.

Wang, Y., Tsai, R. T., Yen, H., & Hsu, W. (2007). Korean-Chinese Cross-Language Information Retrieval Based on Extension of Dictionaries and Transliteration. In Proceedings of ROCLING 2007. Available: http://www.aclclp.org.tw/rocling/rocling2007.php
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top