跳到主要內容

臺灣博碩士論文加值系統

(44.200.140.218) 您好!臺灣時間:2024/07/26 01:33
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:蔡聿涵
研究生(外文):TSAI, YU-HAN
論文名稱:基於維基百科之詞組擴增方法與搜尋應用
論文名稱(外文):Document Term Expansion and Search Applications based on Wikipedia
指導教授:禹良治禹良治引用關係
指導教授(外文):Yu, Liang-Chih
口試委員:張如瑩禹良治郭文嘉
口試委員(外文):Zhang, Ru-YingYu, Liang-ChihGuo, Wen-Jia
口試日期:2022-06-09
學位類別:碩士
校院名稱:元智大學
系所名稱:資訊管理學系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2022
畢業學年度:110
語文別:中文
論文頁數:45
中文關鍵詞:卡方檢定維基百科詞彙相似度詞彙擴展
外文關鍵詞:PMI
相關次數:
  • 被引用被引用:0
  • 點閱點閱:143
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
台灣自有網站眾多,唯有讓使用者搜索體驗良好才能擁有較高的黏著度,吸引使用者重複拜訪網站,因此優化搜索引擎是一大關鍵。過去的方法中有擴充使用者搜索詞彙、推薦擁有相似偏好的使用者相關的東西、推薦熱門搜索關鍵字等。
在此類的研究中,針對文章內容的詞彙擴充較少被拿出來討論,當網站內的文章內容詞彙不多時,很難用單一詞彙搜索到結果,要讓使用者輸入不同的詞彙也能找到相關的文章。
本論文透過網路爬蟲蒐集維基百科詞彙做擴充的語料庫,並透過PMI、卡方檢定兩種方法計算出擴充詞組,藉由文化部網站的文章作範例進行方法的測驗與分析。
研究結果發現用PMI計算出的擴充詞組與用卡方檢定計算出的擴充詞組結果很相似,準確度都達7成。進一步比較有擴充詞彙文章與沒有擴充詞彙文章,發現有擴充詞彙文章返回結果較多,但由於詞彙同時包含很多意義,部分擴充結果會偏離文章主題。

There are many company websites in Taiwan, we need to make users nice experience to keep continuously client relationship, and they will frequently visit.
There are few research talk about query expansion of content. If the length of an article is too short, users are unable to search for pages in one word. It’s important to make users seach easier.
This rearch uses Wikipedia to collect corpus, and uses PMI and chi-square to calculate each word’s similarity to expand word.
Eventually, take Ministry of Culture as example to measure different ways.
The results of the study found that the PMI word expansion combination were very similar to chi-square test word expansion combination, with an accuracy of about 70%.
Further comparison of expanded vocabulary articles and without expanded vocabulary articles shows that expanded vocabulary articles return more results. Specifically, the vocabulary contains many meanings at the same time, some of the expanded results will deviate from the theme of the article.

書名頁 i
論文口試委員審定書 ii
中文摘要 iii
英文摘要 iv
誌謝 v
目錄 vi
表目錄 viii
圖目錄 ix
第一章 緒論
1.1研究背景
1.2研究動機與目的
1.3研究架構
第二章 文獻探討
2.1維基百科
2.2斷詞系統(Word Segmentation System)
2.3查詢擴展(Query Expansion)
2.4 詞彙相似度word similarity
2.5 Elasticsearch
2.6 Python Flask API
第三章 研究方法
3.1實驗流程
3.2 維基百科專有名詞擷取
3.3 詞彙相似度計算
3.3.1 PMI
3.3.2卡方檢定
3.3.3交集
3.4文化部資料前處理
3.5 Elasticsearch匹配文章相關關鍵字
第四章 實驗結果與分析
4.1實驗資料與評估標準
4.2 模型參數設定
4.3實驗結果
第五章 結論與未來研究方向

中文文獻
1.邱紹哲 (2019)。財經新聞標題情感維度預測之研究。元智大學資訊管理學系。
2.闕銘威 (2016)。以詞彙擴展和地域性社群網路維基礎之見解探勘方法。逢甲大學資訊工程學系。
3.吳家豪 (2020)。擴增維基百科條目之語言資訊。國立臺灣海洋大學資訊工程學系。
4.顏安孜 (2015)。中文部落格文章之相關性擷取語意見傾向分析之研究。國立臺灣師範大學資訊工程學系。
5.莊孟杰 (2018)。英文維基百科條目之專有名詞及語意類別判斷。國立臺灣海洋大學資訊工程學系。
6.陳柏君 (2015)。利用維基百科與語意資源提昇自動問答技術效能。國立臺灣海洋大學資訊工程學系。
7.林建良 (2018)。熱門關鍵字改進搜尋引擎排名的優化策略。大同大學資訊經營研究所。
英文文獻
8.Jessie Ooi, Xiuqin Ma, Hongwu Qin, Siau Chuin Liew (2015). A Survey of Query Expansion, Query Suggestion and Query Refinement Techniques. International Conference on Software Engineering and Computer Systems (ICSECS) pp.112-117
9.Yang Tao, Zhu Cui, Zhang Jiazhe (2019). Research on Keyword Extraction Algorithm Using PMI and TextRank. International Conference on Information and Computer Technologies (ICICT) pp.5-9
10.Wei Guan, Pengzhou Zhang (2014). Research and Application of news-text Similarity Algorithm based on Chinese Word Segmentation. International Conference on Consumer Electronics, Communications and Networks.pp.484-487
11.Badhya Sourabh S, Prasad Akshar; Rohan Shetty, Yashwanth Y S, Deepamala N, Shobha G (2019). Natural Language to Structured Query Language using Elasticsearch for descriptive columns. International Conference on Computational Systems and Information Technology for Sustainable Solution (CSITSS) pp.1-5
12.Kumar Ritesh, Bhanodai Guggila, Pamula Rajendra (2017). Social book search: Reranking based on Document and Query Expansion with Keyword Filtering. International Conference on Advanced Computing and Communication Systems (ICACCS) pp.1-5
13.Hairong Wang, Ying Guo (2017). The Research and Application of Domain-Ontology-Oriented flexible Query method. IEEE International Conference on Computer and Communications (ICCC) pp.2603-2606
14.Han Lu, Zhu Ligu (2020). Design and Implementation of Elasticsearch for Media Data. International Conference on Computer Engineering and Application (ICCEA) pp. 137-140
15.Chi-Yen Chen, Wei-Yun Ma (2017). Embedding wikipedia title based on its wikipedia text and categories. International Conference on Asian Language Processing (IALP) pp. 146-149
16.Schmidt Andreas (2017). Detection and Graphical Visualization of Relationships between Entities in Wikipedia. Internet Technologies and Applications (ITA) pp.24-28
17.Takeda Masahiro, Kobayashi Nobuyuki, Kitagawa Fumio, Shiina Hiromitsu (2016). Classification of Comments by Tree Kernels Using the Hierarchy of Wikipedia for Tree Structures. IIAI International Congress on Advanced Applied Informatics (IIAI-AAI) pp.123-127
18.Yuan Lichi (2019). Research on Statistical Word Clustering Methods. International Conference on Machine Learning, Big Data and Business Intelligence (MLBDBI) pp.320-324
19.KeshavaReddyGari Sai Prathyusha; B. Eswara Reddy (2021). Normalization Methods for Multiple Sources of Data. International Conference on Intelligent Computing and Control Systems (ICICCS) pp.1013-1019
20.Stephen E. Robertson, Steve Walker, Micheline Hancock-Beaulieu, Aarron Gull, Marianna Lau (1992). Okapi at TREC : 21-30
21.Shannon C. E. (1948). A mathematical theory of communication. The Bell System Technical Journal pp.379-423.
22.Robert M. Fano (1949). The Transmission of Information. Research Laboratory of Electronics. pp.9-10
23.Pearson K(1904). Report on Certain Enteric Fever Inoculation Statistics. pp.1243-1246
24.Kerber Randy (1992). ChiMerge: Discretization of Numeric Attributes. pp.123-128
25.Kohavi, R., & Provost, F. (1998). Glossary of terms. Machine Learning, 30(2-3), pp. 271-274.
26.Pual Jaccard (1912). The Distribution of the Florain in the Alpine Zone. The New Phytologist, vol. 11, no. 2, 1912, pp. 37–50. JSTOR,
27.Robertson, S. E, Sparck Jones, K (1976). Relevance Weighting of Search Terms. The American Society for Information Science,27(3), pp.129-146.

電子全文 電子全文(網際網路公開日期:20270715)
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top