(3.236.118.225) 您好!臺灣時間:2021/05/16 15:07
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

: 
twitterline
研究生:許佑鴻
研究生(外文):You-Hong SYU
論文名稱:運用詞彙權重與意圖分析技術提升搜尋引擎精準度之研究
論文名稱(外文):A Research Based on Weights of Words and Intentions Analysis to Enhance the Accuracy of Search Engines
指導教授:黃仁鵬黃仁鵬引用關係
指導教授(外文):Jen-peng Huang
學位類別:碩士
校院名稱:南台科技大學
系所名稱:資訊管理系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:102
畢業學年度:101
語文別:中文
論文頁數:121
中文關鍵詞:網頁內容探勘文字探勘TF-IDF演算法5W1H意圖分析中研院斷詞系統
外文關鍵詞:Web Content MiningText MiningTF-IDF5W1HIntentions AnalysisCKIP
相關次數:
  • 被引用被引用:0
  • 點閱點閱:298
  • 評分評分:
  • 下載下載:26
  • 收藏至我的研究室書目清單書目收藏:2
由於網際網路的興起,並隨著科技日新月異,全世界的資料量也逐年攀高,面對如此龐大的資料量,儘管使用搜尋引擎來從網路上搜尋資訊,其搜尋結果也未必是人們真正想要的,傳統的搜尋引擎是使用關鍵字去搜尋,未能有效的瞭解使用者的需求,因此本研究提出一個能判斷意圖之搜尋引擎平台,以幫助使用者在這龐大的資料量搜尋到想要的資訊。
本研究的目的是研發一個增進搜尋引擎獲取資訊精準度之平台,並提出一種利用網頁探勘(web mining)與斷詞系統技術整合的方法來提供搜尋引擎提升精準度的應用;為了瞭解使用者輸入搜尋語句的意圖,本研究利用5W1H分析法來剖析,並以TF-IDF演算法來為做各網頁做關鍵度排名。根據5W1H分析法與TF-IDF演算法的使用概念,需先將語句與網頁做斷詞處理,才能發揮其作用,本研究以中研院斷詞系統(CKIP)作為系統的斷詞模組,以進行系統的架構設計與研究。由實驗結果可證實本研究所提出之系統方法可以提升搜尋結果的正確性。
本研究的搜尋引擎平台不以單一或多個關鍵字做為搜尋重點,避免花費更多時間來找尋不符合意圖的資料,此搜尋方法亦能用在各種資訊領域,可以搭配知識管理系統進行知識搜尋,也可搭配線上問答系統進行智慧型回答,這都是本研究所追求的貢獻。
Due to the vigorous development of the Internet, the amount of data around the world is rising every year. Although we use the search engines to search for information on the Internet, the search results may not be useful to users. People like to use keywords to search in traditional search engines, but the search results do not meet the needs of users. Therefore, in this thesis we propose a search engine platform to distinguish the intentions of the users in order to help users to find the information they need.
We mainly develop a search engine platform which integrates with intentions analysis to improve accuracy of search results by using a web mining and a Chinese word segmentation technique. In this thesis a system with Chinese word segmentation is employed CKIP (Chinese Knowledge Information processing) system for conducting system design and research. In order to improve the accuracy of searching, we use the 5W1H to analyze searched strings to understand the intentions of users and use the TF-IDF weights values of keywords and similar questions as the two-stage weight ranking for each web page. The experimental results indicate that the proposed approach outperform a significant improvement on the accuracy of search engines.
摘  要 I
ABSTRACT II
誌  謝 III
目  次 IV
表目錄 VII
圖目錄 IX
第一章 緒論 1
1.1 研究背景 1
1.2 研究動機 2
1.3 研究目的 4
1.4研究流程與說明 5
1.5論文架構 7
第二章 文獻探討 8
2.1 資料探勘 8
2.2 知識發掘 12
2.3 網頁探勘 14
2.3.1 網頁內容探勘 14
2.3.2 網頁使用探勘 15
2.3.3 網頁結構探勘 17
2.4 文字探勘 17
2.5 自然語言 18
2.5.1 自然語言定義 19
2.5.2 自然語言處理 19
2.6 中文斷詞 19
2.6.1 詞庫式斷詞法 20
2.6.2 統計式斷詞法 20
2.6.3 混合式斷詞法 21
2.6.4 中央研究院中文斷詞系統 21
2.7 關鍵字權重計算 23
2.7.1 TF-IDF技術 24
2.8 問題描述 25
2.8.1 問題描述的類型 25
2.8.2 意圖的定義 27
2.8.3 意圖的萃取 27
2.9 5W1H分析法 28
2.10 搜尋的召回率(RECALL)與精確率(PRECISION) 30
第三章 研究方法 31
3.1 方法論程序 33
3.2 意圖對應詞庫 35
3.3 中文句型詞庫 35
3.4 5W1H同義句型樣式庫 38
3.5 中文斷詞處理 42
3.6 網頁的搜尋與擷取 44
3.7 意圖分析模組 45
3.8 文字探勘模組 47
3.9 結果呈現模組 49
3.10 研究評估方法 50
第四章 系統開發與實作 51
4.1 實驗環境 51
4.2 資料庫說明 51
4.3 實驗設計與描述 55
4.3.1 實驗各個功能模組 56
4.3.2實驗整體功能模組 62
4.4 系統介面 63
第五章 實驗評估 64
5.1 評估結果 65
5.1.1電子資訊類 66
5.1.2一般生活類 79
第六章 結論與未來研究 95
6.1 結論 95
6.2 未來研究 97
參考文獻 98
附錄A 簡化詞類與精簡詞類對應表 104
附錄B 中研院平衡語料庫詞類標記集整理表 106
1. Chakrabarti, S., and Kaufmann, M. Mining the web: Discovering knowledge for hypertext data. San Francisco San Francisco,CA, USA:Morgan-Kauffman Publishers 2003.
2. Chen, K.-J., and Liu, S.-H. "Word Identification for Mandarin Chinese sentences," Proceedings of Fifth International Conference on Computational Linguistics Vol. 1992, pp 101-107.
3. Chen, M.-S., Han, J., and Yu, P.S. "Data Mining: An Overview from a database Perspective," IEEE Transaction on Knowledge and Data Engineering Vol. 8, No. 6, 1996, pp 866-833.
4. Chen, M.-S., Park, J.S., and Yu, P.S. "Data Mining for Path Traversal Patterns in a web Environment," Proceedings of the 16th ICDCS Vol. 1996, pp 385-392.
5. Cooley, R., Mobasher, B., and Srivastava, J. "Web Mining: Information and Pattern Discovery on the World Wide Web," Proceedings of the 9th IEEE International Conference on Tools with Artificial Intelligence (ICTAI’97) Vol. 1997, pp 558-567.
6. Etzioni, O. "The World Wide Web: quagmire or gold mine?," Communicationsof The ACM Vol. 39, No. 11, 1996, pp 65-68.
7. Fu, Y. "Data Mining: Tasks, techniques and applications," IEEE Potentials Vol. 1997, pp 18-20.
8. Group, H., F., and Owrang, M.M. "Database mining: Discovering new knowledge and cooperative advantage," Information System Management Vol. 12, No. 4, 1995, pp 26-33.
9. Hui, S.C., and Jha, G. "Data mining for Customer Service Support," Information and Management Vol. 38, 2000, pp 1-13.
10. Kosala, R., and Blockeel, H. "Web Mining Research:A Survey," The Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Vol. 2, No. 1, 2000, pp 1-15.
11. Li., C., and A., S. "Mandarin Chinese: A functional reference grammar," in: Thompson, Berkeley and LosAngeles University of California Press, 1981.
12. Manaris, B. Advanced in Computers, 第47卷的「從人-機交互的角度看自然語言處理」, 1999.
13. Mobasher, B., Cooley, R., and Srivastava, J. "Automatic Personalization Based on Web Usage Mining " Communications of The ACM Vol. 43, 2000, pp 142-151.
14. Mullich, J. "Data Mining: Making Data Meaningful," IEEE Computer Application in Power Vol. 1999, pp 18-25.
15. Nahm, U.Y., and Mooney, R.J. "Using Information Extraction to Aid the Discovery of Prediction Rules from Text," Proceedings of the KDD(Knowledge Discovery in Databases)-2000 Workshop on Text Mining, Boston, MA, , Vol. 2000, pp 51-58.
16. Nie, J.-Y., and Brisebois, M. "On Chinese Text Retrieval," Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval Vol. 1996, pp 225-233.
17. Perruchet, P., and Peereman, R. "The exploitation of distributional information in syllable processing," J. Neurolinguistics Vol. 17, 2004, pp 97-119.
18. Powers, D.M.W. "Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation," Journal of Machine Learning Technologies Vol. 2 (1), 2012, pp 37-63.
19. Rijsbergen, C.J.v. Information retrieval, Butterworth, London, 1979.
20. Salton, G., and Buckley, C. "Term-weighting approaches in automatic text retrieval," Information Processing & Management Vol. 24, No. 5, 1988, pp 513-523.
21. Salton, G., and McGill, M.J. Introduction to modern information retrieval McGraw-Hill, 1983.
22. Shen-MinWang "Using Natural Language Question Structure Features to Improve List-Information Search," in: Department of Computer Science and Information Engineering, National Cheng Kung University, 2012.
23. Sprout, R., and Shih, C. "A Statistical Method for Finding Word Boundaries in Chinese Text," Processing of Chinese and Oriental Languages Vol. 1990, pp 336-351.
24. Usama, F., Gregory, P.-S., and Padhraic, S. "From Data Mining to Knowledge Discovery in Databases," Vol. 1996, pp 1-34.
25. Wang, B., and Liu, Z. "Web Mining Research," Proceedings of 5th International Conference on Computational Intelligence and Multimedia Applications (ICCIMA'03) Vol. 2003.
26. Yasusi, K. "A Method of geographical name extraction from Japanese text for thematic geographical search," Proceedings of the eighth international conference on Information and knowledge management Vol. 1999, pp 46-54.
27. 丁一賢 "運用網頁探勘為基礎的個人化技術於網路廣告之探討," in: 資訊管理學系, 國立彰化師範大學, 碩士論文, 2002.
28. 中央研究院中文斷詞系統," http://ckipsvr.iis.sinica.edu.tw/.
29. 中央研究院詞庫小組," http://godel.iis.sinica.edu.tw/CKIP/.
30. 牛維娟、李錫捷 "應用於USENET 之Q&A 系統之研究與設計," in: 資訊管理系, 私立元智大學, 碩士論文, 2003.
31. 朱家儀 "五個W和一個H的探索-陳氏的5W1H," in: 劇本創作研究所, 臺北藝術大學, 碩士論文, 2013.
32. 余明興、賴亦傑 "應用多詞及多詞性語言模型的中文斷詞及詞性標記方法," in: 資訊網路多媒體研究所, 中興大學, 碩士論文, 2011.
33. 吳長興 "應用資料提勘技術建立顧客關係管理之行銷策略," in: 工程科學研究所, 國立成大學, 碩士論文, 2004.
34. 李兆偉、廖健峰、林榮章、林宏軒 "條件式關聯規則與序列規則探勘系統," in: 專題研究報告, 逢甲大學, 資訊工程學系, 2006.
35. 林春成 "植基於網頁探勘之創新產品發展:以線上音樂服務為例," in: 資訊管理系, 朝陽科技大學, 碩士論文, 2010.
36. 林盈霖 "結合HITS之偏好瀏覽路徑探勘," in: 資訊管理學系, 靜宜大學, 碩士論文, 2009.
37. 孫初豪 "使用隨機派翠網路之線上網頁推薦系統," in: 資訊工程學系, 淡江大學, 博士論文, 2011.
38. 財團法人台灣網路資訊中心-TWNIC "歷次個人及家庭上網行為調查趨勢分析," http://www.twnic.net.tw/download/200307/200307index.shtml.
39. 張西振 "模式:常識的結構化——以5W1H為例 ", http://huagw.blog.hexun.com.tw/23322885_d.html.
40. 張忠琦 "資料探勘於網站使用與網頁內容探索之研究," in: 資訊管理學系, 私立天主教輔仁大學, 碩士論文, 2001.
41. 郭耀煌、李政道 "在Twitter上使用文字探勘技術尋找具有影響力的使用者," in: 醫學資訊研究所, 國立成功大學, 碩士論文, 2012.
42. 陳克健、陳正佳、林隆基 "中文語句的研究-斷詞與構詞," 台北:中央研究院, 1986.
43. 陳育銘 "結合5W1H與本體論進行網路資料探勘技術之研究," in: 資訊管理學系研究所, 南華大學, 碩士論文, 2008.
44. 陳尚蓉、柯禹伸 "使用文字探勘技術預測股票漲跌之研究," in: 電子商務研究所, 北臺灣科學技術學院, 碩士論文, 2011.
45. 喻欣凱 "運用支援向量機與文字探勘於股價漲跌趨勢之預測," in: 資訊管理學系, 天主教輔仁大學, 碩士論文, 2008.
46. 喻英雲 "以本體論結合意圖為基之智慧型搜尋引擎之研究," in: 資訊管理學系研究所, 南華大學, 碩士論文, 2008.
47. 彭文正譯、Berry, M.J.A. 資料採礦:顧客關係管理暨電子行銷之應用, 數博網資訊出版, 2001.
48. 智库百科MBA "5W1H分析法," http://wiki.mbalib.com/wiki/5W1H.
49. 游瑋婷 "創新三義觀光意象發展策略," in: 觀光與休閒管理研究所, 嶺東科技大學, 碩士論文, 2012.
50. 琺济‧伊斯坦大 "整合自然語言處理與原住民族知識庫系統之研究," in: 電子工程系, 國立高雄應用科技大學, 博士論文, 2011.
51. 黃阡廷 "基於網頁結構探勘之資料處理程序," in: 資訊工程系, 南台科技大學, 碩士論文, 2010.
52. 黃純敏、張晏嘉 "改善統計式中文斷詞效能應用於即時網頁影像註解," in: 資訊管理系, 雲林科技大學, 碩士論文, 2012.
53. 楊士德 "民間造船廠建立軍艦商維制度之研究," in: 企業管理學系, 國立中山大學, 碩士論文, 2004.
54. 楊宸彥 "運用剖析概念圖進行中文詢答之研究," in: 資訊工程學, 國立台灣大學, 碩士論文, 2002.
55. 楊榮宗 "資料處理技術應用新風雲," 育達學報 Vol. 12, 1998, pp 149-157.
56. 楊鎮華, and 范瓊文 "主題概念階層模型:概念式搜尋," in: 網路學習科技研究所, 國立中央大學, 碩士論文, 2005.
57. 鄒明城、韓慧林、邱景星 "網頁地理資訊檢索與探勘—以民宿主題為例," 資訊管理學報 Vol. 17, No. 3, 2010, pp 19-44.
58. 廖冠智、葉枋瑀 "以KJ法與文字探勘探究詩詞圖像之語意網絡," in: 數位學習科技研究所, 國立新竹教育大學, 碩士論文, 2012.
59. 劉千里 "網頁探勘技術應用於論壇用戶文章-以mobile01電影版為例," in: 企業管理學系, 國立臺北大學, 碩士論文, 2011.
60. 劉月華 實用現代漢語語法, 商務印書管出版, 2004.
61. 劉錦興 "台電事故案例系統之設計及群集演算法於文件搜尋之應用," in: 電機工程系所, 臺北科技大學, 碩士論文 2011.
62. 蔡向榮、張宏光 "權重方法之評估與選取," in: 資源管理研究所, 國防管理學院, 1998.
63. 蔡憶佳、林孟翰 "基於中文斷詞技術之新聞網頁分類系統," in: 資訊工程學系, 淡江大學, 碩士論文, 2011.
64. 羅元禧 "關聯規則在Web Mining的應用研究," in: 企業管理學系研究所, 國立臺北大學, 2003.
連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top