跳到主要內容

臺灣博碩士論文加值系統

(18.97.14.80) 您好!臺灣時間:2024/12/09 00:27
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:游舒涵
研究生(外文):Shu-Han Yo
論文名稱:網頁資料相關詞擷取
論文名稱(外文):Mining Related Terms from Web Pages
指導教授:吳昇吳昇引用關係
指導教授(外文):Sun Wu
學位類別:碩士
校院名稱:國立中正大學
系所名稱:資訊工程所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2006
畢業學年度:94
語文別:中文
論文頁數:43
中文關鍵詞:相關詞搜尋引擎資料探勘
外文關鍵詞:data miningrelated termsearch engine
相關次數:
  • 被引用被引用:2
  • 點閱點閱:357
  • 評分評分:
  • 下載下載:86
  • 收藏至我的研究室書目清單書目收藏:6
隨著網際網路的快速發展,再加上寬頻網路的日趨普及,網路資源急劇增長,人們可獲取的網路資源越來越多,因此在這含有大量資料的全球資訊網之下,有釵h的資訊檢索研究在對其作資料探勘,而這篇論文也是藉由全球資訊網的大量網頁資料來做相關詞的擷取。
本論文是先將大量的網頁資料做分析,一開始會定義不同的網頁切割單位,之後對切割單位進行斷詞動作,接著將斷詞後的詞彙兩兩配對,當對目前所有的網頁資料都做完分析後,開始對分析結果做統計,並且以詞彙與詞彙的共同出現次數(co-occurrence)來當作計算兩詞之間相關性的基準。利用產生出來的相關詞,可以提升搜尋引擎的正確性,幫助使用者找到更精確的資訊。
With the fast development of Internet and the popularization day by day of the broadband network, the network resources increase sharply. There are more and more network resources that people can obtain. So under the World Wide Web that includes the massive materials, there are many information retrieval researches that mine the data from it. In this paper, we will mine related terms from web pages under the World Wide Web.
In the paper, first we will make analysis of the massive web pages to define different block definition and cut units from web pages. Afterward we will do word segmentation in the cutting unit, and pair any two words for related term of each other. After analyzing all webpage materials at present, we will count the result and and calculate the relation between two words with the common occurrence number (co-occurrence) of the two words. We can use the related term make the search result more precisely, and help the users to find more precise information.
摘 要 I
ABSTRACT II
致 謝 III
目 錄 IV
圖表目錄 VI
第1章 簡介 1
1.1 網際網路 1
1.2 動機 2
1.3 本文組織 2
1.4 相關研究 3
1.4.1 相關應用 3
1.4.2 相關技術 5
第2章 相關詞分析 7
2.1 相關詞 7
2.2 網頁資料 7
2.3 相關詞分析單位(CO-OCCURRENCE單位) 10
2.4 斷詞 12
2.4.1 中、英文斷詞分析 12
2.4.2 辭典斷詞 13
2.4.3 長詞優先法(Maximum Matching) 14
第3章 中文相關詞擷取 16
3.1 架構 16
3.2 HASH TABLE 18
3.3 單位 20
3.4 斷詞 20
3.5 TERM PAIR 22
3.6 COUNT THE TERM-PAIR 23
3.7 詞關係計算方法 25
第4章 實驗 26
4.1 中文實驗結果 26
4.1.1 不同分數計算方法比較結果 26
4.1.2 不同單位分析比較結果 30
第5章 結論與未來目標 33
5.1 結論 33
5.2 未來目標 34
5.2.1 改善時間 34
5.2.2 相關詞詞庫管理 34
5.2.3 結合搜尋引擎 34
參考資料 35
[1]Hang Cui, Ji-Rong Wen, Wei-Ying Ma. “Probabilistic Query Expansion Using Query Logs.” WWW 2002, May 7 - 11, 2002, Honolulu, Hawaii, USA
[2]Sparck Jones, K. 1971. “Automatic keyword classification for information retrieval.” Butterworths, London, UK
[3]Xu, J. and Croft, W.B. 2000. ” Improving the effectiveness of information retrieval with local context analysis.” ACM Transactions on Information Systems Vol.18, No.1, January 2000, Pages 79-11
[4]Yonggang Qiu and H. P. Frei. “Concept Based Query Expansion.” SIGIR 1993
[5]Wen, J.-R., Nie, J.-Y. and Zhang, H.-J. 2000. “Clustering User Queries of a Search Engine.” WWW10, May 1-5, 2001, Hong Kong
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊