跳到主要內容

臺灣博碩士論文加值系統

(18.97.9.169) 您好!臺灣時間:2025/02/09 21:49
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:盧永峰
研究生(外文):Yung-Fong Lu
論文名稱:網頁文件分類與過濾方法之研究
論文名稱(外文):A research on web page classifying and filtering
指導教授:黃玄煒黃玄煒引用關係
學位類別:碩士
校院名稱:國立臺灣海洋大學
系所名稱:電機工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2004
畢業學年度:92
語文別:中文
論文頁數:48
中文關鍵詞:K個最近相鄰法
相關次數:
  • 被引用被引用:1
  • 點閱點閱:136
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:1
本論文提出一套網頁資訊分類方法,協助使用者有效的擷取與過濾網頁資訊。此方法依據資訊擷取領域裡TFIDF(Term Frequency-Inverse Document Frequency)的詞彙權重及K個最近相鄰法的概念為基礎,以發展出分類系統。藉由使用者定義的分類項目,以及多語言詞彙對照表,以自動分類搜尋回的網頁,並提供使用者各類目可能出現的詞彙。此外,此方法亦計算詞彙與分類類別的相關係數,來篩選特徵詞彙,以增加分類系統的效率。
第一章 序論…………………………………………………………1
1.1研究背景與動機…………………………………………………1
1.1.1網際網路蓬勃發展……………………………………………1
1.1.2瀏覽網頁成為上網主要活動…………………………………2
1.1.3搜尋引擎的使用………………………………………………2
1.2 研究目的與方法…………………………………………………4
1.3 論文架構…………………………………………………………4
第二章相關研究與歷史介紹…………………………………………6
2.1 資訊擷取模型……………………………………………………6
2.1.1布林模型(Boolean Model)……………………………………6
2.1.2向量空間模型(Vector Space Model)………………………7
2.1.3機率模型(Probabilistic Model) …………………………10
2.2 詞彙權重法………………………………………………………12
2.3 文件分類…………………………………………………………15
2.4 特徵字擷取(Feature Selection)……………………………17
2.5 效能評估方法……………………………………………………18
2.6系統架構…………………………………………………………19
第三章 網頁分類與過濾……………………………………………21
3.1分類資料的建立…………………………………………………22
3.1.1多語言詞彙對照………………………………………………22
3.1.2特徵詞彙選取…………………………………………………23
3.1.3 建立分類表…………………………………………………25
3.2 網頁分類與過濾………………………………………………26
3.2.1投票權重值的計算……………………………………………27
3.2.2 分類投票……………………………………………………29
3.2.3 分類結果過濾與分類表更新………………………………31
第四章 實例應用與分析……………………………………………33
第五章 結論跟未來…………………………………………………38
參考文獻……………………………………………………………39
[1] 資策會電子商務研究所FIND, www.find.org.tw
[2] United Nations Conference on Trade and Development, E-Commerce and develeopment report. 2003.
[3] S. Lawrence, C.L. Giles. Accessibility of information on the web. Nature, 400(6740):107-109, 1999.
[4] S. Lawrence, C.L. Giles. Searching the World Wide Web. Science, 280(5360):98-100, 1998.
[5] Google. www.google.com
[6] IDC. www.idc.com
[7] NetRatings. www.nielsen-netratings.com
[8] M.R.Nelson. We have the information you want, but getting it will cost you!: held hostage by information overload. Crossroads, 1(1):11-15, 1994.
[9] B.Y. Richard, R.N. Berthier. Modern Information Retrieval. Addison-Wesley, 1999.
[10] G. Salton, Introduction to modern information retrieval. McGraw-Hill, 1983.
[11] G. Salton. Automatic text processing. Addison-Wesley, 1989.
[12] E. Greengrass. Information Retrieval: A Survey. 2000., www.cs.umbc.edu/cadip/pubs.html
[13] F. Crestani, I. Campbell et al., “Is This Document Relevant? . . . Probably”: A Survey of Probabilistic Models in Information Retrieval. ACM Computing Surveys, 30(4): 528-552 , 1998.
[14] C. J. van Rijsbergen. Information Retrieval. Butterworths,1979
[15] Robert W. P. Luk, K. L. Kwok. A Comparison of Chinese Document Indexing Strategies and Retrieval Models. ACM Transactions on Asian Language Information Processing, 1(3):225-268, 2002.
[16] Y. Yang, X. Liu. A Re-examination of Text Categorization Methods. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR'99`, 42-49, 1999.
[17] C. Cortes, V. Vapnik. Support-Vector Networks. Machine Learning, 20:273-297, 1995.
[18] T. M. Mitchell, Machine Learning. McGraw Hill, 1997.
[19] Y. Yang, J.P. Pedersen. A Comparative Study on Feature Selection in Text Categorization. Proceedings of the Fourteenth International Conference on Machine Learning ICML'97, 412-420, 1997.
[20] S. Chakrabarti. Mining the Web Discovering Knowledge from Hypertext Data. Morgan-Kaufmann, 2002.
[21] A. Akkus, H. A. Guvenir. K nearest neighbor classification on feature projections. Proceedings of ICML’96, Italy, 12-19, 1996.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top