(18.210.12.229) 您好!臺灣時間:2021/03/05 12:15
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:邱志宏
研究生(外文):Rock Chiu
論文名稱:個人網路資訊管理系統及其網頁分類方法之研究
論文名稱(外文):A Reaserch On Personal Web Information Management System And Web Page Classification
指導教授:許銀雄許銀雄引用關係
指導教授(外文):Yin-Hsong Hsu
學位類別:碩士
校院名稱:銘傳大學
系所名稱:資訊管理研究所
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:113
中文關鍵詞:個人網路資訊自動分類技術網頁歷程網頁註解
外文關鍵詞:Personl Web InformationAutomatic Classification TechnologyWeb HistoryWeb Annotation
相關次數:
  • 被引用被引用:12
  • 點閱點閱:352
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:75
  • 收藏至我的研究室書目清單書目收藏:8
隨著WWW上網路多媒體資訊的發展,使得網頁資訊已成為目前網際網路上最豐富的資訊來源,網路使用者通常會依自己的興趣或需求在WWW上蒐集網頁資訊,而這些蒐集下來的網頁資訊就形成了網路使用者的個人網路資訊。隨著使用者的使用,個人網路資訊會逐漸增加,且會越來越複雜。當使用者所蒐集的資訊量超過了使用者所能負擔的範圍時,就會導致使用者管理負擔增加,進而工作效率降低等問題發生,所以就必須有一管理系統來輔助使用者管理及組織個人的網路資訊。
本論文主要在於提出一套個人網路資訊管理的機制,並依據這個機制實作出個人網路資訊管理系統。在本系統中,主要提供了一個外掛於Microsoft IE瀏覽器的操作管理介面方便使用者蒐集以及管理有興趣的網頁,並運用自動分類技術來幫助使用者管理與組織個人網路資訊。在外掛的操作介面中主要提供網頁儲存、加註、管理等功能。而分類功能主要是提供分類機制將使用者所蒐集的網頁依據使用者的興趣加以自動分類。本論文依據個人網路資訊的特性提出一個網頁自動分類機制,利用DF來萃取關鍵字並利用TF來計算關鍵字的權重以符合網頁的特性。另外,網頁連結的歷程可以代表網頁設計者對網頁特性的看法,而網頁加註是使用者對於網頁中部分意義的想法或註解,兩者對於網頁的本質具有很強的代表性。本論文也把它們加入分類的機制中,以便讓網頁分類更正確以及更符合使用者的想法。而經由實驗的結果發現,這些策略對於網頁分類正確性的提昇有不錯的效果。
World Wide Web possesses abundances of information. People rely more and more on it to obtain information. Through WWW, Internet user searches and browses information, and collects information when he feels that it is interesting or useful to him. The collected web information forms the user’s personal web information. According to continuous web usage, the personal web information will increase quickly and will become more and more complex. At last, its complexity would become a heavy burden on users. A personal web information management system that effectively helps users managing their web information would thus be necessary.
In the thesis, a mechanism for managing personal web information is proposed, and a personal web information managing system based on this mechanism is built. In the system, a web page managing interface, pluggble on Microsoft IE, is provided for collecting and managing user’s interested web pages, and an automatic classification technique is provided to classifying collected web pages automatically. The pluggable operating interface mainly provides functions for storing, annotating, and managing web pages. The proposed classification technique uses Document Frequency to identify keywords and uses Term Frequency to calculate keywords’ weight. In addition, hyperlink sequences and annotations of a web page strongly represent the opinion of web designer and users to the page respectively. They are both employed in the automatic classification mechanism for improving the effectiveness of the classification. Through some experiments, these strategies are found to be positive for improving the accuracy of web page classification.
目 錄
中文摘要 I
英文摘要 II
誌謝 IV
目錄 V
表目錄 VII
圖目錄 VIII
第一章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的 4
1.3 論文架構 5
第二章 文獻探討 6
2.1 複雜資訊空間與WWW 6
2.1.1 複雜資訊空間(Complex Information Space) 6
2.1.2 網路上的複雜資訊空間-WWW 8
2.2 個人網路資訊空間(Personal Web Information Space) 11
2.3 自動分類技術(Automatic Classification) 13
2.3.1 布林模式(Boolean Model) 15
2.3.2 向量空間模式(Vector Space Model) 16
2.3.3 機率模式(Probabilistic Model) 18
2.3.4 TFIDF關鍵字權重計算 19
2.3.5 分類效能評估方法 21
2.4 個人網路資訊空間管理相關技術 23
2.4.1 Bookmark管理程式 23
2.4.2 網頁加註(Web Annotation) 25
第三章 系統分類方法 28
3.1 系統分類架構 28
3.2 訓練資料的蒐集 29
3.3 資料訓練-分類詞庫的建立 31
3.3.1 前置文字處理 31
3.3.2 關鍵字的萃取 34
3.3.3 關鍵字權重的計算 34
3.4 資訊的分類 38
3.5 資訊的重新訓練 42
第四章 系統架構與功能 44
4.1 系統架構 44
4.2 系統開發方法 51
4.3 系統功能 54
4.3.1 個人資訊蒐集子系統 54
4.3.2 資訊分類子系統 58
第五章 實驗設計 66
5.1 實驗設計 66
5.2 實驗項目 69
第六章 系統實驗結果與分析 70
6.1 分類效能 70
6.2 網頁歷程與註解效用 79
6.3 網頁歷程權重計算方式實驗 85
6.4 重新訓練實驗 88
6.5 訓練資料量的變化 91
第七章 結論與未來研究方向 93
7.1 結論 93
7.2 研究限制 96
7.3 未來研究方向 97
參考文獻 98
中文部分 98
英文部分 98
附錄 101
附錄A:中央研究院CKIP中文斷詞程式詞類標記表 101
附錄B:分類實驗資料 103
表目錄
表3-1 資料訓練結果 37
表6-1 分類實驗結果 71
表6-2 框架網頁與各類別相似度均很低甚至為零 72
表6-3 User B的天然災害類別關鍵字 73
表6-4 User C的新聞類別及搜尋引擎類別關鍵字 75
表6-5 織夢搜尋網與各類別的相似度 75
表6-6 使用者D及使用者E所蒐集的小說網頁(訓練資料) 76
表6-7 使用者D及使用者E的小說類別的關鍵字 77
表6-8 不同權重計算方式實驗結果 80
表6-9 使用者F的散文類別關鍵字 81
表6-10 未加入以及加入網頁註解的分類計算 82
表6-11 使用者A所走過的路徑 83
表6-12 未加入網頁歷程的相似度計算 84
表6-13 加入網頁歷程後的相似度計算 84
表6-14 六組實驗資料在不同網頁歷程權重計算方法的結果 87
表6-15 原訓練與重訓練分類之比較 89
表6-16 不同數量訓練資料分類結果表 (取樣30次) 92
表A-1 詞類標記表 102
表B-1 受測者所蒐集的類別 103
表B-2 使用者A∼C的資料訓練結果 106
表B-3 使用者D∼F的資料訓練結果 110
表B-4 使用者A的原訓練與重訓練結果 113
圖目錄
圖2-1 使用者忍受的資訊量 8
圖2-2 Hy+系統 10
圖2-3 文件自動分類的步驟 13
圖2-4 文字處理步驟 14
圖2-5 Cosine 大小為dj與q之間的相關程度 18
圖2-6 字彙出現頻率與其重要性的關係 19
圖2-7 微軟公司的IE瀏覽器使用”我的最愛”來管理 24
圖2-8  EQUILL公司的網頁加註工具 27
圖2-9 市面上大部分網頁加註軟體的運作模式 27
圖3-1 系統分類架構 29
圖3-2 由IE匯出的Bookmark檔內容 30
圖3-3 前置文字處理 31
圖3-4 中央研究院的CKIP中文斷詞程式 33
圖4-1 系統架構 45
圖4-2 網頁歷程記錄模組所記錄的路徑 46
圖4-3 網頁歷程記錄模組 46
圖4-4 網頁註解模組 47
圖4-5 資訊加入模組 47
圖4-6 管理模組 48
圖4-7 訓練資料調整模組 49
圖4-8 資料滙入模組 49
圖4-9 資料訓練模組 50
圖4-10 分類模組 50
圖4-11 個人資訊蒐集子系統所實作的功能模組 52
圖4-12 資訊分類子系統所實作的功能模組 53
圖4-13 個人網路資訊管理列 54
圖4-14  Google搜尋功能 55
圖4-15 網頁加註筆功能 57
圖4-16 資訊分類子系統 58
圖4-17 網頁資訊的存取 59
圖4-18 匯入訓練書籤記錄檔 60
圖4-19 啟動Crawler程式抓取網頁並建立資訊樹 60
圖4-20 管理模組功能 61
圖4-21 資料訓練處理 62
圖4-22 資訊分類處理 64
圖4-23 資訊搜尋處理 65
圖6-1 分類實驗結果 71
圖6-2 框架網頁沒有足夠的文字資訊 72
圖6-3 不同權重計算方式實驗結果 79
圖6-4 使用者F在網頁上標記重點 81
圖6-5 不同網頁歷程權重計算方法比較 86
圖6-6 原訓練與重訓練分類之比較 89
圖6-7 不同數量訓練資料的平均分類結果 91
圖6-8 不同數量訓練資料的變化趨勢 92
參考文獻
中文部分
[資01] 資策會,“FIND網際網路情報中心”
http://www.find.org.tw/
[蕃00] 蕃薯藤,“2000年台灣網路使用調查”
http://survey.yam.com/survey2000/index.html
[楊98] 楊振偉,“利用書籤功能達到網際網路資訊分享與過濾的技術探討,”國立中央大學資訊管理研究所碩士論文, 1998
[許01] 許琇娟,“以漸進式標籤區域分析為基礎之網頁分類器,”淡江大學資訊工程學系碩士班碩士論文, 2001
[Ckp00] 中研院中文斷詞程式下載 http://godel.iis.sinica.edu.tw/CKIP/ws/
[龍01] 龍捲風科技資訊網
http://www.tornado.com.tw/b5/ksp/k-act/ka_feature.asp
英文部分
[Abr97] David Abrams,“Human factors of Personal Web Information Spaces,” A thesis submitted in conformity with the requirements for the degree of Masters of Science Graduate Department of Computer Science University of Toronto, 1997
http://www.perceptualrobotics.com/people/abrams/thesis/default.htm
[Abr98] David Abrams, Ron Baecker and Mark Chignell. “Information Archiving with Bookmarks: Personal Web Space Construction and Organization,” Conference proceeding on Human factors in computing systems, Proceedings ACM SIGCHI '', pp.41-48, 1998
[Coo97] R. Cooley, B. Mobasher, and J. Srivastava, “Grouping Web Page References into Transactions for Mining World Wide Web Browsing Patterns,” Proceeding of knowledge and data engineering exchange workgroup, pp.2-9, 1997
http://citeseer.nj.nec.com/cooley97grouping.html
[Crk01] Crit link Web Site:http://crit.org
[Den00] L. Denoue., L. vignollet., “An annotation tool for Web browsers and its applications to information retrieval,” In Proceedings of RIAO2000, Apr. 2000
http://citeseer.nj.nec.com/denoue00annotation.html
[Eql01] Equill Web Site:http://equill.com
[Ger64] Gerard Salton, “A Flexible Automatic System for the Organization, Storage, and Retrieval of Language Data(SMART).” Report ISR-5, Section I, Harvard Computation Lab., 1964
[Ger89] Gerard Salton. “Automatic Text Processing. The Transformation, Analysis, and Retrieval of Information by Computer,” Addison-Wesley Publishing Company, 1989
[Imk01] iMarkup Web Site:http://www.imarkup.com
[Key89] Keyes E.,Sykes D.,Lewis E., “Text, Context, and Hypertext,”, The MIT press, Cambridge, MA., pp.251-264, 1989
[Mie02] Microsoft Internet Explorer, http://www.microsoft.com/ie/
[Mdn02] Microsoft MSDN, http://msdn.microsoft.com
[Men96] Mendelzon A. ”Visualizing the World Wide Web”, Working Draft 1996
[Mic00] Michele Outllet, Jan Gecsei, and Jian-Yun Nie, “Discovering Internet Resources to Enrich a Structured Personal Information Space,” In Proceedings of RIAO2000, Apr 2000
http://133.23.229.11/~ysuzuki/Proceedingsall/RIAO2000/Friday/120BO6.ps
[Mou01] Mountaz Hascoet “Interaction and Visualization Supporting Web Browsing Patterns” Information Visualisation, 2001. Proceedings. Fifth International Conference on , pp.413 -418, 2001
[Ric99] Richardo Baeza-Yates, Berthier Ribeiro-Neto, editor. “Modern Information Retrieval”, Addision Wesley Longman Limited, 1999
[Rob76] S. E. Robertson, K. Sparck Jones. “Relevance weighting of search terms.” Journal of the American Society for Information Sciences, Vol 27, No.3, pp.129—146, 1976
[Sin93] A. Singhal, G. Salton. “Automatic Text Browsing Using Vector Space Model.” In Proceedings of the Fifth Dual-Use Technologies and Applications Conference, Utica/Rome, NY., pp.318-324, 1995
[Son01] S. Myung, Jeong M. Choi, In C. Kim, BClassifier:“A Personal Agent for Bookmark Classicification,”Proceedings of the 8-th International Conference on Paralleled and Distributed Systems, IEEE Computer Society, pp. 713-720, 2001
[Sim01] Simon Wong Homepage, http://www.kingswong.com/mycomp.html
[Wai00] Wai-chiu Wong and Ada Wai-chee Fu “Incremental Document Clustering for Web Page Classification,” Chinese University of Hong Kong, July 2000
http://www.cs.cuhk.hk/~adafu/Pub/IS2000full.ps
[Yog87] Young, P. “The Nature of information.” Praeger Publishers, New York. 1987
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊
 
系統版面圖檔 系統版面圖檔