研究生(外文):Wei-Yin Huang
論文名稱(外文):Hierarchically Dynamic Clustering of Web Search Results
指導教授(外文):Cheng-Jye Luh
外文關鍵詞:Document ClusteringWeb SearchHierarchical ClusteringDynamic ClusteringOverlap Clustering
本研究以實作系統對熱門的中英文搜尋關鍵字在尋得時間(Reach Time)的初步效能表現來選定網頁分群的停止條件,再透過使用者滿意度測試,以及系統尋得時間對中英文關鍵字的表現,來做效能比較。實驗結果顯示,本研究提出的方法明顯優於商業化分群系統Vivisimo,而且略勝於有階層分群的相關方法DisCover。
This study proposes a hierarchical clustering method for dynamic clustering of web search results. The resulting tree of clusters can help users efficiently locate the relevant web pages they are interested in. The proposed method extracts feature tokens from the page titles and snippets of search results, and based on an indicator calculated by the coverage and distinctiveness of these feature tokens, determines the clustering concepts, the cluster labels and the number of clusters. Additionally, the proposed method allows a web page to be grouped into several clusters, also it pushes the high ranking web pages into the leading clusters. This study determined the clustering termination condition based on preliminary evaluation results of reach time for several Chinese and English hot keywords. A user study showed that the users are more satisfied with the proposed system than with the commercial system, Vivisimo, and are slightly satisfied with the proposed system than with the related method, DisCover, using English and Chinese hot keywords. Moreover, a performance measure on reach time confirmed that the proposed system out-performs Vivisimo, and performs slightly better than DisCover.
書名頁 …………………………………… i
中文摘要 ………………………………… ii
英文摘要 ………………………………… iii
誌謝 ……………………………………… iv
目錄 ……………………………………… v
表目錄 …………………………………… vii
圖目錄 …………………………………… viii

第一章、緒論 …………………………………… 1
1.1 研究背景與動機 …………………………… 1
1.2 研究目的 …………………………………… 3
1.3 論文架構 …………………………………… 3
第二章、文獻探討 ……………………………… 4
2.1 網頁分群的關鍵需求 ……………………… 4
2.2 分群樹的基本特性 ………………………… 5
2.3 文件分群方法之比較 ……………………… 6
2.3.1 非階層式分群方法 ……………………… 6
2.3.2 階層式分群方法 ………………………… 8
2.3.3 文件分群方法比較 ……………………… 11
2.4 文件分群在搜尋引擎的應用實例 ………… 11
2.4.1 Vivisimo分群式搜尋引擎 ……………… 11
2.4.2 DisCover階層式分群系統 ……………… 13
2.4.3 Grouper自動分群系統 ………………… 14
2.4.4 Hoskinson 研究助理系統 ……………… 15
第三章、系統分析與設計 ……………………… 19
3.1 系統特性 …………………………………… 19
3.2 系統架構 …………………………………… 20
3.2.1 資料蒐集(Web crawling)與分析 ……… 21
3.2.2 斷詞 (Tokenizing) …………………… 21
3.2.3 網頁分群 ………………………………… 22
3.2.4 結果呈現 ……………………………… 27
3.2.5 相關查詢列表 ………………………… 28
第四章、系統評估 ……………………………… 30
4.1 尋得時間(Reach time) …………………… 30
4.2 網頁分群停止條件的選擇 ………………… 35
4.3 使用者滿意度測試 ………………………… 36
4.4 系統效能評估 ……………………………… 42
第五章、結論 …………………………………… 48
參考文獻 ………………………………………… 49
