研究生(外文):Hong-Ru Lee
論文名稱(外文):Web Cleaning:Page Segmentation and Data-rich Section Mining
指導教授(外文):Chia-Hui Chang
外文關鍵詞:data-rich sectionpage segmentation
大多數使用者感興趣的部份,可能只有表達網頁真正內容的資料區域,其它部份雖然有助於使用者瀏覽更方便,但是卻對電腦程式來說卻非常難去處理,例如:網頁資訊的資訊檢索(Information Retrieval)、資訊擷取(Information Extraction)、分類(Classification)、分群(Clustering),都會因為整個網頁內容不只有單一個主題目的,而造成這些研究上處理的困難。


實驗結果顯示,在許多不同型態的網站,利用本篇論文的方法擷取出的資料區域,幾乎完美的接近使用者感興趣的真正內容;另外,將之應用於網頁資訊擷取系統 – IEPAD,以及網頁分類,結果顯示,擷取出的資料區域,對於這兩方面的研究都有不錯的幫助;最後,比較資料區域與整個網頁的資料量,對於某些網站,資料量減少的程度高達75%,對於網路傳輸將可以有不錯的助益。
Web Page is the major manner to present huge online data. A web page often contains many segments, including main actual content in this page (we called “data-rich section”), navigational bar, advertisements, copyright and privacy notices, and unnecessary images and extraneous links for decoration. Each segment has its useful function. Dividing web pages into many independent segments has many applications. For example, network caching, cell phone and PDA browsing.

Many people only interest in main content (data-rich section) of the page, other segment can benefit human browsing, but these “human-oriented” segments are difficult for computer programs to parse. Due to these segments contain not only one purpose, they can seriously harm web data mining.

We propose an PSDSM algorithm to segment web page into many single purpose、independent blocks and identify Data-rich Section. Our approach has two aspects. First, we use repeated structures of a web page to segment web page. Second, we identify Data-rich section by block comparison.

Experimental results show that data-rich section mining by our PSDSM algorithm almost match the actual content of user interesting. Furthermore, it also benefit in web informational extraction – IEPAD and web page classification. Data-rich section can effectively reduce size of whole web page thereby improving network issues.
第一章 緒論 1
1.1 問題定義 3
1.2 貢獻 4
1.3 論文架構 4
第二章 應用與動機 5
2.1 應用 5
2.2 IE系統 7
2.3 動機與研究方向 7
第三章 相關研究討論 8
3.1 利用標籤<Tag>的特性以及視覺線索切割網頁 9
3.2 網頁區塊化並比較網頁找出資料區域 10
3.3 直接由DOM Tree中擷取資料區域 12
3.3.1 單一網頁擷取 12
3.3.2 多網頁擷取 13
第四章 PSDSM演算法 18
4.1 Page Segmentation 19
4.1.1 重複性區域(Repeated Block) 20
4.1.2 只考慮重複性區域的問題 21
4.1.3 子樹結構編碼 23
4.1.4 重新尋找重複性區域 28
4.1.5 Page Segmentation整體演算法 29
4.2 Data-rich Section Mining 30
4.2.1 區塊在不同網頁的差異性 30
4.2.2 區塊大小的重要性 34
4.2.3 資料區域擷取—多筆資料比數網頁 34
4.2.4 資料區域擷取—單筆資料網頁 35
第五章 實驗結果 36
5.1 資料區域的正確性 36
5.2 應用方向 – IEPAD 43
5.3 應用方向 – 分類演算法(Classification) 44
5.4 網頁資料減少程度 47
第六章 結論與未來展望 48
參考文獻 50
