研究生(外文):Liang-chi Yang
論文名稱(外文):A Study on Log-Based Web Access Filtering
指導教授(外文):Yen-jeng Oyang
The thesis proposes a filtering mechanism for internet accesses. The proposed filtering mechanism is based on mining access logs to identify the web sites that contain improper contents. The filtering software then blocks all the accesses to the web sites in the black list that is derived from mining access logs. The main advantage of the proposed mechanism is that it can be generally applied regardless of formats of contents. On the other hand, the conventional content-based filtering mechanism requires different algorithms for handling different formats of content. For example, with the content-based approach, different algorithms must be developed for filtering text materials and image materials. Another advantage of the proposed mechanism is that it can be applied regardless of the nature of contents. For example, it can be applied to filter web sites that contain violent materials and sexual materials. On the other hand, with the content-based approach, different algorithms must be developed for filtering images that contain violent materials and sexual materials. This thesis also discusses how the proposed mechanism can be incorporated in the system and the overhead induced.
第 1 章 序論1
1.1 網路資訊生活時代1
1.2 網路色情資訊的氾濫2
1.2.1 網路色情氾濫情況:3
1.2.2 網路色情對社會的影響5
1.2.3 使用過濾軟體5
1.3 過濾軟體(filter software)的應用6
1.4 我們提出的解決方法6
1.5 方法好壞的比較7
1.6 本論文的獲致的結論8
1.7 論文組織與其他章節的內容8
第 2 章 相關研究9
2.1 PICS(Platform for Internet Content Selection)9
2.2 過濾的方法10
2.2.1 過濾軟體種類10
2.2.2 傳統過濾網路色情的方式與問題11
2.2.3 過濾軟體的架構13
2.3 資料挖掘(data mining)15
2.3.1 Web Log Mining:15
2.3.2 Clustering(資料分群):16
2.4 Proxy server:18
2.4.1 代理伺服器所扮演角色18
2.4.2 代理伺服器架構:20
2.4.3 Squid21
2.4.4 proxy log的格式22
第 3 章 過濾機制的問題定義及演算法24
3.1 資訊過濾(information filtering)的模型24
3.2 log的抽象定義及trec25
3.3 問題定義--如何利用log-based approach做資訊過濾26
3.3.1 確定欲過濾主題26
3.3.2 Log資料對時間的變化度26
3.3.3 Trec的特性27
3.3.4 各種Trec和欲過濾主題:27
3.3.5 判斷Transaction和Filter主題是否有關:27
3.4 解決方法 — Data Mining from Proxy Logs, Generate the Black List.28
3.5 方法的定性分析,與其他方法的定性比較29
3.6 演算法30
3.7 複雜度分析31
第 4 章 實驗33
4.1 proxy log數據分析:33
4.2 資料準備(training set and testing set)34
4.3 實驗環境與實驗結果的評估方式36
4.3.1 實驗環境37
4.3.2 是否為色情網址的人工檢查原則37
4.4 系統架構:38
4.4.1 製造黑名單(MakeBlackList)38
4.5 實驗數據:41
4.5.1 數據說明:42
4.6 實驗的結果:43
4.7 實驗中的觀察與討論:44
4.7.1 網站變化快速,所以採用log-based較符合需求44
4.7.2 使用者行為相似的原因45
4.7.3 藉由較明顯的行為的統計,用來加以過濾不明顯的行為45
第 5 章 系統設計46
5.1 設計一個可用及時過濾系統:46
5.2 與proxy的配合方式:47
5.3 模擬結果:48
第 6 章 結論與展望49
6.1 本論文目的49
6.2 本論文所達到效果49
6.3 本論文所提方法的問題50
6.4 可以進一步改進的方法51
