研究生(外文):Chia-shyang Lin
論文名稱(外文):An Enhanced Naïve Bayesian Classifier on Spam Filtering
指導教授(外文):S.M. TungDon-her Shieh
外文關鍵詞:Bayes'' Theorememailspam
電子郵件對人們工作與日常生活的影響,使之可稱為 Internet 的「殺手級應用 (Killer Application)」,已成為企業與個人間便捷的溝通管道之一。但同時,大多數的使用者也都飽受了垃圾郵件轟炸之苦。針對此一問題,現有的解決方式中,以內容為基礎的過濾方法最適合於個人用戶端所使用,而其中又以貝氏定理為基礎的演算法為大宗。本研究檢視了 Naïve Bayes 與 Robinson (2003) 兩種以貝氏定理為基礎的過濾方法後,提出了三種改進演算法,其中透過多屬性維度與回饋式學習之方法,經實驗後證明其結果相較於 Naïve Bayes 與 Robinson (2003) 有較低的錯誤率,而回饋式學習演算法更在各種評估指標中獲得整體的提昇。
Spam problem has been viewed as a serious threat to the Internet, flooding users’ inboxes and costing businesses billions of dollars through the waste of bandwidth, storage, and office work forces. To the worse and worse spam problem, several studies have been made, ranging from technical to regulatory. Naïve Bayes classifier is a widely used classifier in text categorization task. It also enjoys a blaze of popularity in anti-spam researchers. In this study, we analysis the Naïve Bayes classifier and the modification of Robinson (2003), then proposed three ways of enhancement. The experiment result shows that two of the proposed methods have better performance in most cases than traditional Naïve Bayes model while holding good detection rate and eliminating the false positive problem.
中文摘要 I
誌謝 III
目錄 IV
表目錄 VI
圖目錄 VII
一、緒論 1
1.1研究背景 1
1.2研究動機 2
1.3研究目的 5
1.4研究範圍 5
1.5研究流程 6
1.6論文架構 8
二、文獻探討 9
2.1電子郵件的基礎概念 9
2.1.1 電子郵件系統的組成 10
2.1.2電子郵件通訊的主要協定 11
2.1.3開放式代轉站 (Open Relay) 12
2.2 垃圾郵件所帶來之問題 13
2.3 處裡垃圾郵件問題的挑戰 19
2.4 垃圾郵件的偵測與過濾 21
2.4.1 社會面的解決方法 22
2.4.2 技術面的解決方法 24
2.5小結 31
三、系統設計 33
3.1以貝氏定理為基礎的過濾方法 33
3.1.1 Naïve Bayes過濾法 33
3.1.2 Robinson (2003) 提出之貝氏方法 36
3.2 方法的改進 38
3.2.1 分類屬性的事後機率值調整 38
3.2.2 提高屬性維度 40
3.2.3 回饋式學習 42
四、實驗設計 46
4.1 資料集 46
4.2 評估指標 47
4.3 實驗結果 49
4.3.1 實驗 1 ( ) 49
4.3.2 實驗 2 ( ) 51
4.3.3 實驗結果說明 53
五、結論與未來建議 55
5.1 研究結論 55
5.2 研究限制 56
5.3 未來研究方向 56
參考文獻 57
17.李欣茹,民93年,垃圾信嚴重,企業頭痛,民93.12.23 檢索,來源http://taiwan.cnet.com/enterprise/features/0,2000062876,20085772-3,00.htm
18.李欣茹,郭和杰,民93年,辦公室『信』騷擾調查報告,民93.12.23 檢索,來源http://taiwan.cnet.com/enterprise/features/0,2000062876,20085772-2,00.htm
