跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.152) 您好!臺灣時間:2025/11/02 00:55
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:徐一平
研究生(外文):I-Ping Shu
論文名稱:混合式資料探勘技術應用於垃圾郵件過濾之研究
論文名稱(外文):Study of Hybrid Data Mining Techniques Applied for Filtering Spam Mail
指導教授:李仁鐘李仁鐘引用關係
指導教授(外文):Zne-Jung Lee
學位類別:碩士
校院名稱:華梵大學
系所名稱:資訊管理學系碩士班
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2009
畢業學年度:97
語文別:中文
論文頁數:82
中文關鍵詞:資料探勘技術決策樹垃圾郵件羅吉斯演算法類神經演算法基因演算法支援向量機
外文關鍵詞:Data MiningDecision TreeSpam MailLogisticArtificial Neural NetworkGenetic AlgorithmSupport Vector Machine
相關次數:
  • 被引用被引用:1
  • 點閱點閱:314
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
20世紀70年代電腦科技網路的建置發展,至今已廣為大眾所使用。此趨勢由過去人工傳遞處理信息的模式,迄今演變為以電子郵件(E-Mail)傳送為主,使得通信之時間與距離縮短,基此已漸漸改變我們的工作及生活方式。在我們獲得利益的同時,部分追求利益者,以利用電子郵件之便,運用惡意程式或廣收電子郵件信箱方式,肆意散發電子郵件,已造成了收件人員的困擾。本研究運用資料探勘技術結合基因(Genetic Algorithms, GA)及決策樹(Decision Tree, DT) 演算法,透過篩選Minimum Case及Pruning CF參數值後,經實驗測試結果GA/DT混合式演算方法其正確率為95.0%,與其他演算法比較,正確率較佳於羅吉斯演算法(Logistic)5.0%、類神經演算法(Artifical Neural Network, ANN)2.337%、支援向量機(Support Vector Machine, SVM)4.0%,證明GA/DT能準確的篩選DT演算法中Minimum Case及Pruning CF參數值,並有效提升垃圾郵件的辨識效能。
The network has been established and developed since 1970; people have generally used the network. People artificially delivered mail before, but this tendency was transferred to E-mail. The time and distance of communication were decreased by E-mail, and E-mail gradually changed our live and working way. At this moment, some beneficial people use the malicious programs or collect the email boxes in many ways, then send email arbitrarily. It has been perplexed to the receiver. This study (GA/DT) adopts the genetic algorithm (Genetic Algorithms, GA) and decision tree (Decision Tree, DT) of data mining techniques to select Minimum Case and Pruning CF parameters. Experiment results indicate that the accuracy of the hybrid GA/DT algorithm is 95.0%. In other algorithms, Logistic Algorithm has a better accuracy of 5.0% and ANN has an accuracy of 2.337 % and SVM has an accuracy of 4.0 %, and it shows that the GA/DT algorithm can accurately select the Minimum Case and Pruning CF parameters in the DT algorithm and effectively enhance the performance of identifying spam mails.
目 錄
誌 謝........................................................I
摘 要.......................................................II
ABSTRACT....................................................III
目 錄.......................................................IV
表 錄........................................................V
圖 錄......................................................VII
一、緒論......................................................1
1.1 研究背景..................................................1
1.2 研究動機..................................................2
1.3 研究目的..................................................2
1.4 研究流程..................................................3
二、相關文獻與技術.............................................4
2.1 垃圾郵件之定義.............................................4
2.2 垃圾郵件的由來.............................................5
2.3 反制垃圾郵件之立法與技術現況.................................7
2.4 資料探勘..................................................11
2.5 決策樹....................................................12
2.6 基因演算法................................................15
三、研究方法..................................................19
3.1資料集....................................................20
3.2資料前置處理...............................................21
3.3決策樹與基因演算法參數設定...................................22
四、實驗結果與分析.............................................25
4.1實驗1-10測試結果..........................................25
4.2相依樣本t檢驗..............................................60
4.3綜合分析比較...............................................61
五、結論與未來研究建議..........................................63
參考文獻......................................................64
附錄一 屬性的定義..............................................67
附錄二 欄位屬性值..............................................69
附錄三 實驗1測試結果最佳演化世代.................................71
附錄四 實驗9測試結果最佳演化世代.................................76
作者簡歷......................................................82
[1] http://www.itis.tw/node/252,趨勢科技資安威脅大盤分析 08年混合式攻擊猖獗,2009年。
[2] http://tw.news.yahoo.com/article/url/d/a/081216/19/1baat.html,駭客入侵全球電子郵件90%是垃圾郵件,2008年。
[3] http://www.itis.tw/node/2283,全球垃圾郵件每日710億封,2008年。
[4] http://news.pchome.com.tw/science/ithome/20081209/index-12287887071836552005.html,垃圾郵件痛苦指數有下降,2008年。
[5] 林益民、張創捷、謝尚穎、沈士傑、王霖培,「垃圾郵件處理方法之研究分析」,環球技術學院資訊管理系94學年度專題製作,民國九十五年六月。
[6] http://zh.wikipedia.org/w/index.php?title=%E5%8D%88%E9%A4%90%E8%82%89&variant=zh-hant,維基百科,spam的由來。
[7] http://swsh.tw/blog/index.php?op=ViewArticle&articleId=277&blogId=2,Spam「垃圾郵件」字義由來。
[8] 梁玉容,過濾郵件、監測網站、管理文件與控管內容安全利器,資安人,No. 3,民國九十二年,第6頁。
[9] http://www.npf.org.tw/PUBLICATION/FM/093/FM-C-093-091.htm.李禮仲,美國立法規範「垃圾郵件」之探討,2004年。
[10] http://taiwan.cnet.com/enterprise/glossary/term/0,2000062921,2000058056,00.htm.,CNET 字彙寶典,2004年。
[11] 張千里,垃圾郵件與反垃圾郵件技術 ,人民郵電出版社,北京巿,2003年。
[12] 陳勇等編著,反垃圾郵件完全手冊,清華大學出版社,北京巿,2006年。
[13] http://www.itu.int/wsis/basic/about.html last visited. 2006年。
[14] http://www.cepd.gov.tw/dn.aspx?uid=2521,謝穎青,「濫發電子郵件行為之管理與法制規範研究」期未報告,太穎國際法律事務所,民國九十二年十二月三十一日。
[15] http://taiwan.cnet.com/enterprise/features/,CNET專題報導,垃圾郵件關鍵報告,反垃圾郵件國內醞釀立法,2003年。
[16] http://news.com.com/2100-1036_3-6055378.html last visited 2006年。
[17] http://www.chinacourt.org/public/detail.php?id=144510.李賢華,論垃圾郵件的危害及國際司法對策,2004年。
[18] http://www.eland.com.tw/news/2002_07/20020717_es_market_udn.htm,意藍科技,電子郵件過濾產品市場分析,2002年。
[19] 梁定澎,決策支援系統與企業智慧,再版,智勝文化事業有限公司,台北市,民國九十六年。
[20] http://sample.ctust.edu.tw/F7820-CH12.ppt,資料探勘,2009年。
[21] 曾憲雄、蔡秀滿、蘇東興、曾秋蓉、王慶堯,資料探勘,初版,旗標出版股份有限公司,台北市,民國九十五年。
[22] Jiawei H., Micheline K.,,資料探勘概念與方法,第二版,王派洲譯,滄海書局,台中巿,民國九十七年。
[23] 王文俊,認識Fuzzy,第三版,全華科技圖書股份有限公司,台北市,民國九十五年。
[24] 蘇木春、張孝德,機器學習:類神經網路、模糊系統以及基因演算法則,第三版,全華科技圖書股份有限公司,台北市,民國九十五年。
[25] http://ftlin.sam.pccu.edu.tw/LCSLab/02Vol3No1.pdf,林豐澤,演化式計算下篇、基因演算法以及三種應用實例,2005年。
[26] 薛友仁,「整合機器學習方法於決策樹為基智慧型排程系統之研究」,國立交通大學工業工程與管理學系博士論文,民國九十年。
[27] http://ms2.pccu.edu.tw/~g9213937/GA1.ppt#256,1,Genetic Algorithm,基因演算法,2008年。
[28] Sophos Whitepaper, “The Spam Economy : the convergent spam and virus threats”, Sophos Inc, May 2005.
[29] Drucker, H., Wu, D., Vapnik, V. N., “Support VectorMachines for Spam Categorization”, IEEE Transactions on Neural Networks, Vol. 10, No. 5, pp. 1048-1054. 1999.
[30] Geer, D., “Will new standards help curb spam?”, ACM Computer, Vol. 37, No. 2, pp. 14-16, 2004.
[31] Michael, J. A., Berry and Gordon, S. Linoff, Data Mining Techniques : for Marketing,Sales, and Customer Support, Wei Keg Publishing Co., 1997.
[32] Jiawei, H., Micheline, K., Data Mining: Concepts and Techniques, Morgan Kaufmann Publish, New York, 2001.
[33] Simoudis, E., “Reality Check for Data Mining,”IEEE Expert: Intelligent Systems and Their Applications, Vol. 11, No. 5, pp. 26-33, 1996.
[34] Hastie, T., J. Friedman, R. Tibshirani., The element of statistical learning, Springer-Verlag, New York. 2001.
[35] Quinlan, J. R., “Induction of decision tree,” Mag. Learn., Vol. 1, No. 1, pp. 81-106, 1986.
[36] Baker, J. E., “Reducing bias and inefficiency in the selection algorithm”, Vol. 2, No. 1, Genetic Algorithm, pp.14-21, 1985.
[37] Gen, M., Cheng, R., Genetic Algorithms and Engineering Design, 1997.
[38] Syswerda, G., Uniform crossover in genetic algorithms, Proceedings of the third international conference on genetic algorithms and their applications, San Mateo, CA: Morgan Kaufmann, 1989.
[39] Beasley, D. Bull, D. R., and Martin, R. R., An overview of genetic algorithms: Part 2, Research Topics, University Computing, Vol. 15, No. 4, pp.170-181. 1993.
[40] Hanuman, T., Raghava, N. M., Siva, P. A., Mrithyunjaya, R. K., Chandra, S. V., et al. “Performance Comparative in Classification Algorithms Using Real Datasets.”, Journal of Computer Science & Systems Biology, Vol. 2, No.1,pp. 97-100, 2009.
[41] http://archive.ics.uci.edu/ml/datasets/Spambase,Spambase Data Set.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊