跳到主要內容

臺灣博碩士論文加值系統

(18.205.192.201) 您好!臺灣時間:2021/08/05 04:02
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:蘇智成
研究生(外文):Chih-Cheng Su
論文名稱:強化過濾垃圾郵件機制之研究
論文名稱(外文):The Study of Enhancing Spam Filtering Mechanism
指導教授:謝金原謝金原引用關係
指導教授(外文):Chin-Yuan Hsieh
口試委員:張瀞之陳秋宏
口試委員(外文):Chang, Ching-ChihChiu-Hung Chen
口試日期:2012-06-21
學位類別:碩士
校院名稱:高苑科技大學
系所名稱:資訊科技應用研究所
學門:電算機學門
學類:電算機應用學類
論文種類:學術論文
論文出版年:2012
畢業學年度:100
語文別:中文
論文頁數:60
中文關鍵詞:垃圾郵件商業郵件資料探勘超連結判斷詞語分析
外文關鍵詞:Spamcommercial messagesdata mininghyperlink judgeword Analysis
相關次數:
  • 被引用被引用:2
  • 點閱點閱:344
  • 評分評分:
  • 下載下載:88
  • 收藏至我的研究室書目清單書目收藏:1
本論文利用多層次的防堵機制,並結合資料探勘技術,探討垃圾郵件的過濾效果。研究中收集了垃圾郵件及正常郵件樣本共計5333份,經過三階段的過濾作業,比較及下述三種評估垃圾郵件過濾的效果。研究方法一係利用黑名單、DNS反查、UCE等級設定等郵件過濾機制,評估垃圾郵件過濾的準確率與效率。研究方法二係運用包含郵件內文轉碼、詞語分析、及停用詞處理等資料探勘技術,以評估垃圾郵件過濾的準確率與效率,計算出詞語出現的頻率,再利用PART分析法評估資料探勘過濾準確率與效率。研究方法三係利用包含郵件內文轉碼、詞語分析、及停用詞處理,配合判斷內文所包含的超連結正確性等資料探勘技術過濾郵件,評估垃圾郵件過濾的準確率與效率。
研究結果顯示,研究方法一於垃圾郵件過濾的正確率約為65.45%,平均每封郵件的過濾處理時間約為13.8微秒(µs),其中先以DNS反查、再利用黑名單、配合UCE等級設定過濾的組合順序,得到較高的過濾正確率,約為65.66%。與先以黑名單、再利用DNS反查、配合UCE等級過濾組合順序的過濾正確率65.23%相比,降低0.43%。因此本論文建議先使用DNS反查、再利用黑名單、配合UCE的順序過濾垃圾郵件。
研究方法二利用資料探勘於垃圾郵件過濾,使用的屬性數區分為128、256、512、1028四種,分析結果顯示使用128個屬性值的正確率約為92.7%,使用256個屬性值的正確率約為92.96%,使用512個屬性值的正確率約為92.92%,使用1024個屬性值的正確率約為92.95%。結果顯示使用256個屬性值即可得到有效的過濾效果,因此本論文建議可以256個屬性值作為探勘垃圾郵件的過濾。使用寄件者及郵件主旨的資料判別過濾垃圾郵件,正確率約為92.3%,平均每封郵件的處理時間約為104微秒(µs),正確過濾效率(正確率/時間)約為0.888%/µs。使用寄件者、郵件主旨、及郵件本文的資料判別來過濾垃圾郵件,正確率可提高到93.45%左右,平均每封郵件的處理時間約為113微秒(µs),正確過濾效率(正確率/時間)約為0.827%/µs,比僅使用寄件者及郵件主旨過濾垃圾郵件者的正確執行率還低。
研究方法三係使用寄件者、郵件主旨、郵件本文的資料判別、配合超連結正確性的判斷來過濾垃圾郵件,正確率約為99.35%,平均每封郵件的處理時間約為94微秒(µs),正確執行率約為382%。顯示此方法最能有效過濾垃圾郵件。
綜整上述結果,應用於垃圾郵件過濾以先利用DNS反查、再利用黑名單、配合UCE等級設定,再以寄件者、郵件主旨、郵件本文的資料,使用256個屬性值的資料探勘機制、配合超連結正確性的判斷,為效果最佳的組合。
本研究於執行利用資料探勘過濾垃圾郵件的方法時,發現利用不同屬性值與判斷內容資料的組合雖有不同,仍有其相關性,後續研究建議可從建立過濾垃圾郵件的預測模型為方向進行。另於超連結抽取的技術,建議可以從增強超連結抽取的正確性為方向,使垃圾郵件或廣告郵件的過濾能力更臻完善。

In this thesis we use multi-level attempts to prevent the mechanism with the combination of data mining techniques to evaluate the spam filtering effect. For evaluation need we collect 5333 emails totally including the junk and regular emails. All emails are filtered by three steps. The filtering effect including the accuracy and efficiency are show below. The first research method is to use blacklist DNS reverse lookup, the UCE level setting e-mail filtering mechanism to assess the spam filtering accuracy and efficiency. The second evaluation method is to apply the data mining techniques with the message text transcoding, word analysis, and stop word processing technology, to calculate the frequency of occurrence of words. Then the PART analysis techniques is applied to evaluate the accuracy and efficiency of data mining filtering. The third research method is to use the ata mining techniques with the message transcoding the quasi-word analysis, and stop word processing, with hyperlinks to the correctness of the filtering operations contained within the judgment to evaluate the spam filter accuracy rate and efficiency.
The research results show that in the first spam filtering method the accuracy rate of the spam filter is about 65.45%, the average filtering time is about 13.8 microseconds (μs). We have the higher accuracy rate of about 65.66% on the DNS reverse lookup step is applied first, and then the blacklist with the UCE level techniques is used for spam filtering. Reversely the accuracy rate of about 65.23% on the blacklist step is applied first, and then the DNS reverse lookup step with the UCE level techniques is used for spam filtering. The difference of accuracy rate is 0.43%. In this research for filtering spam email efficiently we recommend to apply the DNS reverse lookup method first, and then apply the blacklist with the UCE level techniques to obtain the higher filtering accuracy and efficiency.
In second research method four attributes in the data mining techniques are applied. There are 128、256、512 and 1028 in spam filtering. The analysis result shows the filtering correct rate of about 92.7% on the attribute of 128, about 92.96% on the attribution of 256, about 92.92% on the attribution of 512, and about 92.95% on the attribution of 1024. The results show that the attribute of 256 is better for the spam filter in data mining technique. The correct rate of spam filtering is about 92.3% on the filtering the email sender and subject. The average filtering time of each email is about 104 microseconds (μs), and the accurate filter rate is about 0.888%/µs. For the filtering technique of email sender, email subject and message, the correct rate of spam filtering is about 93.45%. The average filtering time of each email is about 1134 microseconds (μs). The accurate filter rate is about 0.827%/µs, which is less than that on spam filtering email sender and subject.
In the third research method the email sender, the message subject and the message, with the hyperlinks correctness are used to evaluate the spam filter accuracy and efficiency. The correct rate of spam filtering is about 99.35%. The average filtering time of each email is about 94 microseconds (μs), and the accurate filter rate is about 1.057%/µs. It shows the most effective in spam filtering and one of the best spam filter techniques.
In conclusion the best filtering technique is applying the DNS reverse lookup technique at first, then use the blacklist, with the UCE level setup technique. Finally the spam filtering technique of data mining becomes the best filter method by further filtering the email sender, subject, message, 256 attributes and judging the hyperlink correctness.
In this research we found some relationship exists in different attributes and message content by using the data mining for spam filtering. The future study is to find the model prediction for the relationship between them. Further the hyperlink technique can be modified to enhance the spam direction for increasing the filtering effect.
第一章 緒論
第一節 研究背景與動機
 第二節 研究目的
 第三節 研究範圍與限制
 第四節 研究流程
 第五節 論文架構
第二章 背景及相關技術
 第一節 垃圾郵件的定義
 第二節 電腦病毒的定義
 第三節 垃圾郵件過濾機制探討
 第四節 資料探勘工具及特性
第三章 研究方法
 第一節 資料探勘
 第二節 詞語頻率與反向文件頻率
 第三節 斷詞處理(Bigram)
 第四節 決策樹分析(Decision Tree Analysis)
 第五節 PART演算法
第四章 研究結果與分析
 第一節 樣本資料的收集
 第二節 樣本資料的過濾機制評估
 第三節 樣本資料的編碼轉換
 第四節 詞語處理
 第五節 資料探勘
 第六節 實驗分析
 第七節 結果分析
第五章 結論與建議
 第一節 研究結論
 第二節 未來研究建議
1.李宏林, 利用文件探勘於垃圾郵件過濾. 華梵大資訊管理學系碩士學位論文, 2010.
2.財團法人台灣網路資訊中心. TWNIC 寬頻網路使用調查. 2012; Available from: http://statistics.twnic.net.tw/item04.htm.
3.Cohen, F., Computer Viruses, in Dissertation Presented1986, UNIVERSITY OF SOUTHERN CALIFORNIA.
4.唐鎮宇. 垃圾郵件轟炸 1個月101億封. 2008; Available from: http://sci.ncu.edu.tw/home/chinatimes-
science/exhibition-news/news_08122801.
5.台灣網際網路協會. 垃圾郵件痛苦指數大調查. 2008; Available from: http://www.ithome.com.tw/itadm/article.php?c=52500.
6.維基百科. 大五碼. 2012 [cited 2012; Available from: http://zh.wikipedia.org/wiki/%E5%A4%A7%E4%BA%94%E7%A2%BC.
7.維基百科. GB 2312. 2012 [cited 2012; Available from: http://zh.wikipedia.org/zh-tw/GB_2312.
8.維基百科. UTF-7. 2012 [cited 2012; Available from: http://zh.wikipedia.org/wiki/UTF-7.
9.維基百科. UTF-8. 2012 [cited 2012; Available from: http://zh.wikipedia.org/wiki/UTF-8.
10.崔嘻. 什麼是 SPAM 垃圾郵件?肉罐頭?(同場加映:電子郵件演變史). 雲端運算與網路安全趨勢 2011; Available from:
http://domynews.blog.ithome.com.tw/post/1252/107460.
11.張傑生 廣告郵件(SPAM Mail)之介紹與因應建議. 國立臺灣大學計算機及資訊網路中心電子報, 2009. 第0010期.
12.國家通訊傳播委員會. 濫發商業電子郵件管理條例草案. 2005; Available from:
info.gio.gov.tw/public/Attachment/4679405471.doc.
13.Belkin, L., The opt-out revolution. New York Times Magazine, 2003. 26: p. 42-47.
14.Bouckaert, J., et al., Opt in versus opt out: A free-entry analysis of privacy policies. 2006: CESifo.
15.趨勢科技. 防毒入門-基本概念-認識電腦病毒. 2012; Available from:
http://www.trend.com.tw/corporate/security/virusprimer_1.htm.
16.顏雲生, 張詠順, and 夏傳儀, 階層式垃圾郵件過濾與設計實現. 2012 資訊教育與科技應用研討會, 2012(佛光大學資訊應用學系):
p. B2-31,B2-36.
17.Guiltinan, J. RFC 2821: To accomodate greylisting, which is an anti-spam procedure. 2007; Available from:
http://www.faqs.org/qa/rfcc-1592.html.
18.林彥廷, 資料探勘技術應用於垃圾郵件分析. 華梵大學資訊管理研究所碩士論文, 2008.
19.IT達人. 阻斷服務 DDoS (Distributed Denial of Service) 阻斷式攻擊. 2010 [cited 2012; Available from:
http://www.itmaster.tw/?tag=%E9%98%BB%E6%96%B7%E5%BC%8F%E6%94%BB%E6%93%8A.
20.Jung, J., et al., DNS Performance and the Effectiveness of Caching. Networking, IEEE/ACM Transactions on, 2002. 10(5): p. 589-603.
21.Sahami, M., et al. A Bayesian approach to filtering junk e-mail. 1998. Madison, Wisconsin: AAAI Technical
Report WS-98-05.
22.Androutsopoulos, I., et al., An evaluation of naive bayesian anti-spam filtering. Arxiv preprint cs/0006013,
2000.
23.Boone, G. Concept features in Re: Agent, an intelligent email agent. 1998. ACM.
24.Crawford, E., J. Kay, and E. McCreath, Automatic induction of rules for e-mail classification. 2001.
25.Microsoft. 瞭解 Exchange Server 智慧型郵件篩選器. 2004; Available from: http://technet.microsoft.com/zh-
tw/library/bb125125(v=exchg.65).aspx.
26.Sun. 資料探勘工具-weka. 2011; Available from: http://www.mining2u.com/articles/business-intelligence/data-
mining-tool-weka.
27.Gong, Y.Z.L., 資料探勘原理與技術. 2007: 五南圖書出版股份有限公司.
28.Fayyad, U., G. Piatetsky-Shapiro, and P. Smyth, From data mining to knowledge discovery in databases.
AI magazine, 1996. 17(3): p. 37.
29.維基百科. TF-IDF. 2012; Available from: http://zh.wikipedia.org/zh-tw/TF-IDF.
30.數位典藏國家型科技計畫. 中文斷詞系統. 2004; Available from: http://ckipsvr.iis.sinica.edu.tw/.
31.馬偉雲. 未知詞擷取作法. 2004; Available from: http://ckipsvr.iis.sinica.edu.tw/.
32.Chen, K.J.W.-Y.M., Unknown Word Detection for Chinese by a Corpus-based Learning Method. International
Journal of Computational linguistics and Chinese Language Processing, 1998. 3.
33.林志鴻, 利用有效率演算法提昇建構 ID3 決策樹之執行效能, 1994, 南台科技大學資訊管理系.
34.Frank, E. and I.H. Witten, Generating accurate rule sets without global optimization. 1998.
35.孙涛, MIME 邮件格式分析及信息提取 [J]. 计算机与信息技术, 2007(6): p. 24-30.
36.維基百科. ASCII. 2012 [cited 2012; Available from: http://zh.wikipedia.org/wiki/ASCII.
37.Baidu百科. 交叉验证. 2012 [cited 2012; Available from: http://baike.baidu.com/view/1211084.htm?fromTaglist.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊