跳到主要內容

臺灣博碩士論文加值系統

(18.97.9.173) 您好!臺灣時間:2024/12/10 09:45
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:蔡荃宇
研究生(外文):Chuan-YuTsai
論文名稱:應用於簡易貝氏分類器之結合混合型離散化和先驗分配之方法
論文名稱(外文):Hybrid discretization methods for naive Bayesian classifiers with priors
指導教授:翁慈宗翁慈宗引用關係
指導教授(外文):Tzu-Tsung Weng
學位類別:碩士
校院名稱:國立成功大學
系所名稱:資訊管理研究所
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2013
畢業學年度:101
語文別:中文
論文頁數:51
中文關鍵詞:簡易貝氏分類器混合型離散化先驗分配
外文關鍵詞:Naive Bayesian classifierHybrid discretizationprior
相關次數:
  • 被引用被引用:1
  • 點閱點閱:428
  • 評分評分:
  • 下載下載:97
  • 收藏至我的研究室書目清單書目收藏:0
分類是資料探勘領域處理資料的一種方法,在眾多的分類器當中,簡易貝氏分類器有著原理簡單且運作快速的優勢。然而簡易貝氏分類器較為適合處理離散型態屬性,而實務上卻以連續型態屬性為多,因此採取合適的離散化方法為提升分類正確率的主要因素之一。混合型離散化能夠使所有的連續型屬性採用其合適的離散化方法,相較於一般離散化方法將所有連續型屬性做同一種離散化方法來的更容易提升分類正確率。先驗分配,能夠在分類過程中提供知識性的參數,使分類能夠更符合資料原始的概念,提升分類正確率。由於混合型離散化提出時間距今甚近,因此尚未有將混合型離散化與先驗分配結合使用的先例,因此本研究試圖結合混合型離散化及先驗分配,希望能更進一步的提升簡易貝氏分類器的分類正確率。於本研究當中,採用狄氏分配與廣義狄氏分配作為先驗分配,由於採用混合型離散化造成資料檔中各屬性可能值個數不一,增加了尋找最佳先驗分配參數的困難性,且廣義狄氏分配又比狄氏分配的參數多了一倍,因此將兩者結合具有一定的挑戰性。本研究提出了三種結合模式,第一種模式稱為HDNB1,此模式較保守,是先將連續型屬性離散化後再加入先驗分配的方法。而第二種模式HDNB2及第三種模式HDNB3較為相近,皆融合了混合型離散化及先驗分配參數的設定兩步驟,不同處在於HDNB2的離散化過程中,各屬性是按重要性依序加入考量,但在HDNB3的離散化過程仍是以所有的屬性一同做考量。經過實驗證實,應用於簡易貝氏分類器的混合型離散化方法在結合先驗分配之後,能得到更高的分類正確率。在本研究提出的三種模式當中,HDNB2及HDNB3能比HDNB1獲得較佳的分類結果,且HDNB2在屬性個數較多的資料檔中表現較佳,而HDNB3適合處理屬性個數較少的資料檔。
Classification is a kind of method to deal with the data in the realm of Data Mining. Among all classifier, naïve Bayesian classifier takes the advantage of fast processing along with the simple theory. The nature of the naïve Bayesian classifier is suitable for dealing with data having discrete attribute, however, practically data is likely to be continuous, thus, the selection of proper method of discretization is the key to raise the accuracy of classification. Hybrid discretization method is capable of using proper discretization method for every continuous attribute adaptively, which leads to a higher accuracy of classification. Prior distribution can offer the essential knowledge of parameter chosen among the process of classification, with the help, big promotion of accuracy in classification is likely to be achieved based on the fact that the classification is closer to the concept data. Since the announcement of the hybrid discretization is just recent before long, there is no any experiment showing the result in the combination use of hybrid discretization and prior distribution. Out of the reason, the attempt of this research is to conduct an experiment on the use of combination of hybrid discretization and prior distribution, in the hope of promoting the accuracy of classification by using naïve Bayesian classifier. I propose three modes of combination in this research; HDNB1 is conservative among others since it casts the discretization on continuous attribute before carry out the process of prior. HDNB2 and HDNB3 have the same steps on combined hybrid discretization and prior distribution. HDNB2 takes each attribute by order of its importance into consideration, while the process of discretization in the HDNB3 regards all the attributes.
圖目錄 VII
表目錄 VIII
第一章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的 2
1.3 論文流程與架構 3
第二章 文獻回顧 4
2.1 簡易貝氏分類器 4
2.2 離散化方法 7
2.2.1 監督式離散化 8
2.2.2 非監督式離散化 9
2.2.3 混合型離散化 11
2.3 先驗分配 12
2.3.1 狄氏分配 12
2.3.2 廣義狄氏分配 14
第三章 研究方法 17
3.1 方法介紹 17
3.1.1 HDNB1 18
3.1.2 HDNB2 19
3.1.3 HDNB3 21
3.2 離散化方法 23
3.2.1 等寬度離散化方法 23
3.2.2 等頻率離散化方法 24
3.2.3 比例式離散化方法 24
3.2.4 最小化熵值離散化方法 25
3.3 屬性排序法 26
3.3.1 sorted_NBC排序法 27
3.3.2 無母數排序法 28
3.3.3 對稱不確定性排序法 29
3.4 先驗分配參數 30
3.4.1 狄氏分配參數 30
3.4.2 廣義狄氏分配參數 31
3.5 評估方法 33
第四章 實證研究 34
4.1 資料檔屬性 34
4.2 模式測試結果與分析 35
4.2.1 比較HDNB1、HDNB2、及HDNB3 36
4.2.2比較HDNB3與一般混合型離散化 42
4.3 小結 46
第五章 結論與未來發展 47
5.1 結論 47
5.2 未來發展 48
參考文獻 49

中文
連子建 (2012). 結合混合型離散化和挑選式簡易貝氏特徵選取來改善簡易貝氏分類器正確率之方法. 資訊管理碩士論文.

楊乃玉 (2010). 不同離散化方法對於具先驗分配的簡易貝氏分類器之影響評估. 工業與資訊管理學系碩士在職專班碩士論文.

英文
Ali, W., Shamsuddin, S. M., & Ismail, A. S. (2012). Intelligent naïve Bayes-based approaches for Web proxy caching. Knowledge-Based Systems, 31, 162-175.
Berchialla, P., Foltran, F., & Gregori, D. (2013). Naïve Bayes classifiers with feature selection to predict hospitalization and complications due to objects swallowing and ingestion among European children. Safety Science, 51, 1-5.
Catal, C., Sevim, U., & Diri, B. (2011). Practical development of an eclipse-based software fault prediction tool using naive Bayes algorithm. Expert Systems with Applications, 38, 2347–2353.
Chattopadhyay, S., Davis, R. M., Menezes, D. D., Singh, G., Acharya, R. U., & Tamura, T. (2012). Application of Bayesian classifier for the diagnosis of Dental Pain. Journal of Medical Systems, 36, 1425-1439. doi: 10.1007/s10916-010-9604-y
Dehuri, S., Mishra, B. S. P., Roy, R., & Cho, S. -B. (2011). A serial and parallel genetic based learning algorithm for Bayesian classifier to predict metabolic syndrome. Paper presented at the Proceedings of the Fourth Annual ACM Bangalore Conference, Bangalore, India.
Garc´ıa, S., Luengo, J., S´aez, J. A., L´opez, V., & Herrera, F. (2013). A survey of discretization techniques : taxonomy and empirical analysis in supervised learning. IEEE Transactions on Knowledge and Data Engineering, 25, 734-750.
Gupta, A., Mehrotra, K. G., & Mohan, C. (2010). A clustering-based discretization for supervised learning. Statistics & Probability Letters, 80(9-10), 816-824.
Zhao, J., Han, C. Z., Wei, B., & Han, D. Q. (2012). A novel Univariate Marginal Distribution Algorithm based discretization algorithm. Statistics and Probability Letters, 82, 2001-2007.
Werner, J. J., Koren, O., Hugenholtz, P., DeSantis, T. Z., Walters, W. A., Caporaso, J. G., . . . Ley, R. E. (2012). Impact of training sets on classification of high-throughput bacterial 16s rRNA gene surveys. The ISME Journal, 6, 94-103.
Li, M., Deng, S., Feng, S., & Fan, J. (2011). An effective discretization based on Class-Attribute Coherence Maximization. Pattern Recognition Letters, 32, 1962–1973.
Valle, M. A., Varas, S., & Ruz, G. A. (2012). Job performance prediction in a call center using a naive Bayes classifier. Expert Systems with Applications, 39, 9939-9945.
Wong, T. T. (2009). Alternative prior assumptions for improving the performance of naïve Bayesian classifiers. Data Mining Knowledge Discovery, 18, 183-213.
Wong, T. T. (2012). A hybrid discretization method for naïve Bayesian classifiers. Pattern Recognition 45, 2321-2325.
Wong, T. T., & Chang, L.-H. (2011). Individual attribute prior setting methods for naive Bayesian classifiers. Pattern Recognition, 44, 1041-1047.
Yang, Y., & Webb, G. I. (2009). Discretization for naive-Bayes learning: managing discretization bias and variance. Machine Learning, 74, 39-74.
Zakzouk, T., & Mathkour, H. (2012). Comparing text classifiers for sports news. Procedia Technology, 1, 474-480.

連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊