跳到主要內容

臺灣博碩士論文加值系統

(3.238.135.174) 您好!臺灣時間:2021/08/05 07:53
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:陳世耕
研究生(外文):Shi-geng Chen
論文名稱:衡量簡易貝氏分類器先驗分配合適性之測度
論文名稱(外文):A measure for the appropriateness of prior distributions in naive Bayesian classifiers
指導教授:翁慈宗翁慈宗引用關係
指導教授(外文):Tzu tsung Wong
學位類別:碩士
校院名稱:國立成功大學
系所名稱:工業與資訊管理學系碩博士班
學門:商業及管理學門
學類:其他商業及管理學類
論文種類:學術論文
畢業學年度:96
語文別:中文
論文頁數:71
中文關鍵詞:變異係數廣義狄氏分配先驗分配簡易貝氏分類器
外文關鍵詞:prior distributionCoefficient of variationnaïve Bayesian classifiergeneral Dirichlet distribution
相關次數:
  • 被引用被引用:0
  • 點閱點閱:184
  • 評分評分:
  • 下載下載:33
  • 收藏至我的研究室書目清單書目收藏:0
  分類演算法在資料探勘中一直扮演著十分重要的角色,也是許多學者相當有興趣的研究領域,而在眾多的分類器中,由於簡易貝氏分類器的運算複雜度較低,運算速度也較快,且分類正確率的表現也相當不錯,因此已經被廣泛的使用。在使用簡易貝氏分類器時,一般會對資料檔中的各個屬性分別給予一個狄氏分配來作為其先驗分配,近年來也陸陸續續有學者提出利用廣義狄氏分配、羅氏分配等等定義在單位體上且具有共軛性質的多變量分配來取代狄氏分配,企圖去找出能夠使分類正確率最佳的先驗分配,來提升整體分類的效率,於是本研究期望能夠從資料檔當中的性質就能直接判斷出該選用哪個先驗分配,希望往後能夠在面對分類正確率的問題時,可以直接從資料檔本身的性質就能來判斷該選用何種適合的處理方式,才是最能達到經濟效益的方法。故本研究設計了一個測度來處理目前的問題,此測度的設計概念是先從六個資料檔中去進行分析,找出因為先驗分配不同而影響最後分類正確率不一樣的可能原因,再利用模擬分析的方法去探討可能因為先驗分配不同造成分類正確率不同的資料檔情況,進而根據這些情況設計出最後的測度,而此測度設計成其值愈大愈適用廣義狄氏分配做為先驗分配;反之,其值愈小則採用狄氏分配。此外本研究也針對16個資料檔進行測試,測試結果其計算出來的值與分別用廣義狄氏分配和狄氏分配當作先驗分配時之分類正確率差距呈現中度正相關,此後在使用簡易貝氏分類器時便可利用此測度來幫助選擇適當的先驗分配。
The tools of classification are playing an important role all the time in data mining. In numerous classification tools, naive Bayesian classifiers are a widely used classification tool because its computational complexity is low. In a naive Bayesian classifier, the prior distribution of an attribute is implicitly or explicitly assumed to be a Dirichlet distribution. The generalized Dirichlet distribution that is also defined on the unit simplex can be the prior distribution for increasing the prediction accuracy of naive Bayesian classifiers. Thus, this research will build a measure that can evaluate whether it is worthy of employing the generalized Dirichlet distribution as a prior for a data set. We first analyze six data sets to find the conditions under which the generalized Dirichlet distribution can outperform the Dirichlet distribution. We then generate synthetic data sets and identify the factors for favoring the generalized Dirichlet distribution. Those factors are employed to compose three indices for the measure. This measure is tested on 16 data sets, and the testing results show that our measure is highly positively correlated with the improvement that can be achieved by the generalized Dirichlet distribution.
摘要 I
Abstract II
致謝 III
目錄 IV
第一章 緒論 1
1.1 研究動機 1
1.2 研究目的 3
1.3 研究流程 4
第二章 文獻探討 5
2.1 貝氏分類器 5
2.2 先驗分配 7
2.2.1 狄氏分配 8
2.2.2 廣義狄氏分配 8
2.2.3 羅氏分配 9
2.2.4 小結 9
2.3資料性質 10
第三章 資料分析 12
3.1 貝氏分析 12
3.1.1 狄氏分配 13
3.1.2 廣義狄氏分配 14
3.2 分析架構 16
3.2.1 資料檔之尋找 16
3.2.2  之分析:以分類正確率無明顯差異的資料檔為例 19
3.2.3  之分析:以分類正確率有顯著差異的資料檔為例 24
第四章 測度 45
4.1  之分析 46
4.2 模擬分析 51
4.2.1 兩種先驗分配幾乎無差別的情形 52
4.2.2 先驗分配會影響分類正確率的情形 54
4.3 測度架構 57
第五章 結論與未來發展 67
參考文獻 69
中文

林琦芳(2007),「設定簡易貝氏分類器中各屬性先驗分配之方法」,國立成功大學/工業與資訊管理學系研究所論文

英文

Aitchison, J. (1985). A general class of distributions on the simplex, Journal of the Royal Statistical Society Series B, 47, 136-146.

Biesiada, J., Duch, W., Kachel, A., Maczka, K., and Palucha, S. (2005). Feature ranking methods based on information entropy with parzen window, International Conference on Research in Electrotechnology and Applied Informatics, 109-118, Katowice Poland.

Bier, V. M. and Yi, W. (1995). A Bayesian method for analyzing dependencies in precursor data, International Journal of Forecasting, 11, 25-41.

Blake, C. and Merz, C. (1998). UCI machine learning repository:
http://www.ics.uci.edu/~mlearn/MLRepository.html .



Cornor, R . J. and Mosimann, J. E. (1969). Concepts of independence for proportions with a generalization of the Dirichlet distribution, Journal of the American Statistical Association, 64, 194-206.

Fang, K. T., Kotz, S., and Ng, K. W. (1990). Symmetric multivariate and related distributions, New York: Chapman and Hall.

Kiang, M. Y.(2003). A comparative assessment of classification methods, Decision Support Systems, 35, 441-454.

Larry, R. and Howard, C. (1990). Empirical learning as a function of concept Character, Machine Learning, 5, 267-298.

Press, W. H., Flannery, B. P., Teukolsky, S. A., and Vetterling, W. T. (1988). Numerical Recipies in C, Cambridge University Press, Cambridge.

Rish, I. , Hellerstein, J. and Thathachar, J. (2001), An analysis of data characteristics that affect naïve Bayes performance. IBM Technical Report, RC21993.

Sohn, S. Y. (1999). Meta Analysis of classification algorithms for pattern recognition, IEEE Transaction on Pattern Analysis and Machine Learning, 21, 1137-1144.

Sridhar, D. V., Bartlett, E. B., and Seagrave, R. C. (1998). Information theoretic subset selection, Computers in Chemical Engineering, 22, 613-626.


Wong, T. T. (1998). Generalized Dirchlet distribution in Bayesian analysis, Applied Mathematics and Computation, 97, 165-181.

Wong, T. T. (2007). Perfect aggregation of Bayesian analysis on compositional data, Statistical Papers, 48, 265-282.

Wong, T. T. (2008). Alternative prior assumptions for improving the performance of naïve Bayesian classifiers, accepted by Data Mining and Knowledge Discovery.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊