跳到主要內容

臺灣博碩士論文加值系統

(18.97.14.82) 您好!臺灣時間:2025/02/19 10:06
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:詹琮哲
研究生(外文):ZHAN,CONG-ZHE
論文名稱:資料集影響分類準確率之研究-以多個不同類型分類方法為例
論文名稱(外文):Research on the impact classification accuracy of datasets- A case study of multiple different types of classification methods
指導教授:黃錦法黃錦法引用關係
指導教授(外文):HUANG,JIN-FA
口試委員:陳重臣孫培然
口試委員(外文):CHEN,ZHONG-CHENSUN,PEI-RAN
口試日期:2019-07-05
學位類別:碩士
校院名稱:國立雲林科技大學
系所名稱:資訊管理系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2019
畢業學年度:107
語文別:中文
論文頁數:54
中文關鍵詞:資料探勘異常資料分類方法屬性挑選
外文關鍵詞:data miningabnormal dataclassification methodattribute selection
相關次數:
  • 被引用被引用:0
  • 點閱點閱:185
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
現今的社會中隨著時間的推移,無時無刻不產生資料,這些資料看似亂無章法毫無規則,實則不然資料探勘可以從資料中獲得有用的資訊,為企業提高競爭力。在資料探勘中,使用不合理資料進行模型訓練,勢必會導致資料分類錯誤的結果,但很少人會留意原始資料是否合理。本研究探討資料本身的合理性,當資料集中存在著不合理資料,如何從資料集中篩選出不合理資料,以減少資料探勘過程產生不良的影響。
本研究提出一個方法,以多個不同類型分類方法為基礎,針對異常資料進行篩選,藉以提高分類準確度。在研究方法中,利用三種屬性挑選方法來減少屬性數量,也利用10種不同的分類方法,對資料集進行封閉測試,將10種分類方法皆分類錯誤的單筆資料,視為異常資料將其刪除,最後將篩選後的資料集進行開放測試,將其分類準確度與原始資料集準確度進行比較。本研究共使用10個不同資料集進行實驗。實驗結果顯示,三種屬性挑選方法中,使用CfsSubsetEval屬性挑選方法效果最好,並且在10個資料集中有9個資料集準確度向上提升。

In today's society, over time, there are so many information come out at all times. These messages seem to get its act together and no rules, we can explore the useful data in dataset through data mining to increase the competition for company. Use the unreasonable data to training model in data mining, it will inevitably lead to getting the result of mistake in data classify, but few people will concern about original data whether make sense. In this study, we will explore about rationality of data, when it has irrational data in dataset, how to screen the unreasonable data from dataset to reduce the unhealthy effect during data mining. The study proposed a method to for exception data to screening base on multiple different types of classification methods to raise the accuracy of classification. In this study, use three attributes selection method to reduce the number of attributes, also use ten different classification method to do closed beta test for data. Single data in classification detail for ten classification method all are mistake, regarded as abnormal data will deleted. Finally, the dataset after filtered to do the open beta test, then, compare to the accuracy of classification of the dataset after screened and original data accuracy. Use the ten different datasets for experiments, and the result shows CfsSubsetEval attribute selection method is best in three different features selection method, and there are nine dataset accuracy is improved in ten datasets.
摘要 i
ABSTRACT ii
目錄 iii
表目錄 V
圖目錄 Vi

一、緒論 1
1.1研究背景與動機 1
1.2研究目的 2
1.3論文架構 2

二、文獻探討 3
2.1集成學習 3
2.1.1 Bagging 3
2.1.1 Boosting 4
2.2分類方法 5
2.2.1簡易貝氏 5
2.2.2貝氏網路 6
2.2.3邏輯斯迴歸 6
2.2.4多響應線型回歸(Classification Via Regression, CVR) 7
2.2.5決策樹(C4.5/J48) 8
2.2.6混合決策樹(PART) 9
2.2.7支援向量機(SVM/SMO) 9
2.2.8 K近鄰居法(KNN/IBk) 9
2.2.9多層次類神經網路(Multi Layer Perceptron, MLP) 10
2.2.10 隨機森林(Random Forest) 11

三、研究方法 12
3.1系統架構 12
3.2資料前處理階段 13
3.2.1遺漏值刪除 14
3.2.2屬性離散處理 14
3.2.3屬性挑選 14
3.3資料篩選階段 15
3.3.1準備步驟 16
3.3.2訓練步驟 16
3.3.3測試步驟 16
3.3.4結果分析步驟 16
3.4資料訓練測試階段 19
3.4.1準備步驟 20
3.4.2訓練步驟 20
3.4.3測試步驟 20
3.4.4結果分析步驟 20

四、系統實驗 22
4.1實驗資料 22
4.2實驗評估 23
4.2.1資料前處理階段 23
4.2.2資料篩選階段 25
4.2.3資料訓練測試階段 29

五、結論 34

參考文獻 35
附錄 37

1.Bauer, E., & Kohavi, R. (1999). An empirical comparison of voting classification algorithms: Bagging, boosting, and variants. Machine learning, 36(1-2), 105-139.
2.Breiman, L. (1996). Bagging predictors. Machine learning, 24(2), 123-140.
3.Frank, E., Wang, Y., Inglis, S., Holmes, G., & Witten, I. H. (1998). Using model trees for classification. Machine learning, 32(1), 63-76.
4.Frank, E., & Witten, I. H. (1998). Generating accurate rule sets without global optimization. Retrieved from https://hdl.handle.net/10289/1047
5.Freund, Y., & Schapire, R. E. (1996). Experiments with a new boosting algorithm. Paper presented at the Icml.
6.Han, J., Kamber, M., & Tung, A. K. (2001). Spatial clustering methods in data mining. Geographic data mining and knowledge discovery, 188-217.
7.Hosmer Jr, D. W., Lemeshow, S., & Sturdivant, R. X. (1989). Applied logistic regression (Vol. 398): John Wiley & Sons.
8.Kohavi, R., & Kunz, C. (1997). Option decision trees with majority votes. Paper presented at the ICML.
9.Maclin, R., & Opitz, D. (1997). An empirical evaluation of bagging and boosting. AAAI/IAAI, 1997, 546-551.
10.Platt, J. C. (1999). 12 fast training of support vector machines using sequential minimal optimization. Advances in kernel methods, 185-208.
11.Quinlan, J. R. (1992). Learning with continuous classes. Paper presented at the 5th Australian joint conference on artificial intelligence.
12.Quinlan, J. R. (1993). C4. 5: programs for machine learning: Elsevier.
13.張復喻. (2014). 資料前處理:整合補值法與樣本選取之研究.中央大學. Available from Airiti AiritiLibrary database. (2014年)

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊