跳到主要內容

臺灣博碩士論文加值系統

(34.226.244.254) 您好!臺灣時間:2021/08/03 01:57
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:杜榮原
研究生(外文):Tu Jung Yuan
論文名稱:以因子實驗法發掘支援向量機的重要變數與建構最小成本之診斷模型
論文名稱(外文):Using Factorial Experiments to Discover Important Features of Support Vector Machine and Building the Minimum Cost Diagnosis Model
指導教授:葉怡成葉怡成引用關係
指導教授(外文):Yeh I-Cheng
學位類別:碩士
校院名稱:中華大學
系所名稱:資訊管理學系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2007
畢業學年度:95
語文別:中文
論文頁數:78
中文關鍵詞:支援向量機部分因子實驗法反應曲面法中央合成設計法支援向量機部分因子實驗法反應曲面法中央合成設計法特徵選取
外文關鍵詞:support vector machinefractional factorial experimentsresponse surface methodologycentral composite designfeature selection
相關次數:
  • 被引用被引用:1
  • 點閱點閱:281
  • 評分評分:
  • 下載下載:57
  • 收藏至我的研究室書目清單書目收藏:0
本研究旨在以實驗計畫法來解決支援向量機的「變數選擇」問題,以建構精簡但準確的模型。其基本原理為:將一個輸入變數的選取與否視為一個二水準的實驗因子;將一個參數視為一個連續的噪音因子;將模型的準確度視為因變數;利用部分因子實驗設計得到實驗因子與噪音因子的組合;實驗完畢後,進行因子的效果分析,以決定最佳的實驗因子組合,即最佳的輸入變數組合。並以四個人為數值例題(分類與迴歸各二題)、四個實際應用例題(分類與迴歸各二題)加以驗證。研究結果顯示本方法確實可以找到重要的自變數,建構精簡但準確的模型。此外,本研究將此方法擴充到成本最佳化問題,令因變數改為模型的總成本(自變數構成的診斷成本與誤診構成的風險成本),並以一心臟病診斷實例及一甲狀腺機能診斷實例加以驗證。研究結果顯示本方法確實可以找到符合成本效益的自變數,建構總成本最低的醫學診斷模型。
The purpose of this study is to employ design of experiments (DOE) to discover important features to build simple but accurate model for support vector machine (SVM). Its basic principle is to regard selecting or do not selecting a feature as a two-level independent factor; the parameters of SVM as continuous noise factors; the accuracy of the SVM model as the dependent variable; to employ a fractional factorial experiment design to form the experiment which combines the two-level factors and the noise factors; after the experiment is finished, to analyze the effect of each factor to determine the effective independent factor combination, namely the best feature combination for the SVM model. To prove the performance of methodology, four artificial problems (two classification problems and two regression problems) as well as four real problems (two classification problems and two regression problems) were employed to verify the methodology. The results proved that the methodology can discover the important features to build simple but accurate model. Moreover, this study extended the methodology to cost optimization problem, which regarded the dependent variable as the total cost of the model (the diagnosis cost consisted of independent variables plus the risk cost consisted of misdiagnosis cost multiplied by misdiagnosis probability), and employed the heart disease diagnosis and the thyroid disease diagnosis case study to verify it. The results showed that it can really discover the cost-effective independent variables, and build the minimum cost medical diagnosis model.
目錄
第一章 前言 1
1.1 研究動機 1
1.2 文獻回顧 2
1.3 研究方法 3
1.4 研究內容 4
第二章 研究方法 6
2.1 支援向量機 6
2.2 實驗設計法簡介 8
2.3 二階段支援向量機的變數選擇與參數的設定 14
第三章 數值例題 21
3.1前言 21
3.2例題一:交互與二次分類函數 21
3.3例題二:交互與二次迴歸函數 22
3.4例題三:線性與二次分類函數 23
3.5例題四:線性與二次迴歸函數 25
3.6結語 26
第四章 實例分析 28
4.1前言 28
4.2例題五:森林地表覆蓋類型問題 28
4.3例題六:混凝土強度個案 31
4.4例題七:集集大地震引致山崩個案 33
4.5例題八:休旅車潛在客戶開發個案 35
4.6結語 38
第五章 最小成本之醫學診斷模型 39
5.1方法 39
5.2例題九:心臟病診斷個案 39
5.3例題十:甲狀腺機能診斷個案 45
5.4結語 49
第六章 結論與建議 50
6.1 結論 50
6.2 研究貢獻 51
6.3 建議 52
參考文獻 53
附錄一:32回合實驗設計表 56
附錄二:各例題的32回合實驗設計表數據 59
附錄三:各例題的網格法結果 69

圖目錄
圖1- 1線性可分情況下的最優分類面 1
圖2- 1基於反應曲面法的品質設計程序 13
圖2- 2中央合成設計(K=2) 14
圖2- 3十個自變數二個參數的實驗設計表 17
圖2- 4十個自變數二個參數的實驗設計結果 18
圖2- 5數值例題一的實驗因子效果直條圖 19
圖2- 6 8*8網格法尋找最佳參數的3D圖 20
圖2- 7 8*8網格法尋找最佳參數的2D圖 20
圖3- 1數值例題一的實驗因子效果直條圖 22
圖3- 2數值例題二的實驗因子效果直條圖 23
圖3- 3數值例題三的實驗因子效果直條圖 24
圖3- 4數值例題四的實驗因子效果直條圖 26
圖4- 1例題五(森林地表覆蓋類型)的實驗因子效果直條圖 30
圖4- 2例題三(森林地表覆蓋類型)的BPN重要性指標直條圖 31
圖4- 3例題六(混凝土強度)的實驗因子效果直條圖 32
圖4- 4例題四(混凝土強度)的BPN重要性指標直條圖 33
圖4- 5例題七(集集大地震引致山崩)的實驗因子效果直條圖 34
圖4- 6例題七(集集大地震引致山崩)的BPN重要性指標直條圖 35
圖4- 7例題八(休旅車潛在客戶開發)的實驗因子效果直條圖 37
圖4- 8例題八(休旅車潛在客戶開發)的BPN重要性指標直條圖 38
圖5- 1誤診成本假設為30萬元時的心臟病診斷例題之實驗因子效果 43
圖5- 2誤診成本假設為100萬元時的心臟病診斷例題之實驗因子效果 43
圖5- 3誤診成本假設為300萬元時的心臟病診斷例題之實驗因子效果 44
圖5- 4誤診成本假設為1000元時的甲狀腺機能診斷例題之實驗因子效果 47
圖5- 5誤診成本假設為3000元時的甲狀腺機能診斷例題之實驗因子效果 47
圖5- 6誤診成本假設為10000元時的甲狀腺機能診斷例題之實驗因子效果 47
圖 1例題一之網格法結果2D圖 69
圖 2例題二之網格法結果2D圖 70
圖 3例題三之網格法結果2D圖 71
圖 4例題四之網格法結果2D圖 72
圖 5例題五之網格法結果2D圖 73
圖 6例題六之網格法結果2D圖 74
圖 7例題七之網格法結果2D圖 75
圖 8例題八之網格法結果2D圖 76
圖 9例題九之網格法結果2D圖 77
圖 10例題十之網格法結果2D圖 78
表目錄
表2- 1 8*8網格法尋找最佳參數設定 19
表3- 1 使用重要變數與使用全部變數下的誤差之比較 27
表4- 1森林地表覆蓋類型實例的自變數 29
表4- 2各覆蓋類型的資料數目 29
表4- 3混凝土強度個案例題的自變數 31
表4- 4集集大地震引致山崩個案輸入變數表 34
表4- 5休旅車潛在顧客開發之輸入變數 36
表4- 6使用重要變數與使用全部變數下的誤差之比較 38
表5- 1心臟病診斷例題之自變數 40
表5- 2心臟病診斷例題編碼後之變數 41
表5- 3心臟病診斷三種誤診成本下的結果 42
表5- 4心臟病診斷誤診成本之影響分析 44
表5- 5甲狀腺機能診斷使用之自變數 45
表5- 6甲狀腺機能診斷三種誤診成本下的結果 46
表5- 7甲狀腺機能診斷誤診成本之影響分析 48
表6- 1各例題使用重要變數與使用全部變數下的準確度之比較 50
表 1七個變數實驗設計表 56
表 2八個變數實驗設計表 56
表 3九~十個變數實驗設計表 57
表 4十一~三十一個變數實驗設計表(0即代表 -1) 58
表 1交互與二次分類函數的32回合實驗設計表數據 59
表 2交互與二次迴歸函數的32回合實驗設計表數據 60
表 3線性與二次分類函數的32回合實驗設計表數據 61
表 4線性與二次迴歸函數的32回合實驗設計表數據 62
表 5森林地表覆蓋類型問題的32回合實驗設計表數據 63
表 6混凝土強度個案的32回合實驗設計表數據 64
表 7集集大地震引致山崩個案的32回合實驗設計表數據 65
表 8休旅車潛在客戶開發個案的32回合實驗設計表數據 66
表 9心臟病診斷個案的32回合實驗設計表數據 67
表 10甲狀腺機能診斷個案的32回合實驗設計表數據 68
表 1 例題一之網格法結果 69
表 2 例題二之網格法結果 70
表 3 例題三之網格法結果 71
表 4 例題四之網格法結果 72
表 5 例題五之網格法結果 73
表 6 例題六之網格法結果 74
表 7 例題七之網格法結果 75
表 8 例題八之網格法結果 76
表 9 例題九之網格法結果 77
表 10 例題十之網格法結果 78
1.Vapnik, V.N., The Nature of Statistical Learning Theory, Springer-Verlag, New York (1995).
2.Cortes, F., and Vapnik, V., “Support Vector Networks,” Machine Learning, Vol. 20, No. 3, pp.273-297 (1995).
3.Burges, C., “A tutorial on support vector machines for pattern recognition,” Data Mining and Knowledge Discovery, Vol. 2, No. 2, pp.121-167 (1998).
4.Cristianini, N., and Shawe-Taylor, J. An Introduction to Support Vector Machines, Cambridge University Press, Cambirdge University, 2000.
5.柳回春、馬樹元,「支援向量機的研究現狀」,中國圖像圖形學報:A輯,第 7卷,第 6期,第618-623 頁(2002)。
6.Lin, C.-J. “Formulations of support vector machines: a note from an optimization point of view,” Neural Computation, Vol.13, No.2, pp.307-317 (2001).
7.Freund, Y., and Schapire, R. E. “Large margin classification using the perceptron algorithm,” Machine Learning, Vol.37, No.3, pp.277-296 (2004).
8.Chung, K.-M., Ka, W.-C., Sun, C.-L., Wang, L.-L., and Lin, C.-J., “Radius margin bounds for support vector machines with the RBF kernel,” Neural Computation, Vol.15, pp.2643-2681 (2003).
9.Guyon, I., Weston, J., Barnhill, S., and Vapnik, V., “Gene selection for cancer classification using support vector machines,” Machine Learning, Vol.46, pp.389-422 (2002).
10.Drucker, H., Wu, D., and Vapink V., “Support vector machines for spam categorization,” IEEE Transactions on Neural Networks, Vol.10, No. 5, pp.1048-1054 (1999).
11.Hsu, C. W., Chang, C. C., & Lin, C. J., A practical guide to support vector classification, http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf (2003).
12.黃建銘,「支撐向量機的自動模型選擇」,國立台灣科技大學資訊工程系,碩士論文(2004)。
13.Chapelle, O., Vapnik, V., Bousquet, O, and Mukherjee, S. “Choosing multiple parameters for support vector machines,” Machine Learning, Vol.46, pp.131-159 (2002).
14.Chen, Y.W. and Lin, C.J., “Combining SVMs with various feature selection strategies,” In I. Guyon, S. Gunn, M. Nikravesh, and L. Zadeh, editors, Feature extraction, foundations and Applications, Springer (2004).
15.Weston, J., Mukherjee, S., Chapelle, O., Pontil, M., Poggio, T., and Vapnik V., “Feature selection for SVMs,” Advances in Neural Information Processing Systems, Vol.12, pp.668-674 (2000).
16.Perkins, S., Lacker, K., and Theiler, J., “Grafting: Fast, incremental feature selection by gradient descent in function space,” Journal of Machine Learning Research, Vol.3, pp.1333-1356 (2003).
17.Guyon, I., and Elisseeff, A., “An introduction to variable and feature selection,” Journal of Machine Learning Research, Vol. 3, pp.1157-1182 (2003).
18.Lemaire, V., and Clerot, F. “An input variable importance definition based on empirical data probability and its use in variable selection,” Proceedings of 2004 IEEE International Joint Conference on Neural Networks, Vol.2, pp.1375-1380 (2004).
19.Myers, R. H., and Montgomery, D. C., Response Surface Methodology, John Wiley & Sons, Inc., New York (1995).
20.Chang, C.C., and C.-J. Lin. LIBSVM: a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm.
21.Blackard, J.A., “Comparison of Neural Networks and Discriminant Analysis in Predicting Forest Cover Types,” Ph.D. Dissertation, Department of Forest Sciences, Colorado State University. Fort Collins, Colorado (1998).
22.Blake , C. L., and Merz , C. J., UCI repository of machine learning databases. Technical report, University of California, Department of Information and Computer Science, Irvine, CA, 1998. Available at http://kdd.ics.uci.edu/databases/covertype/covertype.html
23.程韋綸,「倒傳遞網路的敏感性分析與灰箱倒傳遞神經網路」,中華大學,資訊管理系,碩士論文(2007)。
24.Yeh, I-Cheng, “Modeling of strength of high performance concrete using artificial neural networks.” Cement and Concrete Research, Vol.28, No.12, pp.1797-1808 (1998).
25.ftp://ftp.ics.uci.edu/pub/machine-learning-databases/statlog/heart/http://www.ics.uci.edu/~mlearn/MLSummary.html
26.Kuan-yu Chen., “Application of support vector regression in forecasting international tourism demand,” Tourism Management Research, Vol.4, pp.81-97 (2004).
27.ftp://ftp.ics.uci.edu/pub/machine-learning-databases/thyroid-disease
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top