跳到主要內容

臺灣博碩士論文加值系統

(44.211.117.197) 您好!臺灣時間:2024/05/23 11:59
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:熊啓亨
研究生(外文):HSIUNG, CHI-HENG
論文名稱:迴歸樹上重要變數的判別方法
指導教授:史玉山史玉山引用關係
指導教授(外文):SHIH, YU-SHAN
口試委員:樓文達楊菁菁
口試委員(外文):LOU, WEN-DAYANG, CHING-CHING
口試日期:2019-06-11
學位類別:碩士
校院名稱:國立中正大學
系所名稱:數學系統計科學研究所
學門:數學及統計學門
學類:統計學類
論文種類:學術論文
論文出版年:2019
畢業學年度:107
語文別:中文
論文頁數:55
中文關鍵詞:重要變數
外文關鍵詞:GUIDERFRFSRC
相關次數:
  • 被引用被引用:0
  • 點閱點閱:186
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
隨著社會的進步,統計方法被廣泛地應用在各門學科之上,從自然科學、人文 科學到社會科學,進而被用在工商業及政府的決策之上。現今蒐集到的資料上 常遇到解釋變數的數量遠多於樣本數的問題,而在決策樹方法中會因為過多的 解釋變數與反應變數無關,而導致預測結果不佳的情況,因此決策樹方法應具 備有判別重要變數的能力。針對解釋變數遠多於樣本數的問題,本篇文章比較 迴歸樹方法 GUIDE 、RF 和 RFSRC 在判別重要變數的能力,其中重要變數度量又分成 GUIDE 、RF-AIR 、RF-PEM 、RF-VMD 四種方法。由模擬 實驗中發現,在部分情況下 GUIDE 重要變數度量方法能正確判別出重要變 數,且其選取出的變數中,不重要變數的數量大量地減少,並使用選取出的變 數做預測分析時,均方誤差的表現較佳。
1 緒論
2 文獻回顧
2.1 GUIDE
2.2 RF
2.3 RFSRC
3 方法研究
3.1 GUIDE重要變數判別方法及切割變數選取方法
3.2 RF重要變數判別方法及切割方法
3.3 RFSRC重要變數判別方法及切割方法
4 模擬實驗
4.1 實驗設計
4.2 重要變數的選取能力
4.3 均方誤差
5 結論與展望
參考文獻

Altmann, A., Toloşi, L., Sander, O. and Lengauer, T. (2010). Permutation importance: a corrected feature importance measure, Bioinformatics 26: 1340–1347.

Breiman, L. (2001). Random forests, Machine learning 45: 5–32.

Breiman, L., Friedman, J., Olshen, R. and Stone, C. (1984). Classification and Regression Trees, Monterey, Wadworth and Brooks.

Ishwaran, H., Kogalur, U. B., Chen, X. and Minn, A. J. (2011). Random survival forests for high-dimensional data, Statistical Analysis and Data Mining: The ASA Data Science Journal 4: 115–132.

Ishwaran, H., Kogalur, U. B., Gorodeski, E. Z., Minn, A. J. and Lauer, M. S. (2010). High-dimensional variable selection for survival data, Journal of the American Statistical Association 105: 205–217.

Ishwaran, H. and Lu, M. (2008). Random survival forests, Wiley StatsRef: Statistics Reference Online 2: 1–13.

Loh, W.-Y. (2002). Regression tress with unbiased variable selection and interaction detection, Statistica Sinica 12: 361–386.

Loh, W.-Y. (2009). Improving the precision of classification trees, The Annals of Applied Statistics 3: 1710–1737.

Loh, W.-Y. (2012). Variable selection for classification and regression in large p, small n problems, Probability approximations and beyond, Springer, pp. 135–159.

Loh, W.-Y., He, X. and Man, M. (2015). A regression tree approach to identifying subgroups with differential treatment effects, Statistics in medicine 34: 1818–1833.

Nembrini, S., König, I. R. and Wright, M. N. (2018). The revival of the GINI importance?, Bioinformatics 34: 3711–3718.

Satterthwaite, F. E. (1946). An approximate distribution of estimates of variance components, Biometrics bulletin 2: 110–114.

Wilson, E. B. and Hilferty, M. M. (1931). The distribution of chi-square, proceedings of the National Academy of Sciences of the United States of America 17: 684.

Wright, M. N. and Ziegler, A. (2017). ranger: A fast implementation of random forests for high dimensional data in C++ and R, Journal of Statistical Software 77: 1–17.

電子全文 電子全文(網際網路公開日期:20240627)
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top