跳到主要內容

臺灣博碩士論文加值系統

(44.201.97.224) 您好!臺灣時間:2024/04/18 03:14
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:顧容慈
研究生(外文):Jung-Tzu Ku
論文名稱:結合邏輯斯迴歸與決策樹模型之變項選擇策略
論文名稱(外文):Model Selection with Integration of Decision Tree Classification and Logistic Regression
指導教授:林逸芬
指導教授(外文):I-Feng Lin
學位類別:碩士
校院名稱:國立陽明大學
系所名稱:公共衛生研究所
學門:醫藥衛生學門
學類:公共衛生學類
論文種類:學術論文
論文出版年:2020
畢業學年度:108
語文別:中文
論文頁數:50
中文關鍵詞:決策樹邏輯斯迴歸變項選擇機器學習
外文關鍵詞:decision treelogistic regressionmodel selectionmachine learning
相關次數:
  • 被引用被引用:0
  • 點閱點閱:351
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
研究目標
  決策樹分析(decision tree analysis)經常被用做探索重要預測變項與類別結果變項之間關係的採礦工具,除了簡單易懂的樹狀圖結構為其一大優點之外,且不需對資料進行太多的分布假設。決策樹為資料導向(data-oriented)的工具,亦可探索變項之間的交互作用,近年已有許多臨床研究使用決策樹來找尋對結果變項重要的預測變項,但使用決策樹分析有時可能因為過度配適(over-fitting),而難以解釋其錯綜複雜的關係。決策樹經常被拿來與邏輯斯迴歸分析(logistic regression analysis)比較,但決策樹無法做統計檢定及估計,因此本研究將探討結合邏輯斯迴歸模型與分類樹模型的分析策略。

研究方法
  本研究為實證研究,以後天免疫缺乏症候群(Acquired Immunodeficiency Syndrome,AIDS)高風險的人作為研究對象的追蹤資料。本研究使用邏輯斯迴歸模型、決策樹模型,以及將上述兩模型結合在一起的兩種分析策略,分別為虛擬變項(dummy variable)合併法及複製模型(replication model)合併法。

研究結果與結論
  本研究發現,在找尋重要預測變項的面向,邏輯斯迴歸及決策樹的演算法選出的重要預測變項不同,在決策樹模型中,研究者最感興趣的主要介入變項(intervention)並未扮演重要角色,被選入決策樹節點的重要變項在邏輯斯迴歸不全然有統計上的顯著意義。且決策樹的分支要分到什麼程度,仍需研究者在各項參數上做調整。因此無論是資料導向還是假說導向模式,應根據使用目的及資料性質,去選擇適合的模型。
  在分類能力的面向,樣本較充足的情況下,邏輯斯迴歸及決策樹分析的分類預測能力相差不大,但若樣本數較小,各模型的偽陰性相當高,也造成樹模型的表現能力不如預期。本研究根據樹的分組結果,試圖用虛擬變項法及複製模型法建立該樹相對應的邏輯斯迴歸模型,卻發現複製模型法在變項稍多的情況可行性不佳,而虛擬變項法的分類能力及配適能力都略勝於傳統的邏輯斯迴歸模型。本研究建議研究者不宜單獨仰賴決策樹去找尋重要預測因子,及探討預測變項與結果變項的關係,可以決策樹作為初步分組的工具,再利用邏輯斯迴歸進行進一步的分析與檢定。
Purpose
  Decision tree analysis is a data-mining tool which is usually used to explore the relationship between important predictive variables and categorical outcome variables. In addition to easy-to-understand tree-structure diagram for its advantages, it does not need to make distribution assumptions. Decision tree is a data-oriented tool and it can explore the interactions between variables. Recently, there are many clinical researches using decision tree to find important predictive variables, but decision tree analysis may over-fit so that it is hard to explain the complicated relationship. Decision tree is often compared to logistic regression analysis, but decision tree do not provide statistical tests and estimations. This study aims to develop the analytical strategies of combining the logistic regression model with the classification tree model.

Materials and Methods
  This study is an empirical study exploring important predictors for adverse outcome among Acquired Immunodeficiency Syndrome(AIDS) high-risk people in literature. This study used the logistic regression model, decision tree model, and two analytical strategies combining the above two models, namely dummy variable method and replication model method.

Results and conclusions
  This study found that in the aspect of searching important predictive variables, the algorithms of the logistic regression and decision tree selected different variables. In the decision tree model, the intervention variable of interest did not play an important role. Moreover, what extent the branches of the decision tree should be divided, it still need researchers to make adjustments on various parameters. Therefore, whether it is the data-oriented model or hypothesis-oriented model, the appropriate model should be selected according to the purpose of use and the data attributes.
  In the aspect of classification ability, logistic regression and decision tree are similar when the sample size is large. But if the sample size is small, for example, further stratified into groups with these data, the false negative rates of each model are quite high, which also cause the performance of decision tree to be poor. Based on the results of tree, this study attempted to build the corresponding logistic regression models with dummy variable method and replication model method. The results showed that replication model method is not feasible in case of many variables included. On the other hand, the classification ability or fitting ability of dummy variable method is slightly better than replication model method. This study suggests that researchers should not rely on decision trees to find important predictors and explore the relationship between predictive variables and outcome variables only. Decision tree can be used as a preliminary grouping tool, and then logistic regression can be used for further analysis and test.
目錄
 誌謝 i
 摘要 ii
 Abstract iv
 目錄 vi
 圖目錄 ix
 表目錄 x
 第一章 緒論 1
  第一節 研究背景與動機 1
  第二節 研究目的 3
 第二章 材料與方法 4
  第一節 資料介紹 4
   一、 資料簡介 4
   二、 變項介紹 5
  第二節 邏輯斯迴歸 6
   一、 邏輯斯迴歸簡介 6
   二、 變項選擇方式 8
  第三節 決策樹 10
   一、 決策樹簡介 10
   二、 決策樹演算法 13
   三、 決策樹分支準則 16
   四、 決策樹修剪方式 19
  第四節 邏輯斯迴歸與決策樹之結合策略 22
   一、 虛擬變項法 23
   二、 複製模型法 24
  第五節 模型評估 25
   一、 分類能力(classification ability) 25
   二、 配適能力(discrimination ability) 28
 第三章 研究結果 30
  第一節 敘述統計量 30
  第二節 邏輯斯迴歸分析 31
   一、 逐步選取法 31
   二、 循序漸進法 32
  第三節 決策樹分析 34
  第四節 邏輯斯迴歸與決策樹之結合策略 38
   一、 虛擬變項法 38
   二、 複製模型法 41
  第五節 模型評估 42
   一、 分類能力 42
   二、 配適能力 45
 第四章 討論及結論 46
  第一節 討論 46
   一、 邏輯斯迴歸模型與決策樹模型選取的重要變項之差異 46
   二、 邏輯斯迴歸模型與決策樹模型的結合分析策略及其可行性 47
   三、 邏輯斯迴歸模型、決策樹模型、結合模型的比較 47
   四、 與前人研究結果之比較 48
  第二節 結論 49
 參考文獻 50


圖目錄
 圖2-1:決策樹建構流程圖 11
 圖2-2:決策樹示意圖 12
 圖2-3:決策樹修剪範例 21
 圖2-4:決策樹範例 22
 圖2-5:ROC曲線坐標示意圖 27
 圖3-1:UIS訓練資料分類樹模型 35
 圖3-2:UIS訓練資料種族為白人的分類樹模型 36
 圖3-3:UIS訓練資料種族為非白人的分類樹模型 37


表目錄
 表2-1:UIS資料結構 5
 表2-2:決策樹常見演算法之比較 13
 表2-3:資料D結構 17
 表2-4:分組條件 23
 表2-5:虛擬變項 23
 表2-6:新的二元變項 25
 表2-7:混亂矩陣 26
 表2-8:AUC判別規則 28
 表3-1:UIS資料敘述統計量 30
 表3-2:UIS訓練資料逐步選取邏輯斯迴歸模型係數估計 31
 表3-3:UIS訓練資料單變項邏輯斯迴歸模型係數估計 33
 表3-4:UIS訓練資料初步主效應邏輯斯迴歸模型係數估計 33
 表3-5:UIS訓練資料循序漸進邏輯斯迴歸模型係數估計 34
 表3-6:UIS訓練資料分類樹變項重要性 35
 表3-7:UIS訓練資料種族為白人的分類樹變項重要性 36
 表3-8:UIS訓練資料種族為非白人的分類樹變項重要性 37
 表3-9:11組的虛擬變項 38
 表3-10:UIS訓練資料虛擬變項法邏輯斯迴歸模型係數估計 39
 表3-11:UIS訓練資料種族為白人虛擬變項法 40
 表3-12:UIS訓練資料種族為非白人虛擬變項法 41
 表3-13:逐步選取邏輯斯迴歸模型混亂矩陣 43
 表3-14:循序漸進邏輯斯迴歸模型混亂矩陣 43
 表3-15:決策樹模型混亂矩陣 43
 表3-16:虛擬變項法邏輯斯迴歸模型混亂矩陣 44
 表3-17:各模型AUC與正確率比較 44
 表3-18:各模型AIC比較 45
1. Mello, F.C., et al., Predicting smear negative pulmonary tuberculosis with classification trees and logistic regression: a cross-sectional study. BMC Public Health, 2006. 6: p. 43.
2. Kurt, I., M. Ture, and A. Turhan Kurum, Comparing performances of logistic regression, classification and regression tree, and neural networks for predicting coronary artery disease. Vol. 34. 2008. 366-374.
3. Arostegui, I., et al., Combining statistical techniques to predict postsurgical risk of 1-year mortality for patients with colon cancer. Clin Epidemiol, 2018. 10: p. 235-251.
4. Lemon, S.C., et al., Classification and regression tree analysis in public health: methodological review and comparison with logistic regression. Ann Behav Med, 2003. 26(3): p. 172-81.
5. Wiley, J., Wiley FTP. 2001: ftp://ftp.wiley.com/public/sci_tech_med/logistic.
6. Hosmer, D.W. and S. Lemeshow, Applied Logistic Regression. 2 ed. 2000.
7. McCusker, J., et al., The effectiveness of alternative planned durations of residential drug abuse treatment. Am J Public Health, 1995. 85(10): p. 1426-9.
8. McCusker, J., et al., The effects of planned duration of residential drug abuse treatment on recovery and HIV risk behavior. American journal of public health, 1997. 87(10): p. 1637-1644.
9. McCusker, J., et al., Planned duration of residential drug abuse treatment: efficacy versus effectiveness. Addiction, 1997. 92(11): p. 1467-78.
10. Deepapriya, S. and R. Ravanan, Survival Analysis of UIS patients under Parametric andNon-Parametric Approach using R software. International Journal of Scientific and Research Publications, 2015. 5(5).
11. 簡禎富 and 許嘉裕, 資料挖礦與大數據分析. 2014.
12. 吳明隆 and 張毓仁, R軟體在決策樹的實務應用. 2017.
13. Breiman, L., et al., Classification And Regression Trees. 1993.
14. Mello, F.C.d.Q., et al., Predicting smear negative pulmonary tuberculosis with classification trees and logistic regression: a cross-sectional study. BMC Public Health, 2006. 6(1): p. 43.
連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊