研究生(外文):Chen-Kai Liu
論文名稱:利用資料探勘技術建立疾病危險因子分析模式 -以糖尿病腎病變透析治療為例
論文名稱(外文):Applying Data Mining Techniques for Constructing Disease Risk Factor Analysis Model– The Case for Diabetic Nephropathy and Dialysis
指導教授(外文):Tian-Shyug Lee
口試委員(外文):Chi-Jie LUChi-Wen Chen
外文關鍵詞:data miningclass imbalancedisease risk factordiabetic nephropathydialysis treatment
  • 被引用被引用:2
  • 點閱點閱:1152
  • 評分評分:
  • 下載下載:13
  • 收藏至我的研究室書目清單書目收藏:0
透析治療已成為全民健保的龐大負擔,而腎病變為影響糖尿病患者是否進入透析階段的主要因素。本研究目的為利用資料探勘分析健保資料庫,探討未患有腎病變的糖尿病患者,於未來三年內發生腎病變,並進入透析階段之疾病危險因子。本研究利用健保資料庫進行回溯性世代研究,並透過集群減少多數抽樣技術(SBC)、分類迴歸樹(CART)與支援向量機(SVM)等資料探勘技術,建立疾病危險因子分析模式。本研究發現當患者具備「糖尿病病程五年以上」、「增殖型視網膜病變」或「玻璃體出血」等分析模式所篩選之疾病危險因子時,其三年內進入透析階段的發生率與勝算比(odd ratio, OR)皆顯著較高。

Dialysis treatment has become a huge burden on national health insurance. Nephropathy is major factors used to diagnose whether diabetic patients start dialysis treatment. The purpose of this study is applying data mining techniques to analysis the databases of national health insurance to explore disease risk factors affecting diabetic patients without nephropathy start dialysis treatment in next three years. The proposed disease risk factor analysis model composes three data mining techniques including under sampling based on clustering (SBC), classification and regression tree (CART) and support vector machine (SVM). Experimental results showed that three disease risk factors involving “diabetes of over 5-years duration”, “Proliferative diabetic retinopathy”, and “vitreous hemorrhages” are selected as important risk factors by using the proposed analysis model. The diabetic patients with the three risk factors have higher incidences of dialysis than the diabetic patients without the three risk factors. The proposed model overcomes the class imbalance problem and can be used to accurately find important disease risk factors and high-risk groups.
第壹章 緒論 1
第一節 研究背景與動機 1
第二節 研究目的 4
第三節 研究流程 5
第貳章 文獻探討 7
第一節 糖尿病腎病變 7
第二節 資料探勘 10
第三節 疾病預測 10
第四節 集群減少多數抽樣技術 12
第五節 分類迴歸樹 14
第六節 支援向量機 15
第參章 研究方法 17
第一節 預測變數 17
第二節 研究架構 23
第三節 集群減少多數抽樣技術 32
第四節 分類迴歸樹 36
第五節 支援向量機 37
第六節 疾病預測模型之評估 40
第肆章 實證研究 43
第一節 實證資料描述 43
第二節 疾病危險因子分析模式:階段一 43
第三節 疾病危險因子分析模式:階段二 50
第四節 疾病危險因子分析模式:階段三 59
第五節 疾病危險因子之驗證 60
第伍章 結論與建議 77
第一節 結論 77
第二節 未來研究建議 78
參考文獻 79
附錄一 預測變數之ICD-9-CM診斷碼 99
附錄二 研究對象之描述性簡介 103
附錄三 不同資料探勘技術於疾病預測模型之分類績效 109

表1-1-1 西元2006-2013年臺灣透析發生率 2
表3-2-1 透析治療之醫令代碼表 26
表3-2-2 研究對象篩選流程表 26
表3-2-3 目標變數定義表 27
表3-2-4 集合變數彙整表 28
表3-2-5 糖尿病併發症之子變數整理表 30
表3-2-6 糖尿病腎病變惡化因子之子變數整理表 31
表3-3-1 集群減少多數抽樣技術之操作步驟 34
表3-6-1 混淆矩陣 41
表4-2-1 ward法於各群集數目之R2及SPR結果彙整表-階段一 44
表4-2-2 kmeans集群技術之分群結果摘要表-階段一 44
表4-2-3 SBC於不同類別比例之多數類別抽樣數量摘要表-階段一 45
表4-2-4 重要集合變數彙整表-階段一 49
表4-3-1 ward法於各群集數目之R2及SPR結果彙整表(1:1)-階段二 51
表4-3-2 ward法於各群集數目之R2及SPR結果彙整表(2:1)-階段二 51
表4-3-3 ward法於各群集數目之R2及SPR結果彙整表(3:1)-階段二 52
表4-3-4 kmeans集群技術之分群結果摘要表-階段二 52
表4-3-5 SBC於不同類別比例之多數類別抽樣數量摘要表-階段二 53
表4-3-6 交集與聯集變數組合彙整表 56
表4-3-7 訓練資料集之摘要表 57
表4-3-8 類別比例1:1之相對重要性大於5%的交集組合-accuracy 57
表4-3-9 類別比例1:1之相對重要性大於5%的交集組合-f-measure 58
表4-3-10 類別比例1:1之相對重要性大於5%的聯集組合-accuracy 58
表4-3-11 類別比例1:1之相對重要性大於5%的聯集組合-f-measure 58
表4-3-12 SVM分類績效彙整表 59
表4-4-1 SVM重要變數組合之聯集結果表 60
表4-5-1 CART篩選之其餘疾病危險因子 61
表4-5-2 疾病危險因子之分類績效彙整表(1)-不考慮糖尿病病程 62
表4-5-3 疾病危險因子之分類績效彙整表(2)-不考慮糖尿病病程 63
表4-5-4 疾病危險因子之分類績效彙整表(1)-糖尿病病程小於五年 64
表4-5-5 疾病危險因子之分類績效彙整表(2)-糖尿病病程小於五年 65
表4-5-6 疾病危險因子之分類績效彙整表(1)-糖尿病病程大於五年 66
表4-5-7 疾病危險因子之分類績效彙整表(2)-糖尿病病程大於五年 67
表4-5-8 不同病程條件之疾病危險因子f-measure比較表 68
表4-5-9 不同病程條件之透析發生率比較表 68
表4-5-10 全部研究對象與三年內進入透析階段者之年紀分配表 69
表4-5-11 糖尿病腎病變的ICD-9-CM 診斷碼 70
表4-5-12 疾病危險因子之分類績效彙整表-與糖尿病腎病變之比較 70
表4-5-13 CART分類績效彙整表 72
表4-5-14 BN分類績效彙整表 73
表4-5-15 CART重要變數組合之聯集結果表 74
表4-5-16 BN重要變數組合之聯集結果表 74
表4-5-17 類別比例1:1之分類績效比較彙整表 75
表4-5-18 類別比例2:1之分類績效比較彙整表 75
表4-5-19 類別比例3:1之分類績效比較彙整表 76

圖1-3-1 研究流程圖 6
圖3-2-1 疾病危險因子分析模式架構圖-(a)階段一 (b)階段二 24
圖3-2-2 疾病危險因子分析模式架構圖-階段三 25
圖3-5-1 線性支援向量機於超平面進行區分示意圖 39
圖4-1-1 資料集類別比例分配圓餅圖 43
圖4-2-1 集合變數抽樣集相對重要性5%以上之長條圖(1:1)-階段一 47
圖4-2-2 集合變數抽樣集相對重要性4%以上之長條圖(2:1)-階段一 47
圖4-2-3 集合變數抽樣集相對重要性3%以上之長條圖(3:1)-階段一 48
圖4-3-1 子變數抽樣集相對重要性3%以上之長條圖(1:1)-階段二 54
圖4-3-2 子變數抽樣集相對重要性3%以上之長條圖(2:1)-階段二 54
圖4-3-3 子變數抽樣集相對重要性3%以上之長條圖(3:1)-階段二 55


