研究生(外文):Cheng-Hsu Chung
論文名稱(外文):A Study of Outcome Prediction of IVF throughClassifier Ensemble Approach
指導教授(外文):Jui-Hsiang Ku
外文關鍵詞:InVitro FertilizationEnsembleData Mining
在現今的醫療體系中,試管嬰兒(in vitro fertilization, IVF)治療是昂貴且痛苦的,到目前為止試管嬰兒的成功率普遍不高。本研究的目的在於應用資料探勘技術於 IVF 資料庫之分析,以集成式演算法中的 Ada-boosting 構建出一個預測模型;同時找出預測的規則,藉以探討影響 IVF 結果的因素之間的關係。本研究使用了簡單貝氏、決策樹、倒傳遞類神經網路及邏輯斯迴歸等工具分析 IVF資料庫,並且比較單一分類器與結合多種分類器之優劣。模擬結果顯示以四種演算法為基底分類器結合 Ada-boosting 集成式演算法分類效果最佳,分類準確率可達71.53%,而由誤差均方根與 ROC 曲線下面積評估的結果,也可知道集成式演算法的分類結果優於單一分類器,且當基底組合種類越多的時候,其分析結果也會優於數量較少的組合模型,表示其預測能力越好。本研究的結果,除了可提供給醫師及病患作為成功機率預測的參考,也可顯示集成式演算法的分類結果相較於單一分類器來的佳,使用多個不同的分類器建立的模型架構相對於使用單一分類器的模型,準確率較為準確與優良。
IVF treatment is both expensive and painful. So far, IVF success rates have remained low. The purpose of this study is to apply data mining techniques in IVF
database analysis in order to construct a predictive model through Ada-Boosting in integrated algorithms. In addition, simple Bayesian, decision tree,back-propagationnetwork, logisticregression analysis, and other tools were adopted to analyzethe IVF database and compare the soundness of single classifiers and a
combination of multiple classifiers. Simulation results show that with the four algorithms as the bases, the classifierscombined with the integrated algorithms
produce the best classification results, with the classificationaccuracy reaching 71.53%. The study results shall serve as a reference for physicians during success
rate determination and aid physicians in developing IVF treatment procedures that will contribute to improved success rates.
Abstract ...................................ii
目錄....................................... iv
表目錄 .................................... vii
圖目錄 ................................... viii
第一章 緒論................................... 1
1.1 研究背景與動機 ............................1
1.2 研究目的 ................................ 2
1.3 研究限制.................................. 3
1.4 研究架構 ..................................3
第二章 文獻探討................................5
2.1 不孕症 ................................... 5
2.1.1 不孕症的原因 .............................5
2.1.2 試管嬰兒 .................................5
2.2 資料探勘(Data Mining) ....................... 6
2.2.1 資料探勘定義 ............................. 6
2.2.2 資料探勘流程 ............................... 7
2.2.3 資料探勘類型 ............................... 8
2.2.4 資料探勘的應用 ........................... 10
2.3 簡單貝氏 ................................. 11
2.4 決策樹(Decision Tree, DT) ..................... 13
2.4.1 決策樹的組成 ............................... 14
2.4.2 決策樹常見類型 .......................... 15
2.5 倒傳遞類神經網路(Back Propagation Neural Network, BPN)............... 17
2.6 邏輯斯迴歸(Logistic Regression, LR) ......... 20
2.7 集成式演算法(Ensemble methods) ............... 21
2.7.1 多數決投票(majority voting) ................. 22
2.7.2 推進法(Boosting) .......................... 23
2.7.3 Ada-boosting 演算法 ...................... 24
第三章 研究方法 .............................. 25
3.1 研究流程 ............................... 25
3.2 資料來源 .............................. 27
3.3 資料處理 ................................ 27
3.4 實驗軟硬體資訊 ............................ 30
3.4.1 WEKA 簡介..................................31
3.4.2 WEKA 文件系統格式 ........................ 32
3.5 模型建構說明..................................32
3.5.1 單一模型 ..................................32
3.5.2 集成式模型 ........................... 36
3.6 模型評估 ............................... 37
第四章 研究結果 ................................... 39
4.1 單一分類模型................................. 39
4.1.1 簡單貝氏(NB) ......................... 39
4.1.2 決策樹(J48)........................ 40
4.1.3 倒傳遞類神經網路(BPN) .................... 41
4.1.4 邏輯斯迴歸(LR) ........................... 43
4.1.5 單一分類模型之最佳參數整理................... 44
4.2 Ada-boosting 結合單一基底分類器模型 .......... 45
4.3 Ada-boosting 結合多種基底分類器模型 .......... 45
4.3.1 Ada-boosting 結合兩種基底分類器模型......... 46
4.3.2 Ada-boosting 結合三種基底分類器模型......... 46
4.3.3 Ada-boosting 結合四種基底分類器模型....... 47
4.4 模型評估與分析 ................................ 47
4.4.1 誤差均方根比較法 ......................... 47
4.4.2 接收者操作特徵曲線下面積比較法 ............ 53
第五章 結論與建議 ............................ 59
5.1 研究結論 ................................ 59
5.2 研究建議 ................................ 60
參考文獻 ..................................... 61
附件一 .................................... 65
Extended Abstract ......................... 66
簡歷................................. 71
