跳到主要內容

臺灣博碩士論文加值系統

(98.84.18.52) 您好!臺灣時間:2024/10/14 04:43
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:盧瑜芬
研究生(外文):Lu, Yu Fen
論文名稱:使用三種資料探勘演算法-類神經網路、邏輯斯迴歸及決策樹-預測乳癌患者存活情形之效能比較
論文名稱(外文):Predicting Breast Cancer Patients’ Survivability: The Comparison of Using Three Data Mining Methods- Artificial Neural Network, Logistic Regression and Decision Tree
指導教授:朱基銘朱基銘引用關係
指導教授(外文):Chu Chi Ming
學位類別:碩士
校院名稱:國防醫學院
系所名稱:公共衛生學研究所
學門:醫藥衛生學門
學類:公共衛生學類
論文種類:學術論文
論文出版年:2006
畢業學年度:94
語文別:中文
論文頁數:210
中文關鍵詞:乳癌存活預測類神經網路邏輯斯迴歸決策樹
外文關鍵詞:Breast cancersurvival predictionArtificial Neural NetworkLogistic RegressionDecision Tree
相關次數:
  • 被引用被引用:40
  • 點閱點閱:8109
  • 評分評分:
  • 下載下載:3303
  • 收藏至我的研究室書目清單書目收藏:7
中文摘要
預測模式常用於各種醫學研究做為診斷與預後的工具,一般常見的預測模式多為多變項分析的邏輯斯迴歸模式,近十年左右資料探勘技術廣為醫學領域研究者所應用,尤其是類神經網路模型運用於癌症患者存活預測。本研究以類神經網路、邏輯斯迴歸與決策樹三種演算方法比較不同資料母群因素、不同研究個案排除條件因素、不同訓練樣本因素與不同驗證資料因素對於預測模型評估結果的影響與成因,以及預測因子在預測模型中的相對重要性,並提供檢視癌症登記檔現有的變項在乳癌患者存活預測的能力。
研究對象為美國癌症登記資料檔(SEER)與台灣地區癌症登記資料檔(CRS)中乳癌個案,SEER資料排除死因非乳癌者64096例,排除死因非癌症者66875例;CRS資料排除死因非乳癌者27010例,排除死因非癌症者27809例。以預測準確率、ROC曲線下面積、ROC曲線敏感度0.95時特異度值等三項參數評估預測模型的預測效能。研究結果顯示,1.以不同資料母群因素而言,SEER資料模型平均預測準確率高於CRS資料模型約10.04%。2.以不同研究個案排除條件因素而言,「排除死因非乳癌者」模型平均預測準確率略高於「排除死因非癌症者」模型1.17%。3.以不同訓練樣本因素而言,「訓練樣本單一年度」與「訓練樣本多年累計」模型在外部驗證資料中相差不多,在無外部驗證資料中SEER資料模型為「訓練樣本單一年度」模型稍高於「訓練樣本多年累計」模型0.515%,CRS資料模型則為「訓練樣本單一年度」模型低於「訓練樣本多年累計」模型1.305%。4.以不同演算方法而言,SEER資料模型在無外部驗證時,決策樹表現較其他兩演算方法好,約高出6%,在外部驗證時表現較其他兩演算方法差,約低3%,決策樹受母群或樣本特性影響較大,表現不穩定;CRS資料模型則三種演算方法預測效能相近。5.以不同驗證資料因素而言,各模型平均預測準確率外部驗證低於無外部驗證2.93%,在類神經網路模型外部驗證低於無外部驗證1.42%,在邏輯斯迴歸模型外部驗證低於無外部驗證1.01%,在決策樹模型外部驗證低於無外部驗證6.37%。
研究結果指出SEER資料模型在各個可能影響存活預測因素下的表現較CRS資料模型一致;由三種演算方法比較得知,類神經網路與邏輯斯迴歸在外推能力與訓練能力表現相差不多,且外推能力遠優於決策樹,但訓練能力則以決策樹表現遠優於類神經網路與邏輯斯迴歸;由內外部驗證與ROC曲線評估得決策樹表現優於類神經網路與邏輯斯迴歸。顯示決策樹用以萃取分類規則時可能為很好的工具,但決策樹易高估預測準確率且較容易受到預後因子縮減影響。
ABSTRACT

Objective: This study compared the performance of prediction models, which were implemented using three data mining methods- Artificial Neural Network, Logistic Regression and Decision Tree. We found causes that will affect the prediction models, which causes included effects of populations, sample sizes, exclusive criteria, internal/external validation and single/cumulative yearly training set(s). Furthermore, the study investigated the abilities of predictive variables in Taiwan and USA Cancer Registry System for breast cancer patients.


Methods and materials: Study samples were diagnosed as breast cancer patients in the USA Cancer Registry Database (SEER) during years 1973-2001 and Taiwan Cancer Registry Database (CRS) during years 1979-2002. SEER dataset were 64096 cases excluding died not in breast cancer, 66875 cases excluding died not in cancer. CRS dataset were 27010 cases excluding died not in breast cancer, 27809 cases excluding died not in cancer. The performances of prediction models were evaluated according to parameters such as accuracy, the area under ROC curve, specificity under sensitivity fixed at 0.95.


Results: The results indicated : 1. SEER model performed better accuracy that was 10.04% higher than CRS model. 2. Models of cases excluding died not in breast cancer performed better accuracy that was 1.17% slightly higher than models of cases excluding died not in cancer. 3. Models of training set with single and accumulative yearly cases performed similarly on the external validation set. 4. In SEER models, Decision Tree performed the best accuracy but not steadily that was about 6% higher than other methods on internal validation set but about 3% lower than other methods on external validation set. In CRS models, three methods performed similarly . 5. Models on external validation set performed an average accuracy 2.93% lower than on internal validation set, respectively, 1.42% lower in Artificial Neural Network, 1.01% lower in Logistic Regression and 6.73% lower in Decision Tree.

Conclusion: SEER models performed better than CRS models, and Artificial Neural Network method performed similarly with Logistic Regression method. Decision Tree models performed the best accuracy and AUC among three methods on internal validation set that showed Decision Tree was a good tool for implementing predictive rules, but highly overestimated accuracy when internal versus external validation and was hypersensitive of decreasing predictive factors.
正文目錄
第一章 前言 1
第一節 研究背景 1
第二節 研究動機 2
第三節 研究目的 3
第四節 研究問題 4
第二章 文獻探討 5
第一節 乳癌流行病學特性探討 5
第二節 預後因子與存活分析 10
第三節 影響乳癌之預後因子探討 15
第三章 基本理論架構模式探討 17
第一節 資料探勘(Data mining) 17
壹、 資料探勘的定義與步驟 17
貳、 資料探勘方法於醫學研究的應用 18
第二節 類神經網路(Artificial Neural Networks) 20
第三節 邏輯斯迴歸(Logistic regression) 26
第四節 決策樹(Decision trees) 28
第四章 研究材料與方法 29
第一節 研究對象 29
壹、 研究對象範圍 29
貳、 研究對象選樣流程 30
第二節 研究變項操作型定義與篩選條件 34
壹、 台灣地區癌症登記檔研究變項操作型定義 34
貳、 美國癌症登記資料庫研究變項操作型定義 35
參、 研究變項篩選條件 36
第三節 研究架構 38
第四節 研究設計 41
壹、 預測模型建立 41
貳、 預測模型評估 44
參、 分析方法參數設定 46
肆、 研究流程 48
第五節 資料處理及統計方法 49
壹、 類神經網路模型之變項相對重要性係數 49
貳、 邏輯斯迴歸之標準化迴歸係數 50
參、 決策樹模型分支變項採用頻率分數 51
肆、 邏輯斯迴歸分析之無效值處理 52
伍、 統計方法 52
第五章 結果 54
第一節 研究對象篩選過程個案數分布 54
第二節 預測模型分布 55
壹、 個案人數分布 55
貳、 存活狀態分布 55
第三節 基本人口學和臨床診斷特徵與存活狀態分布之相關 57
第四節 預測模型評估 61
第五節 預測模型評估比較 63
壹、 美國與台灣地區預測模型比較 63
貳、 不同研究個案排除條件建構之預測模型比較 63
參、 不同訓練樣本設計建構之預測模型比較 64
肆、 三種演算方法建構之預測模型比較 65
第六章 討論 69
第一節 乳癌存活預後因子 69
壹、 影響乳癌患者存活預後因子驗證 69
貳、 預測模型變項相對重要性 70
第二節 影響預測模型表現之因素探討與驗證 72
壹、 不同資料母群(美國與台灣)建構之預測模型 72
貳、 不同研究個案排除條件建構之預測模型 77
參、 不同訓練樣本設計建構之預測模型 79
肆、 三種演算方法建構之預測模型 80
伍、 無外部驗證與外部驗證評估 81
陸、 其他評估:預測模型ROC曲線評估 83
第三節 研究特性與研究限制 85
壹、 研究特性 85
貳、 研究限制 85
第七章 結論 88
參考文獻 93
參考文獻

Abu-Hanna, A. and P. J. Lucas (2001). Prognostic models in medicine. AI and statistical approaches. Methods Inf Med 40(1): 1-5.

Burke, H. B. and D. E. Henson (1993). The American Joint Committee on Cancer. Criteria for prognostic factors and for an enhanced prognostic system. Cancer 72(10): 3131-5.

Chan, J. K., V. Loizzi, et al. (2003). Prognostic factors in neuroendocrine small cell cervical carcinoma: a multivariate analysis. Cancer 97(3): 568-74.

Cios, K. J. and G. W. Moore (2002). Uniqueness of medical data mining. Artif Intell Med 26(1-2): 1-24.

Concato, J. (2001). Challenges in prognostic analysis. Cancer 91(8 Suppl): 1607-14.

Coppini, D. V., P. A. Bowtell, et al. (2000). Showing neuropathy is related to increased mortality in diabetic patients - a survival analysis using an accelerated failure time model. J Clin Epidemiol 53(5): 519-23.

Davy, M. L., T. J. Dodd, et al. (2003). Cervical cancer: effect of glandular cell type on prognosis, treatment, and survival. Obstet Gynecol 101(1): 38-45.

Delen, D., G. Walker, et al. (2005). Predicting breast cancer survivability: a comparison of three data mining methods. Artif Intell Med 34(2): 113-27.

Dreiseitl, S. and L. Ohno-Machado (2002). Logistic regression and artificial neural network classification models: a methodology review. J Biomed Inform 35(5-6): 352-9.

Drew, P.J.; Magee, P.; et al. (1998). Neural networks improve the prediction of survival in breast cancer. European Journal of Cancer 34(5 Suppl): S100.

Ennett, C. M., M. Frize, et al. (2004). Improvement and automation of artificial neural networks to estimate medical outcomes. Med Eng Phys 26(4): 321-8.

Fayyad, U. M., G. S. Piatetsky, et al. (1996). The KDD process for extracting useful knowledge from volumes of data. Commun ACM 39(11): 27-34.

Fazeny-Dorner, B., C. Wenzel, et al. (2003). Survival and prognostic factors of patients with unresectable glioblastoma multiforme.Anticancer Drugs 14(4): 305-12.

Fish, K.E., J.H. Barnes, et al. (1995). Artificial Neural Network: A New Methodology for Industrial Market Segmentation. Industrial Marketing Management 24: 431-8.

Grieco, A., M. Pompili, et al. (2005). Prognostic factors for survival in patients with early-intermediate hepatocellular carcinoma undergoing non-surgical therapy: comparison of Okuda, CLIP, and BCLC staging systems in a single Italian centre. Gut 54(3): 411-8.

Han, J. & Kamber, M.(2001). Data mining:concept and techniques. San Francisco: Morgan Kaufmann Publishers.

Hankey, B. F., L. A. Ries, et al. (1999). The surveillance, epidemiology, and end results program: a national resource. Cancer Epidemiol Biomarkers Prev 8(12): 1117-21.

Khan, J., J. S. Wei, et al. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nat Med 7(6): 673-9.



Kleinbaum, D. G., Kupper, L. L., Muller, K. E., Nizam A.(1998). Applied Regression Analysis and Multivariable Methods 3rd Edition. ISBN:0534209106.

Kosary, C. L. (1994). FIGO stage, histology, histologic grade, age and race as prognostic factors in determining survival for cancers of the female gynecological system: an analysis of 1973-87 SEER cases of cancers of the endometrium, cervix, ovary, vulva, and vagina. Semin Surg Oncol 10(1): 31-46.

Lavrac, N. (1999). Selected techniques for data mining in medicine. Artif Intell Med 16(1): 3-23.

Lucas, P. J. and A. Abu-Hanna (1999). Prognostic methods in medicine. Artif Intell Med 15(2): 105-19.

Lundin, M., J. Lundin, et al. (1999). Artificial neural networks applied to survival prediction in breast cancer. Oncology 57(4): 281-6.

Madeira, I., B. Terris, et al. (1998). Prognostic factors in patients with endocrine tumours of the duodenopancreatic area. Gut 43(3): 422-7.

Ohno-Machado, L. (2001). Modeling medical prognosis: survival analysis techniques. J Biomed Inform 34(6): 428-39.

Ottenbacher, K. J., P. M. Smith, et al. (2001). Comparison of logistic regression and neural networks to predict rehospitalization in patients with stroke. J Clin Epidemiol 54(11): 1159-65.

Pisansky, T. M., M. J. Kahn, et al. (1997). An enhanced prognostic system for clinically localized carcinoma of the prostate. Cancer 79(11): 2154-61.

Quinlan J. C4.5: programs for machine learning. San Mateo,
CA: Morgan Kaufmann; 1993.



Richards, G., V. J. Rayward-Smith, et al. (2001). Data mining for indicators of early mortality in a database of clinical records. Artif Intell Med 22(3): 215-31.

Roohan, P. J., N. A. Bickell, et al. (1998). Hospital volume differences and five-year survival from breast cancer." Am J Public Health 88(3): 454-7.

Sargent, D. J. (2001). Comparison of artificial neural networks with other statistical approaches: results from medical data sets. Cancer, 91(8 Suppl), 1636-1642.

Terrin, N., Schmid, C. H., Griffith, J. L., D'Agostino, R. B., & Selker, H. P. (2003). External validity of predictive models: a comparison of logistic regression, classification trees, and neural networks. J Clin Epidemiol, 56(8), 721-729.

van de Vijver, M. J., Y. D. He, et al. (2002). A gene-expression signature as a predictor of survival in breast cancer. N Engl J Med 347(25): 1999-2009.

Xu, Y., F. M. Selaru, et al. (2002). Artificial neural networks and gene filtering distinguish between global gene expression profiles of Barrett's esophagus and esophageal cancer. Cancer Res 62(12): 3493-7.

美國癌症協會(2006)。http://www.cancer.org
行政院衛生署(2006a)。癌症登記年報。http://crs.cph.ntu.edu.tw/crs_c/annual.html
行政院衛生署(2006b)。全國衛生統計資訊網,台灣地區死因統計資料。http://www.doh.gov.tw/statistic/data/死因摘要/93年/93.htm
http://sars.nhri.org.tw/publish/breastcancer.php,國家衛生研究院出版品,乳癌診斷與治療共識。
http://www.seer.cancer.gov,Surveillance, Epidemiology, and End Results (SEER) program public-use data,Diagnosis period 1973—2000, Registries 1—9.
http://www.bcdecker.com/SampleOfChapter/1550092626.pdf. Ann Thor. Advances in therapy: prognostic factors in breast cancer.

Susan M. Love, Karen Lindsay.(2002)。乳房聖經。天下雜誌出版社,譯自Dr. Susan Love’s Breast Book(ISBN:0-7382-0235-5)。
周鴻烈(2001)。以貝氏網路為基礎建構臨床路徑之研究。南華大學資訊管理研究所碩士論文。
高仲仁(2001)。運用類神經網路進行隧道岩體分類。中央大學應用地質研究所碩士論文。
李博智(2002)。資料探勘在慢性病預測模式之建構。元智大學資訊管理學研究所碩士論文。
陳玉豐(2003)。資料挖掘在實證醫學上之研究-以闌尾切除、疝氣、糖尿病、胃出血為例。中國醫藥學院醫務管理學研究所碩士論文。
江志宏(2003)。運用基因演算法建構疾病預測模型之研究-以尿路結石疾病預測為例。臺灣大學商學研究所博士論文。
陳啟元(2003)。資料探勘技術於健保資料之應用-以醫院門診服務點數預測為例。中正大學資訊管理研究所碩士論文。
李文瑞(2004)。運用基因演算法建構疾病早期診斷模型之研究-以糖尿病前期之診斷為例。輔仁大學資訊管理學研究所碩士論文。
周歆凱(2004)。利用『資料探勘技術』探討急診高資源耗用者之特性。台灣大學醫療機構管理研究所碩士論文。
葉怡成(2004)。類神經網路模式應用與實作。儒林圖書出版。
李博智、邱昭彰、邱文科、劉祖華、莊逸洲、黃崇哲、許光宏, “三維人體測值及資料探勘技術在高血脂症預測模型之應用(Three-dimension anthropometrics and Data Mining Approaches to Predict Hyperlipidemia),”台灣醫療管理科學學會研討會(SHMS 2002) October 4, 2002 (accepted).
謝弘一(2005)。運用支援向量機於資料探勘乳癌病患存活能力分類模式之建構。輔仁大學管理學研究所碩士論文。
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top