(3.227.249.155) 您好!臺灣時間:2021/05/07 06:19
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

: 
twitterline
研究生:張士瑋
研究生(外文):Jhang,Shih-Wei
論文名稱:應用資料探勘技術於成人健康檢查之慢性病預防
論文名稱(外文):Apply data mining techniquse to adult health examination for prophylaxis of chronic illness
指導教授:洪士程洪士程引用關係
指導教授(外文):Shih-Cheng Horng
口試委員:洪士程姚志佳林謝興
口試委員(外文):Shih-Cheng HorngChih-Chia Yaoshieh-Shing Lin,
口試日期:2014-06-12
學位類別:碩士
校院名稱:朝陽科技大學
系所名稱:資訊工程系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2014
畢業學年度:102
語文別:中文
論文頁數:53
中文關鍵詞:成人健康檢查慢性疾病資料探勘分群決策樹
外文關鍵詞:adult health examinationchronic illnessdata miningClusteringdecision tree
相關次數:
  • 被引用被引用:3
  • 點閱點閱:397
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:14
  • 收藏至我的研究室書目清單書目收藏:1
由於人口老化及人口結構的改變,高齡化的相關社會議題,漸漸受到大家的關注及重視。人口老化帶來醫療費用高漲、慢性病、身體功能退化、殘障等問題成為家庭、社會、國家的沉重負擔。因此,藉由健康檢查來達到早期發現早期治療等目標是根本之道。而成人健康檢查資料中,潛藏著一些未曾探索的重要資訊與知識。資料探勘方法可以做資料類型的發掘與萃取,而對一資料組做最佳的詮釋。本篇碩士論文藉由資料探勘技術,以找出成人健康檢查資料庫中,檢驗數值異常項目的組合。本研究以台北市某銀行所屬機構員工體檢的1000筆資料為資料庫,資料分析分成二大階段:一般統計分析與資料探勘分析。一般統計分析稱為資料的前處理,資料處理後,以供第二階段資料探勘使用。針對檢驗數值具有很多的類型數量且連續性質屬性的分類問題,提出一個結合分群與決策樹的分類器。這個分類器的基本概念是先把所有類型細分成群集,利用關鍵屬性可完成群集的分割,並產生一個群集分割樹。在群集分割樹的終端群集,則套用決策樹的方法,以降低整個分類規則庫的大小並減少計算的複雜性。最後建立出一套疾病的預測模型,透過健康檢查資料屬性去分析異常項目的相關性,並挖掘其中隱含規則,將分析結果建立出模型提供給醫生做為輔助參考,用來提高診斷出慢性病的正確性。
Due to increased number of aging population and population structure changes, people are concerned about aging-related problems that put great burdens and make enormous impacts on the family, society, and nation. The problems include increased medical expense, chronic diseases, and degeneration of the elderly. Aging population brings along chronic disease, deterioration of boding function and disabilities resulting in increase medical expenditure and heavy burden to the family, society and the nation as a whole. Regular health examination and early treatment are the most effective solutions to this problem. Important but non-intuitive information and knowledge in the adult health examination database can be found, extracted and organized using data mining. This thesis applied the data mining techniques to enhance understanding of abnormal item combinations in adult health examination data. Researchers collected a total of 1, 000 health examination records of a bank in Taipei for use in this study. Data analysis consisted of the two parts of general statistics and data mining. General statistics was a pre-process used to clarify and organize data in preparation for data mining. A classifier combining clustering and decision tree is proposed to solve the classification problem with large number of classes and continuous attributes. Critical attributes are used to perform the cluster splitting and generate a cluster splitting tree. The decision trees for the terminal clusters in the cluster splitting tree are applied so as to reduce the size of the classification rule set and hence reduce the computational complexity. This research uses the data mining techniques to explore abnormal item combination on community health screening services for the elderly. Besides, related factors of the information and knowledge are also discussed. Suggestions may serve as a useful reference for doctor to improve the correct diagnosis of a chronic illness.
目錄
第一章、緒論 1
1.1 研究動機與目的 1
1.2 研究方法與論文架構 2
第二章、成人慢性病 4
2.1 慢性疾病探討 4
2.2 正常值、範圍 8
2.3 統計結果 9
第三章、決策樹 13
3.1  CART演算法 13
3.2  C4.5演算法 16
3.3 群集決策樹 18
3.4 資料探勘軟體 25
第四章、實驗結果 31
4.1 結果比較 40
第五章、結論 51
參考文獻 52

表目錄
表1.十大死亡年齡中位數比較 1
表2.成人健康檢查項目 6
表3.以銀行業為主罹患慢性病種類 6
表4.本次實驗用的屬性(銀行業) 7
表5.各項數據正常值範圍 8
表6.類別中各項屬性平均值 11
表7.類別中各項屬性標準差 12
表8.條件X屬於分類C的對應表 16
表9. Weka分類結果(使用訓練資料) 31
表10. See5分類結果(使用訓練資料) 32
表11.Weka分類結果(使用測試資料) 32
表12.See5分類結果(使用測試資料) 33
表13.整體分類結果 33
表14.各屬性範圍分類結果 33
表15.疾病類別對照表 34
表16.第1群(2,5,6,9,10,11,12)分類結果(使用訓練資料) 35
表17.第1群(2,5,6,9,10,11,12)分類結果(使用測試資料) 35
表18.第2群(4,7,8)分類結果(訓練、測試資料) 35
表19. 第2群隱含的規則(第1次) 36
表20. 第2群(2,5,6,9,10,11,12)分類結果(使用訓練資料) 37
表21. 第2群(2,5,6,9,10,11,12)分類結果(使用測試資料) 38
表22. 第2群(4,7,8)分類結果(訓練、測試) 38
表23. 第2群隱含的規則(第2次) 39
表24.規則推測結果 39
表25.Weka、See5.0分類錯誤率(第1群) 40
表26.Weka、See5.0分類錯誤率(第2群) 40
表27.1-2群混亂矩陣TP Rate結果 41
表28.各類別訓練、測試資料數、錯誤率結果。 42
表29.脂肪肝訓練、測試結果 42
表30.肝臟血管瘤訓練、測試結果 43
表31.甲狀腺腫大訓練、測試結果 43
表32.各類別分類關鍵指標 44
表33. 各類別分類規則。 44
表34. 本次實驗用的屬性(計程車業) 45
表35.CART分類(訓練、測試)結果 45
表36. 類別中各項屬性平均值 46
表37. 實驗一分類(訓練、測試)結果 46
表38. 實驗二分類(訓練、測試)結果 47
表39. 各實驗分類(訓練、測試)結果 47
表40.CART分類(訓練、測試)結果 48
表41. 各實驗分類錯誤率結果 48
表42. 刪減後的關鍵屬性(計程車業) 48
表43. 類別2分類規則(計程車業) 49
表44.CART分類(訓練、測試)結果 49
表45.CART分類(訓練、測試)結果 50
表46.各實驗分類錯誤率結果 50
表47. 類別3分類規則(計程車業) 50


圖目錄
圖1.屬性加上3倍標準差結果 10
圖2.CART決策樹 14
圖3.說明類別 與 為可分離 19
圖4.說明類別 與 為不可分離 19
圖5.屬性 的可分離矩陣 20
圖6.圖5所對應之可分離圖形 20
圖7.屬性 的可分離矩陣 20
圖8. 在圖(6)群集A的子矩陣 21
圖9.使用屬性 進行群集A的分割 21
圖10.可分離矩陣 22
圖11.可分離矩陣 22
圖12.利用演算法I得到之群集分割樹 24
圖13.Weka with Console程式 27
圖14.Weka Explorer主畫面 27
圖15.載入訓練資料集 28
圖16.開啟訓練資料集 28
圖17.選擇決策樹演算法 29
圖18. J48分析結果畫面 29
圖19. J48演算法產生的決策樹 30
圖20.屬性A14分群 34
圖21.屬性A8分群 37


[1]M. W. Yu, H. C. Chang, Y. F. Liaw, and S. M. Lin, "Familial risk of hepatocellular carcinoma among chronic hepatitis B carriers and their relatives.," Journal of the national Cancer Institute, vol. 92, July 2000.
[2]S. M. Grundy, "Holesterol and Coronary Heart Disease," Scandinavian Journal of Clinical & laboratory Investigation - Suppllment vol. 199, pp. 17-24, 1990.
[3]T. Denoeux, "A neural network classifier based on Dempster-Shafer theory," IEEE Transactions on System,Man and Cybernetics, vol. 30, pp. 131-150, March 2000.
[4]G. P. Zhang, "Neural Networks for Classification: A Survey," IEEE Transactions on System,Man and Cybernetics, vol. 30, pp. 451-462, Nov. 2000.
[5]B. Chandra and P. P. Varghese, "FuzzifyingGini Index based decision trees," Expert System with Applications, vol. 36, pp. 8549-8559, May 2009.
[6]X. Chang and J. H. Lilly, "Evolutionary design of afuzzy classifier form data," IEEE Transactions on System,Man and Cybernetics, vol. 34, pp. 1031-1044, April 2004.
[7]J. R. Quinlan, "Improved use of continuous attributes in C4.5," J. artif. Intell. Res., vol. 4, pp. 77-90, 1996.
[8]L. Breiman and J. H. Friedman, "Classification and Regression Trees," London : Chapman & Hall, Jan. 1984.
[9]R. L. Lawrence, "Rule-Based Classification and regression Trees (C4.5) Analysis," Photogrammetric Engineering and Remote Sensing, vol. 67, pp. 1137-1142, Oct. 2001.
[10]B. K. J, R. F. Hamman, S. Hoag, J. A. Marshall, and S. M. Shettetly, "Population Screening for Glucose Intolerant Subjects Using Decision Tree Analysis," Diabetes Research and Clinical Practice vol. 34, pp. s17-s29, 1996.
[11]M. Ramoni, A. Riva, M. Stefanelli, and V. Patel, "An Ignorant Belief Network to Forecast Glucose Concentration from Clinical Databases," Artificial Intelligence in Medicine, vol. 7, pp. 541-559, December 1995.
[12]K. Steven, W. Dennis, and K. Matthew, "Artificial Neural Networks for Early Detection and Diagnosis of Cancer," Cancer Letters, vol. 77, pp. 79-83, 1994.
[13]D. Arcos, A. R. Boccaccini, M. Bohner, A. Díez-Pérez, M. Epplea, E. Gómez-Barrenaa, et al., "The relevance of biomaterials to the prevention and treatment of osteoporosis," Acta Biomaterialia, vol. 10, pp. 1793–1805, November 2013.
[14]M. G. Fernández, "Hyperthyroidism and pregnancy," ENDOCRINOLOGÍA Y NUTRICIÓN, vol. 60, pp. 535-543, November 2012.
[15]D. Orhish, "Can Life-Style Changes Reverse Coronary Atherosclerosis?," Hosp Pract, pp. 123-132, 1991.
[16]廖運範 and 陳東榮, "脂肪肝," 當代醫學, vol. 19卷, pp. 568-572, 1992.
[17]N. Bhargava, R. Bhargava, and M. Mathuria, "Decision Tree Analysis on J48 Algorithm for Data Mining," International Journal of Advanced Research in Computer Science and Software Engineering, vol. 3, pp. 1114-1119, June 2013.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔