(3.238.130.97) 您好!臺灣時間:2021/05/18 10:55
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

: 
twitterline
研究生:呂悅晴
研究生(外文):Yueh Ching Lue
論文名稱:以基因表現資料預測家族性乳癌子分類
論文名稱(外文):Classification of Hereditary Breast Cancer Subclass Using Gene Expression Data
指導教授:陳春賢陳春賢引用關係
指導教授(外文):C. H. Chen
學位類別:碩士
校院名稱:長庚大學
系所名稱:資訊管理學研究所
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2009
畢業學年度:97
論文頁數:77
中文關鍵詞:乳癌基因表現資料期望值最大化演算法決策樹
相關次數:
  • 被引用被引用:0
  • 點閱點閱:484
  • 評分評分:
  • 下載下載:79
  • 收藏至我的研究室書目清單書目收藏:0
台灣女性的乳癌死亡率逐年上升,已成為患者年齡層最年輕的癌症,實為台
灣女性生命一大威脅。目前的乳癌判別方式多為侵入性、耗時與高成本,因此
本研究以資料探勘方法做為一簡便的分析工具以協助乳癌種類的判斷。
由於癌症是漸變的過程,在本研究中首先利用期望值最大化演算法將乳癌病
患的基因表現資料轉為數個子群集,計算各筆資料隸屬於某子群集的機率值以
了解該筆資料屬於此子群的隸屬程度。重複以上步驟切割為不同群集數後,再
利用決策樹J48 演算法對不同的群集數各自進行分類以產生分類正確率,評估不同的群集數所產生的分類準確率後選擇分類準確率最佳者為結果。以決策樹J48演算法產生分類模型,並呈現出容易理解之規則。
透過本研究方法,可觀察各子群集的型譜以了解不同乳癌種類的特性,和發
覺與乳癌發生相關的基因。決策樹所呈現的簡易規則可以協助乳癌患者的分
類,並且更容易解讀。
The mortality rate of breast cancer in Taiwan has been increasing year by year. In Taiwan, breast cancer is a major threat that causes many young women dead. Currently, the diagnosis of breast cancer is invasive, time-costing, and high cost. Therefore, this thesis proposes to use gene expression data of patients and data mining technology to help the identification of breast cancer subclasses and related analysis.
In this study, EM clustering algorithm is repetitively used to cluster gene expression data from breast cancer patients into a variety of cluster numbers, and each patient sample is transformed into a probability tuple for each given cluster number respectively. Each probability of the tuple represents the degree that a sample belongs to a cluster for a given cluster number. Then, decision tree induction algorithm J48 is used on the transformed data to evaluate their performance for a given cluster number in order to find the optimal cluster number.
By using the optimal clustering result, cluster profiles can be derived to analyze the characteristics of breast cancer subclasses. Since the development of a cancer is a continuous process, each cluster profile might represent a typical sub-type of a cancer subclass. Additionally, by exploiting the optimal EM clustering result, the candidate genes related to breast cancer are inferred, and the rules helping understand and interpret the identification of breast cancer subclasses are produced.
目錄
目錄 1
表目錄 3
圖目錄 4
第一章 緒論 5
1.1研究背景 5
1.2研究動機 8
1.3研究目的 9
第二章 文獻探討 11
2.1微陣列晶片技術 11
2.2基因表現 13
2.3乳癌 14
2.4資料探勘 21
2.5期望值最大化演算法 27
2.6決策樹演算法 29
2.7 Weka 31
2.8相關研究 32
第三章 研究架構與方法 35
3.1 研究流程 35
3.2 資料描述與基本統計分析 36
3.3 使用EM演算法進行維度轉換 44
3.4 最佳維度選取方法 46
3.5 最佳區別屬性選取方法 48
3.6效能評估方式 49
第四章 實證分析 51
4.1 乳癌基因表現資料的最佳維度轉換 51
4.2 使用決策樹分析乳癌子型規則 58
4.3 最佳區別力之乳癌基因 61
第五章 討論與結論 66
5.1 討論 66
5.2 結論 67
第六章 參考文獻 68
表目錄
表2.4.1 資料探勘定義 22
表3.2.1 資料描述 37
表4.1.1 各群集分類正確率 52
表4.1.2 各筆資料屬於各子群的機率值 53
表4.1.3 資料隸屬各群狀況 54
表4.1.4 各群集分布狀況 57
表4.2.1 正確率比較 60
表4.3.1 具區別力之乳癌相關基因與蛋白質 61
圖目錄
圖1.1.1 民國96年國人十大死因比較圖 6
圖2.3.1 癌症形成過程 14
圖2.4.1 知識挖掘流程圖 23
圖2.4.2 資料探勘流程圖 26
圖3.1.1 研究流程圖 36
圖3.2.1 本研究資料集各欄位平均值 38
圖3.2.2 本研究資料集各欄位最大值 39
圖3.2.3 本研究資料集各欄位最小值 39
圖3.2.4 各乳癌類別平均值分析 40
圖3.2.5 各乳癌類別最大值分析 42
圖3.2.6 各乳癌類別最小值分析 43
圖3.3.1 研究架構圖 45
圖3.4.1 維度轉換過程圖 47
圖3.4.2 單筆資料轉換過程 48
圖4.1.1 各群集分類正確率比較圖 52
圖4.1.2 各群所屬資料筆數分配狀況 55
圖4.2.1 決策樹 59
[1] 施益民,梁偉華,《癌症生物學》,初版,台北,藝軒圖書出版
社,民國80年10月
[2]簡靜香,《分子腫瘤學》,第一版,台北,藝軒圖書出版社,民國
85年2月
[3]陳國群,《最新簡明癌症學》,第一版,台北,藝軒圖書出版社,
民國87年4月
[4]羅維魯‧哈彌遜,蓮見賢一郎,《終結癌細胞的推手:癌症疫苗》,
初版,台北,台灣珠光會生技股份有限公司,民國93年3月
[5]丁一賢,陳牧言,《資料探勘》,初版,台中,滄海書局,民國
94年4月
[6]孫惠民,《資料採掘理論與實務規畫手冊》,初版,台北,文魁資
訊股份有限公司,民國96年3月
[7]魏明鋒,〈乳癌患者之PPAR α及ApoE基因的突變分析〉,中國
醫藥大學醫學研究所,碩士論文,民國93年
[8]洪子軒,賴志東,「使用關聯決策樹作客戶行為分析之研究-以
2M/256K ADSL客戶為例」,電信研究雙月刊,第38卷第2期,241-253頁,民國97年4月
[9]行政院衛生署,民國96年死因統計記者會發布資料,台北市,民
國97年
[10] "World health statistics 2008", World Health Organization, France, 2008.
[11] Dempster, A., et al., "Maximum likelihood from incomplete data via the EM algorithm", Journal of the Royal Statistical Society, vol. 39, pp. 1-38, 1977.
[12] Freund, Y. and Schapire, R. E., "A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting", Journal of Computer and System Sciences, vol. 55, no. 1, pp. 119-139, 1997.
[13] Han, J. and Kamber, M., Data Mining: Concepts and Techniques. USA, Morgan Kaufmann Publishers, 2007.
[14] Hedenfalk, I., et al., Gene Expression Profiles in Hereditary Breast Cancer, http://research.nhgri.nih.gov/microarray/NEJM_Supplement/.
[15] McLachland and Krishnan, The EM Algorithm and Extensions. New York, Wiley, 1997.
[16] Menolascina, F., et al., "Novel Data Mining Techniques in aCGH based Breast Cancer Subtypes Profiling: the Biological Perspective", 2007 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology, 2007, pp. 9-16.
[17] Paul, T. K. and Iba, H., "Gene selection for classification of cancers using probabilistic model building genetic algorithm", BioSystems, vol. 82, no. 3, pp. 208-225, 2005.
[18] Paul, T. K. and Iba, H., "Prediction of cancer class with majority voting genetic programming classifier using gene expression data", IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 6, pp. 353-367, 2009.
[19] Raymond and Ruddon, Cancer Biology, 2 ed. United Kingdom, Oxford University Press Inc, 1995.
[20] Schneider, J., et al., "Fuzzy logic-based tumor marker profiles improved sensitivity of the detection of progression in small-cell lung cancer patient", Clin Exp Med, pp. 185-191, 2003.
[21]S. Dudoit, J., et al., "Comparison of discrimination methods for the
classification of tumors using gene expression data", Journal of the American Statistical Association, vol. 97, no. 457, pp. 77–87, 2002.
[22]Weka, http://www.cs.waikato.ac.nz/ml/weka/
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top