跳到主要內容

臺灣博碩士論文加值系統

(44.192.49.72) 您好!臺灣時間:2024/09/12 15:18
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:賴堅文
研究生(外文):Jian-Wen Lai
論文名稱:使用基因演算法於蛋白質體資料之屬性選擇
論文名稱(外文):Using Genetic Algorithm for Feature Selection in Processing of Proteomic Data
指導教授:黃貞瑛黃貞瑛引用關係
指導教授(外文):Jen-Ing Grace Hwang
學位類別:碩士
校院名稱:輔仁大學
系所名稱:資訊工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2006
畢業學年度:94
語文別:中文
論文頁數:55
中文關鍵詞:基因演算法蛋白質體資料庫屬性選擇類神經網路
外文關鍵詞:genetic algorithmproteomic datafeature selectionneural network
相關次數:
  • 被引用被引用:0
  • 點閱點閱:262
  • 評分評分:
  • 下載下載:49
  • 收藏至我的研究室書目清單書目收藏:1
本次研究之主要目的為找尋具有分類鑑別度之攝護腺癌症資料屬性,此資料庫為一蛋白質體資料,含有779個屬性、652筆病人紀錄並分為四種類別(正常、良性腫瘤、早期癌症、晚期癌症)。本文利用基因演算法,並針對此蛋白質體資料庫設計其資料表示方式、基因運算子、適應函數等。換言之,在限制屬性個數的情況下,我們希望找到決定性的屬性,並且以找到生物標誌為目標。此次研究限制屬性個數在20個之內,實驗中最佳之結果可找到16個屬性,其四分類之測試準確率,經由決策樹及類神經網路之分類演算法,在使用十摺交叉驗證法下(ten-fold cross-validation),其平均測試準確率分別為78.5%、82.9%;而未經基因演算法之屬性選擇,具有779個屬性資料,其決策樹及類神經網路的四分類平均測試準確率有75.9%、86.3%。由此結果,可以發現分類準確率相近之下,屬性之個數卻有極大差距(16與779),證明本研究所提出之基因演算法,確實達到找尋具有分類鑑別度之重要屬性,其個數遠少於原資料庫之屬性,且具有不錯之分類準確率。
Cancer detection is one of the most important issues in medicine, and finding its biomarker is critical for the diagnosis of disease. The approach for biomarker discovery has been focusing in genomics and proteomics. In this study, we have utilized genetic algorithms (GA) on a proteomic data of prostate cancer to select relevant features. This set of proteomic data was produced by the surface enhanced laser desorption/ionization (SELDI) mass spectrometer. The dataset includes 652 spectra from 326 patients (each patient has two replicates) with four disease status: normal healthy, benign prostate hyperplasia, early-stage and late-stage prostate cancer. Each spectrum of the dataset contains 779 features (mass/charge; m/z). In this paper, we developed a genetic algorithm for the feature selection. We have defined a data representation to express a candidate solution of the selected features, designed appropriate GA operators to produce candidate solutions, and defined a fitness function to evaluate which solution set of features was more critical for cancer classification. In the experiments, we aimed to find selected features fewer than twenty. A subset of 16 features was found in one of our experiments. To verify the validity of the selected features, we applied classification algorithms using these 16 features only. The experiments were run 10 times of ten-fold cross-validation and the average testing accuracies of decision trees and neural networks were 78.5% and 82.9% respectively. We also performed similar experiments on the dataset with 779 features. The results of average testing accuracies were 75.9% and 86.3% for decision trees and neural networks respectively. The numerical results showed that these 16 selected features enabled to distinguish these four disease status instead of 779. This showed that our developed GA algorithm can successfully search relevant features on the proteomic dataset of prostate cancer.
第1章 緒論 1
第2章 研究背景資料 4
2.1 蛋白質體資料庫 4
2.1.1 背景 4
2.1.2 資料庫介紹 6
2.2 基因演算法原理 8
2.2.1 基因演算法簡介 8
2.2.2 基因演算法的特色及流程 8
2.2.3 基因演算法的運算 12
2.3 決策樹 19
2.4 類神經網路 22
2.4.1 倒傳遞類神經網路架構 22
2.4.2 倒傳遞類神經網路簡介 23
第3章 研究方法 25
3.1 基因演算法的設計 25
3.1.1 染色體編碼之設計 27
3.1.2 適應函數設計 28
3.1.3 族群數之定義 32
3.1.4 挑選機制 33
3.1.5 交配與突變方法 33
3.2 前饋式倒傳遞類神經網路的使用 34
3.2.1 類神經網路層數 34
3.2.2 學習率 34
3.2.3 轉移函數 35
第4章 實驗方法 36
4.1 人工前置處理資料 39
4.2 電腦程式前置處理之資料 46
第5章 結論與未來展望 51
5.1 結論 51
5.2 未來展望 53
參考文獻 54
【英文部分】
[1] The Virginia Prostate Cancer, SELDI ProteinChip® Process, http://www.evms.edu/vpc/seldi/seldiprocess/.
[2] SELDI group, private communication, 2006.
[3] J. Holland, Adaptation in Natural and Artificial Systems, 1975.
[4] T. Hastie, J. Friedman, and R. Tibshirani, The element of statistical learning, Springer-Verlag, New York, 2001.
[5] T. Mitchell, Machine Learning, The McGraw-Hill Companies Inc., 1997.
[6] L. Breiman, Classification and Regression Trees, Chapman & Hall, Boca Raton, 1993.
[7] Martin T. Hagan, Howard B. Demuth, Mark H. Beale, Neural Network Design, Martin Hagan, 1996.
[8] Robert J. Schalkoff, McGraw-Hill, Artificial Neural Networks, 1997.
[9] BL. Adam, Y. Qu, J. Davis, M. Ward, M. Clements, L. Cazares, OJ. Semmes, P. Schellhammer, Y. Yasui, Z. Feng, and G. Wright Jr. Serum protein fingerprinting coupled with a pattern-matching algorithm distinguishes prostate cancer from benign prostate hyperplasis and healthy men. Cancer Research, 62:3609-3614, 2002
[10] R. Lilien, H. Farid, and B. Donald. Probabilistic disease classification of expression-dependent proteomic data from mass spectrometry of human serum. Journal of Computational Biology, 2003
[11] Y. Qu, BL. Adam, M. Thornquist, J. Potter, M. Thompson, Y. Yasui, J. Davis, P. Schellhammer, L. Cazares, M. Clements, G. Wright, Jr., and Z. Feng. Data reduction using a discrete wavelet transform in discriminant analysis of very high dimensionality data. Biometrics, 59, 143-151, 2003
[12] Y. Yasui, M. Pepe, M. Thompson, BL. Adam, G. Wright, Jr., Y. Qu, J. Potter, M. Winget, M. Thornquist, and Z. Feng. A data-analytic strategy for protein biomarker discovery: profiling of high-dimensional proteomic data for cancer detection. Biostatistics, 4, 449-463, 2003.

【中文部分】
[13] 凌浩航, 針對質譜圖資料之峰值偵測與對齊, 輔仁大學資訊工程所, 2006年7月.
[14] 周鵬程, 遺傳演算法原理與應用-活用Matlab, 全華科技圖書股份有限公司, 2001年1月.
[15] 蘇木春、張孝德, 機器學習 類神經網路、模糊系統以及基因演算法則, 全華科技圖書股份有限公司, 2002年3月.
[16] 葉怡成, 應用類神經網路, 儒林圖書公司, 1977年.
[17] 陳達人, 利用類神經網路於蛋白質體分析以偵測癌症, 輔仁大學資訊工程所, 2005年6月.
[18] 黃筌敬, 應用小波轉換處理蛋白質體資料, 輔仁大學資訊工程所, 2005年7月.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top