跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.23) 您好!臺灣時間:2025/10/25 06:23
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:陳詩佳
論文名稱:使用Meta-Learning在蛋白質質譜資料特徵選取之探討
論文名稱(外文):Feature Selection via Meta-Learning on Proteomic Mass Spectrum Data
指導教授:郭訓志郭訓志引用關係
學位類別:碩士
校院名稱:國立政治大學
系所名稱:統計研究所
學門:數學及統計學門
學類:統計學類
論文種類:學術論文
論文出版年:2007
畢業學年度:95
語文別:中文
論文頁數:71
中文關鍵詞:特徵選取串聯法蛋白質質譜支持向量機
相關次數:
  • 被引用被引用:2
  • 點閱點閱:270
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
癌症高居國人十大死因之首,由於癌症初期病患接受適時治療的存活率較高,因此若能「早期發現,早期診斷,早期治療」則可降低死亡率。本研究主要針對「表面強化雷射解析電離飛行質譜技術」(Surface-Enhanced Laser Desorption / Ionization Time-of-Flight Mass Spectrometry,SELDI-TOF-MS)所蒐集而來的攝護腺癌症蛋白質質譜之事前處理資料進行分析。目的是希望藉由Meta-Learning的方式結合分類器,並以逐步特徵選取之,期望以較少且具代表的特徵變數將資料分類,以達到較高的正確率。本文利用正確率決定逐步特徵選取時變數加入的順序,並進一步以Elastic Net與判定係數作為特徵變數排序依據,以改善變數間共線性高的問題。並且考慮投票法(多數表決法與權重投票法)以及串聯法(cascading):多個分類器串聯與單一分類器串聯。研究發現,以判定係數刪選特徵變數加入的先後順序並以支持向量機(Support Vector Machine,SVM)串聯的特徵選取結果在各分類下皆有良好表現,為較佳的特徵選取方式。

關鍵字:特徵選取、串聯法、蛋白質質譜、meta-learning、支持向量機
第壹章 緒論 4
第一節 研究背景 4
第二節 研究動機與目的 6
第三節 研究架構 6
第貳章 蛋白質質譜資料 8
第一節 表面強化雷射解析電離飛行質譜技術 8
第二節 攝護腺癌症蛋白質質譜資料 9
第三節 蛋白質質譜資料之探討 11
第參章 文獻探討 12
第肆章 研究方法 15
第一節 分類器的介紹 16
4.1.1 LDA 16
4.1.2 KNN 18
4.1.3 SVM 21
第二節 結合多個分類器之特徵選取 25
4.2.1 Stacking 26
4.2.2 Cascading 28
第三節 特徵選取 30
第伍章 實證分析 31
第一節 投票法 33
5.1.1 多數表決法 33
5.1.2 權重投票法 36
第二節 CASCADING 37
5.2.1 多個分類器之串聯 38
5.2.2 單一分類器之串聯 42
第三節 特徵選取之改良 45
5.3.1 Elastic Net + 單一分類器之串聯 46
5.3.3 判定係數粹取法 49
第陸章 結論與建議 52
參考文獻 54
附 錄 59
牛頓雜誌編輯部,「孜孜不倦地實驗,也會找到新發現;訪問日本島津製
作所田中耕一研究員」,牛頓雜誌國際中文版第235期,2003年3月號。

牛頓雜誌編輯部,「我的新挑戰!訪問日本島津製作所田中耕一紀念質量
分析研究所」,牛頓雜誌國際中文版第242期,2003年10月號。

行政院衛生署,「中華民國九十四年台灣地區死因統計結果摘要」。
網址:http://www.doh.gov.tw/statistic/data/死因摘要/94年/94.htm

行政院衛生署,國民健康局,「94年度衛生教育宣導主軸-癌症預防」。
網址:http://www.bhp.doh.gov.tw/BHP/index.jsp

行政院衛生署,「中華民國九十四年臺灣地區主要癌症死亡原因」。
網址:http://www.doh.gov.tw/statistic/data/死因摘要/94年/表8.xls

全國癌症病友服務中心,「攝護腺癌(90.02.01)衛教手冊之十八」。
網址:http://www2.cch.org.tw/OURHOME/booklet/booklet18.htm

徐竣建,「重疊法應用於蛋白質質譜資料」,國立政治大學統計系研究所碩士論文,2006年,指導教授:余清祥博士。

國泰綜合醫院,癌症資訊網,「攝護腺癌症簡介」。
網址:http://www1.cgh.org.tw/content/healthy/cancerx/newpage19.htm

黃仁澤,「對於高維度資料進行特徵選取─應用於分類蛋白質質譜儀資料」,國立政治大學統計系研究所碩士論文,2005年,指導教授:郭訓志博士、薛慧敏博士。

葉勝宗,「使用AUC特徵選取法在蛋白質質譜資料分析之應用」,國立政治大學統計系研究所碩士論文,2006年,指導教授:張源俊博士,郭訓志博士。

陳敏鋑,「認識癌症」,癌症關懷季刊,德桃基金會。
網址:http://med.mc.ntu.edu.tw/~onc/Lecture/cancer1.html


賴基銘,「癌症篩檢未來的展望:SELDI血清蛋白指紋圖譜的應用」,國家
衛生研究院電子報第52期,2004年6月25日。

Adam, B.L., Qu, Y., Davis, J.W., Ward, M.D., Clements, M.A., Cazares, L.H.,
Semmes, O.J., Schellhammer, P.F., Yasui, Y., Feng, Z. and Wright, G.L. Jr.
(2002) “Serum Protein Fingerprinting Coupled with a Pattern- matching
Algorithm Distinguishes Prostate Cancer from Benign Prostate Hyperplasia
and Healthy Men.” Cancer Research, Vol. 62, No. 13, pp. 3609-14.

Alpaydin, E. and Kaynak, C. (1998), “Cascading Classifiers.” Kybernetika, Vol. 34, No. 4, pp. 369-374.

Alpaydin, E. and Kaynak, C. (2000) “MultiStage Cascading of Multiple Classifiers: One Man’s Noise is Another Man’s Data.” In Seventeenth International Conference on Machine Learning, ed. P. Langley, pp. 455-462. San Francisco: Morgan Kaufmann.

Alpaydin, E. (2004), Introduction to Machine Learning, MIT Press.

Bryan,J. G. (1951), “The Generalized Discriminant Function: Mathematical
Foundations and Computational Routine.” Harvard Educational Review,
Vol. 21, pp. 90-95.

Breiman, L. (1996) “Bagging Predictor.” Machine Learning, Vol. 24, No. 2, pp.123-140.

Burbidge, R., Trotter, M., Buxton, B. F. and Holden, S. B. (2001), “Drug Design by Machine Learning: Support Vector Machine for Pharmaceutical Data Analysis.” Computers and Chemistry, Vol. 26, pp. 5-14.

Chang, Y. C. and Lin, S. C. (2004), “Synergy of Logistic Regression and Support Vector Machine in Multiple-Class Classification.” LNCS, Vol. 3177, pp.132-141.

Chen, G., Gharib, T. G., Huang, C. C., Thomas, D. G., Shedden, K. A., Taylor, Jeremy M. G., Kardia, Sharon L.R., Misek, D. E., Giordano, T. J., Tannettoni, M. D., Orringer, M.B., Hanash, S. M. and Beer, D. G.. (2002) “Proteomic Analysis of Lung Adenocarcinoma: Identification of a Highly Expressed Set of Proteins in Tumors.” Clinical Cancer Research, Vol. 8, pp. 2298-2305.
Draper, N. R. and Smith, H. (1981), Applied Regression Analysis, 2nd Edn. Wiley, New York.

Dudani, S. A. (1976) “The distance-weighted k-nearest-neighbor rule.”
IEEE Transactions on Systems, Man, and Cybernetics, 6(4):325-327.

Fisher, R. A. (1936), “The Use of Multiple Measurements in Taxonomic
Problems.” Annals of Eugenics, Vol. 7, pp. 179-188.

Fix, E. and Hodges, J. L. (1951), “Discriminatory Analysis-Nonparametric
Discrimination: Consistency Properties.” Report No. 4, US Air Force School of Aviation Medicine, Random Field, Texas. [Published in Agrawala (1997),
Silverman and Jones (1989) and Dasarathy (1991).]

Furey, T., Schummer, M., Duffy, N., Bednarski, D., Haussler, D. and Cristiannini, N.
(2000), “Support Vector Machine Classification and Validation of Caner Tissue Samples Using Microarray Expression Data.” Bioinformatics, Vol. 16, pp. 906-914.

Guyon, I., Weston, J. and Barnhill, S. “Gene selection for cancer classification using support vector machines.” Machine Learning, 46(1): 389-422

Hastie, T., Tibshirani, R. and Friedman, J. (2001) The Elements of Statistical Learning. Springer.

Holland, J.H. (1994) Adaptation in Natural and Artificial Systems: An Introductory Analysis with Applications to Biology, Control, and Artificial
Intelligence, 3rd edn. Cambridge, MA: MIT Press.

Johnson, R. A. and Wichern, D. W. (2002), Applied Multivariate Statistical Analysis, Prentice-Hall, Inc. Upper Saddle River, NJ, USA.

Kohonen, Y. (1982) “Self-Organizing Formation of Topologically Correct Feature Maps.” Biological Cybernetics, Vol. 43, pp. 59-69.

Kohonen, T. (1990) “The Self-Organizing Map”, Proc Inst Electrical Electronics Eng, Vol. 78, pp. 1464-1480.


Lilien, R.H., Farid, H. and Donald, B.R. (2003), “Probabilistic Disease Classification of Expression-Dependent Proteomic Data from Mass Spectrometry of Human Serum.” Journal of Computational Biology, Vol. 10, No. 6, pp.925-946.

Osuna, E., Freund, R. and Girosi, F. (1997), “Training Support Vector Machines: An Application to Face Detection.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 130-136.

Petricoin, E.F., Ardekani, A.M., Hitt, B.A., Levine, P.J., Fusaro, V.A., Steinberg, S.M., Mills, G.B., Simone, C., Fishman, D.A., Kohn, E.C. and Liotta, L.A. (2002) “Use of Proteomic Patterns in Serum to Identify Ovarian Cancer.” Lancet, Vol. 359, Iss. 9306, pp. 572-577.

Qu, Y., Adam, B.L., Thornquist, M., Potter, J.D., Thompson, M.L., Yasui, Y., Davis, J., Schellhammer,P. F., Cazares,L., Clements,M.A., Wright, Jr.G.L. and Feng, Z. (2003), “Data Reduction Using a Discrete Wavelet Transform in Discriminant Analysis of Very High Dimensionality Data.” Biometrics, Vol. 59, pp, 143–151.

Rao, C. R. (1948), “The Utilization of Multiple Measurements in Problems of
Model Uncertainty in Generalized Linear Models.” Journal of The Royal Statistical Society series B, Vol. 10, pp. 159-203.

Ripley, B. D. (1996), Pattern Recognition and Neural Networks, Cambridge: Cambridge University Press.

Sauve, A. C. and Speed, T. P. (2004) “ Normalization, Baseline Correction and
Alignment of High-Throughput Mass Spectrometry Data.” Proceedings
Gensips 2004

Schölkopf, B. Herbrich, R. and Smola, A. J. (2001) “The General Representer Theorem.” LNAI, Vol. 2111, pp. 416-426.

Tong, S. and Koller, D. (2002), “Support vector machine active learning with
applications to text classification.” The Journal of Machine Learning Research, Vol.2, pp.45-66.



Trafalis, T. B. and Ince, H. (2000), “Support Vector Machine for Regression
and Application to Financial Forecasting.” Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks, Vol. 6, pp.6348-6353.

Vapnik, V. N. (1995), The Nature of Statistical Learning Theory, Springer, New York.

Wolpert, D. H. (1992), “Stacked Generalization.” Neural Networks, Vol.5, pp241-259.

Wu, B., Abbott, T., Fishman, D., McMurray W., Mor, G., Stone, K., Ward, D., Williams, K. and Zhao, H. (2003), “Comparison of Statistical Methods for Classification of Ovarian Cancer Using Mass Spectrometry Data.” Bioinformatics, Vol. 19, No. 13, pp. 1636-1643.

Zhang, X., Mesirov, J. P. and Waltz, D. L. (1992) “Hybird System for Protein Secondary Structure Prediction.” NCBI, Vol. 255, No.4, pp.1049-1063.

Zou, H. and Hastie, T. (2004) “Regularization and Variable Selection via the Elastic Net.” Journal of the Royal Statistical Society, Series B, Vol. 67, pp. 301-320.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
1. 王明德,工程契約糾紛與仲裁,營建管理季刊 第27期,1994年7月。
2. 王文宇,行政判斷與BOT法制-以ETC案及京站案為例,月旦法學雜誌第142期,2007年3月
3. 李永然,破解常見工程合約糾紛,法律與你系列,1998年7月
4. 王文宇,從法律面探討信用加強機制--論保證、信用狀、保證保險與信用衍生性商品,會計研究月刊第233期,2005年4月。
5. 王文宇,信託財產之獨立性與主體性,法令月刊第53卷第6期,2002年6月。
6. 李家慶,淺談工程契約之轉讓與分包,營建知訊 第169期,1999年2月。
7. 李家慶、蕭偉松,法律人看營造業法(下),營建知訊 第246期,2003年7月。
8. 李金松,異常工地狀況損失的風險分配與求償,營造天下 第109、110期合輯,2005年2月。
9. 李金松,工程款債權的讓與及債權人的強制執行,營造天下,第123期,2006年3月。
10. 辛其亮,民法五百一十三條對營建工程之影響,營造天下,第67期,2001年7月。
11. 余文恭,論工程契約之性質及其義務群,月旦法學雜誌,第129期,2006年2月。
12. 洪羽柔,工程履約保證金性質之初步探討,萬國法律雜誌,第127期,2003年2月。
13. 姚乃嘉,公共工程常見之糾紛與防阻之道,律師雜誌,第265期,2001年10月。
14. 吳憲彰,營造業法第二十五條工程轉交之疑義,營造天下第91期,2003年7月。
15. 吳英亮、李建中,論債權讓與與監督付款,臺灣公路工程,第32卷第10期,2006年4月。