跳到主要內容

臺灣博碩士論文加值系統

(44.220.184.63) 您好!臺灣時間:2024/10/11 02:04
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:曾杏園
研究生(外文):Hsing-Yuan Tseng
論文名稱:利用隱藏式馬可夫模型來進行耐熱性蛋白質之分類與預測研究
論文名稱(外文):Prediction and classification of thermostable proteins by using Hidden Markov Model
指導教授:劉湘川劉湘川引用關係
指導教授(外文):Hsiang-Chuan Liu
學位類別:碩士
校院名稱:亞洲大學
系所名稱:生物資訊研究所
學門:工程學門
學類:生醫工程學類
論文種類:學術論文
論文出版年:2005
畢業學年度:94
語文別:中文
論文頁數:43
中文關鍵詞:隱藏式馬可夫模型(HMM)蛋白質耐熱性之分類與預測耐熱性蛋白質條件機率
外文關鍵詞:HMMthermophilic and mesophilic proteinsClassification and prediction of the thermostable proteinscondition probabilitythermophilic and mesophilic proteins
相關次數:
  • 被引用被引用:1
  • 點閱點閱:357
  • 評分評分:
  • 下載下載:40
  • 收藏至我的研究室書目清單書目收藏:0
我們利用隱藏式馬可夫模型【Hidden Markov model (HMM)】來建立一個模型,藉由蛋白質之序列及結構特徵,進行預測及分類耐熱性蛋白質之研究。本研究利用21組耐熱蛋白及同源相對低溫蛋白質的胺基酸序列為訓練資料(training data),應用其胺基酸親水、疏水特性及在蛋白質三級結構中的摺疊位置,蛋白質摺疊資料則分別由ASA View資料庫中取得,而蛋白質摺疊方式共分成兩組進行分析,第一組以門閥值0.5做為摺疊位置之內外側之判斷值,第二組以摺疊之平均數做為摺疊位置之內外側之判斷值;各再透過Hidden Markov model (HMM)建立二個模型,來進行蛋白質耐熱性之分類與預測工作。並且利用條件機率於資料中分析發現部分耐熱蛋白及一般蛋白確實有蛋白序列程度上的差異,可以作為分類耐熱蛋白的參考依據。由於HMM具有良好的數學基礎及理論架構,透過本研究我們能有效的進行耐熱蛋白辨別及分類。
A model was constructed using Hidden Markov Model (HMM) to predict and classify thermostable proteins through the characteristics of their sequences and three-dimensional structures. In this study, 21 groups of proteins with their three-dimensional structures were obtained from the Protein Data Bank (PDB), and each group contains a thermophilic /mesophilic pair. Some of the sequences of these proteins were used as the HMM training data. The residues of these proteins were divided into hydrophobic and hydrophilic amino residues. The solvent accessibility percentages of the residues were obtained using the ASA View data base. A solvent exposed or solvent-buried residue was dependent on the percentage, which is the threshold of this study. Two groups were used in this study: one is a threshold of 0.5 as the judgment value for the exposed or buried position, the second group regards folding average as the judgment value for outside or within the folding position. According the collection data, a model was built using HMM to carry out a classification and prediction work of the heat resistance proteins. The collected data were analyzed through a condition probability, it can be found that there is a great difference in the sequences between the thermophilic and mesophilic proteins. Based on this finding, HMM may be a good tool to be used as the reference basis of classifying thermostable proteins. Because HMM is based on a good mathematics and theory, we can effectively distinguish the thermostable proteins and carry out the protein classification through this research.
目 錄

中文摘要 ii
英文摘要 iii
誌謝 iv
表目錄 vii
圖目錄 viii
第一章 緒論 1
1.1 研究背景及動機 1
1.2 研究目的 1
第二章 蛋白質 4
2.1蛋白質結構 4
2.2蛋白質摺疊特性 5
2.3 耐熱蛋白 7
第三章 條件機率 9
3.1條件機率 9
3.2設定方式 9
第四章 隱藏式馬可夫模式 11
4.1隨機變數 11
4.2隱藏式馬可夫模式 11
第五章 研究方法 14
5.1 方法設計 14
5.2 條件機率 19
5.3 隱藏式馬可夫模式運算- HMM設定 21
5.3.1 檢驗方法 21
5.3.1.1 利用HMM產生之耐熱蛋白模擬序列之序列
最小穩定操作次數 21
5.3.1.2 利用HMM產生之最佳模擬序列路徑之
正確度分析 22
5.3.1.3 利用HMM產生之最佳模擬序列路徑之精確度分析 22
5.3.1.4 將HMM產生之同源相對高低溫模擬序列的
正確度進行ROC curve分析 24
第六章 研究結果 26
6.1 條件機率 26
6.2 HMM預測結果 29
6.2.1 利用HMM產生之耐熱蛋白模擬序列之序列
最小穩定操作次數結果 29
6.2.2 利用HMM產生之最佳模擬序列路徑之
正確度分析結果 29
6.2.3 利用HMM產生之最佳模擬序列路徑之精確度
分析結果 30
6.2.4 將HMM產生之同源相對高低溫模擬序列的正確度
進行ROC curve分析 32
第七章 結論與未來發展 35
參考文獻 36
附錄
A 所使用之生物資訊網站及軟體 38
Durbin,R., Eddy,S., Krogh,A. and Mitchison,G. (1998) Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press.
Eddy,S.R. (1998) Profile Hidden Markov Models, Bioinformatics Review, Vol.14, pp.755-763.
Gaurav,K., Gupta,N. and Sowdhamini,R. (2005) FASSM: Enhanced Function Association in Whole Genome Analysis Using Sequence and Structural Motifs, In Silico Biol, 5, pp.425~38.
Kumar,S., Tsai,C.J. and Nussinov,R. (2000) Factors Enhancing Protein Thermostability, Protein Engineering, vol.13, pp. 179-191.
Liu,H., Li,G., William,G., Cumberland and Wu,T. (2005) Testing Statistical Significance of the Area under a Receiving Operating Characteristics Curve for Repeated Measures Design with Bootstrapping, Journal of Data Science 3, pp.257-278.
Mozo-Villarias,A., Cedano,J. and Querol,E. (2003) A Simple Electrostatic Criterion for Predicting the Thermal Stability of Proteins, Protein Engineering, vol.16, pp.279-286.
Rashidi,H.H. and Lukask,M.S. (2000) Bioinformatics Basic Applications in Biological Science and Medicine, by CRC Press.
Rabiner,L.R. (1989) A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proceeding of the IEEE, vol.77, 257-286.
Shieh,J.I., Lee,K.J., Liu,H.C. and Tseng,H.Y. (2006) Evaluating the Structure Properties of DNA by Using the Spanning Tree Invariant of the Topological Markov Chain Model,統計測驗年刊,6月。
Smith,K. (2002) Hidden Markov Models in Bioinformatics with Application to Gene Finding in Human DNA 308-761 Machine Learning Project, http:// www.cs.mcgill.ca/~kaleigh/compbio/hmm/hmm_paper.pdf
Yabuki,Y., Muramatsu,T., Hirokawa,T., Mukai,H. and Suwa,M. (2005) GRIFFIN: A System for Predicting GPCR-G-Protein Coupling Selectivity Using a Support Vector Machine and a Hidden Markov Model, vol.33, Nucleic Acids Research, pp.148-153.
Attwood,T.K., David,J. and Smith,P. 著, 生物資訊入門, 陳進和等編譯, 台灣培生教育出版, 2003年7月初版。
Hill,J.W., Baum,S.J. and Feigl,D.M., Chemical and Life 生命與化學, 董有蘭 譯,國立編譯館,1999。
Richard Issac 著,機率的樂趣,陳尚婷、陳尚瑜 譯,弘智文化事業有限公司,2002年12月初版。
九章叢書,概率論與數理統計基礎,九章出版社,1988年12月初版。
王恆 等編著,諾貝爾百年百人化學獎,世潮出版社,2001年10月初版。
林傳生 編著, Matlab之使用與應用,儒林圖書有限公司,2004年11月一版。
陳大新 編著,矩陣理論,凡異文化事業股份有限公司,2003年5月初版。
傅昭銘,熱門名詞解釋,物理雙月刊(廿五卷三期),2003 年 6 月。
裴釗鋒等,(2005),泉生熱孢菌結構基因組的選靶研究,物理化學學報,21(5),499-503。
盧雁、徐全清、李向榮,(2004)胺基酸與蛋白質體系熱容研究,化學進展,vol16,No.3。
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top