跳到主要內容

臺灣博碩士論文加值系統

(34.204.180.223) 您好!臺灣時間:2021/08/01 16:45
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:廖先陽
研究生(外文):Hsien-Yang Liao
論文名稱:整合蛋白質複合體與蛋白質交互作用資料於探討蛋白質複合體拓樸特性之研究
論文名稱(外文):A study of protein complexes topological features by integrating protein complexes and protein-protein interaction data
指導教授:黃建宏黃建宏引用關係
指導教授(外文):Chien-Hung Huang
學位類別:碩士
校院名稱:國立虎尾科技大學
系所名稱:光電與材料科技研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2009
畢業學年度:97
語文別:中文
論文頁數:40
中文關鍵詞:蛋白質複合體蛋白質交互作用網路拓樸參數核心模組
外文關鍵詞:protein complexprotein-protein interaction networktopological parameterscore module
相關次數:
  • 被引用被引用:0
  • 點閱點閱:467
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
在蛋白質與蛋白質交互作用(之後以PPI來表示)網路中,互動越密集的區域,越可能是蛋白質複合體所在之處。 本論文中我們延伸以前近似完全圖(pseudo-clique)演算法,合併兩個大小不同的密集區域,以做為蛋白質複合體的候選區域[7]。 我們發現此方法可以比隨機的PPI版本找到更多蛋白質複合體,且在大小大於等於5以上時,Jaccard`s coefficient為0.2以上。
藉由整合蛋白質複合體資料跟PPI資訊,我們使用了BOND資料庫所提供的全部653個人類蛋白質複合體的子單元之間交互作用的拓樸。
我們定義兩種拓樸參數來檢視在PPI密集的區域是否發現蛋白質複合體。 第一個參數稱為交互作用的密度,這個參數為蛋白質複合體中的子單元之中根據實驗所得到的PPI總數目與最大可能的PPI(即完全圖)之間的比率。 第二個參數稱為子單元連通度,這個參數呈現了蛋白質複合體的子單元之間最大連通群的分支度。
結果顯示,交互作用密度超過90%以上的大約佔所有的人類蛋白質複合體18%,而交互作用密度分布的範圍從0%到90%皆有。 對於第二個參數,研究結果顯示人類的蛋白質複合體中子單元連通度超過90%以上的大約佔全體的27%,而連通度分布的範圍從0%到90%都有。 這兩個結果顯示出密度高的蛋白質複合體並未很多,推論最有可能是PPI的資料目前並不完整,以至於密度及連通度不高。
再者,我們也在人類蛋白質複合體中找出一些的子單元的集合,我們稱之為核心模組。 這些核心模組分別有從2到10個子單元的大小。我們計算出核心模組大小大於2以上並且重複出現(如兩次)的機率,根據估計基本上其出現機率幾乎為零。 為了進一步描述核心模組的特性,我們利用BOND資料庫中的GO生物功能資料,在核心模組之間以成對的方式用功能相似度來做比較。研究結果顯示重覆出現次數較多且較大的功能相似度,當中以核心模組大小為10時jaccard`s coefficient分數最高,表示核心模組大小為10時功能相似度最高,顯示這些核心模組很可能有重要的生物功能。
Interaction dense regions in the protein-protein interaction (PPI) network could possibly be identified as a protein complex. In this thesis we extended a pseudo-clique algorithm to merge two dense regions with different sizes [7]. It is found that this approach could predict more protein complexes, achieving a Jaccard`s coefficient of 0.2 for size equal or larger than five, comparing with the randomized PPI version.
By integrating the protein complexes data, and PPI records, we study the interaction topology among the subunits for all the human protein complexes, a total of 653 protein complexes, provided by BOND.
Two topological parameters are defined to test whether protein complex are found in PPI dense region or not. The first parameter is called the density of interaction, which describes the experimental recorded PPI among the subunits of a protein complex relative to the maximum possible PPI (i.e. clique). The second parameter is called the degree of connected subunits, which characterizes the largest connected cluster of subunits for a protein complex.
Our results show that around 18% of the whole human protein complexes has a density of interaction over 90%, and the rest of the complexes account for density of interaction ranging from 0% to 90%. For the second parameter, our study shows that around 27% of the whole human protein complexes has a degree of connectivity over 90%, and has a range from 0% to 90% respectively. These two results indicate that the number of the protein complex with high density is not very much, we infer that this result has the great possibility due to the incompleteness of the PPI data.
Furthermore, we identified sets of common subunits, so-called core module, for all the human protein complexes. These sets of core modules have a size of two to ten subunits. The probability of repeated occurrence (twice) of a core module with a size of larger than two is calculated. It is estimated that the probability of a core module occurs more than twice is zero nearly. To further characterize a core module, we did a pairwise functional comparison, using the BOND database, among the core module subunits, it is found that frequently occurred, larger size core module, tends to have a higher functional similarity, where a core module of size 10 has the highest Jaccard`s coefficient. It is suggested that these core modules could possibly have important biological functions.
目錄
摘要....................................................i
Abstract...............................................ii
誌謝..................................................iii
目錄...................................................iv
表目錄..................................................v
圖目錄.................................................vi
演算法目錄............................................vii
第一章、 研究背景與目的.................................1
第二章、 資料庫介紹.....................................4
2.1 DIP.................................................4
2.2 BioGrid.............................................6
2.3 BOND................................................9
第三章、 方法..........................................12
3.1 從PPI網路中以圖論預測蛋白質複合體..................12
3.1.1 建立Clique.......................................13
3.1.2 建立Pseudo Clique................................15
3.1.3 以隨機PPI建立Clique..............................20
3.1.4 蛋白質複合體之評估以Jaccard`s coefficient計算....21
3.2 密度與連通關係.....................................23
3.2.1 密度.............................................24
3.2.2 連通.............................................24
3.3 核心模組之探討.....................................26
3.3.1 核心模組.........................................26
3.3.2 核心模組出現機率之評估...........................27
3.3.3 子單元之功能以Jaccard`s coefficient係數計算......28
第四章、 結果..........................................30
4.1 蛋白質複合體預測...................................30
4.2 蛋白質複合體子單元之密度與連通關係計算.............32
4.3 複合體子單元組合及功能相似度計算...................35
第五章、 結論..........................................38
參考文獻...............................................39

表目錄
表 2 - 1生物資訊相關資料庫....4
表 2 - 2 DIP提供之PPI資料.....5
表 2 - 3 BioGrid提供之PPI資料...........................8
表 2 - 4 BOND提供的Go Annotatpr資料....................10
表 2 - 5 BOND提供的DB Cross Reference資料..............11
表 3 - 1經由範例中PPI關係所建立的蛋白質相鄰矩陣........14
表 3 - 2範例中每個蛋白質的Degree.......................14
表 4 - 1比較不同的蛋白質複合體預測方式之Jaccard`s coefficient分數比較..........32
表 4 - 2蛋白質複合體之蛋白質交互作用密度結果...........33
表 4 - 3蛋白質複合體之蛋白質交互作用連通結果...........34
表 4 - 4核心模組數量...................................35
表 4 - 5核心模組GO功能JC分數評估(MAX)..................36
表 4 - 6核心模組GO功能JC分數評估(AVE)..................37

圖目錄
圖 2 - 1 DIP資料庫首頁..................................5
圖 2 - 2 BioGrid資料庫首頁..............................7
圖 2 - 3 BOND資料庫首頁................................10
圖 3 - 1蛋白質複合體預測流程圖.........................12
圖 3 - 2 Order 5的完全圖...............................13
圖 3 - 3蛋白質互動網路的一個Pseudo clique..............16
圖 3 - 4 Maximal Clique示意圖..........................16
圖 3 - 5一般化的pseudo cliques.........................17
圖 3 - 6合併前的Maximal Clique.........................18
圖 3 - 7合併後形成一Pseudo Clique......................18
圖 3 – 8 PPI網路圖....................................20
圖 3 - 9隨機的PPI網路圖................................21
圖 3 - 10計算蛋白質複合體密度及連通流程圖..............23
圖 3 - 11範例中複合體A之相鄰矩陣.......................25
圖 3 - 12範例中複合體A之距離矩陣.......................25
圖 3 - 13範例中複合體B之相鄰矩陣.......................25
圖 3 - 14範例中複合體B之距離矩.........................25
圖 3 - 15核心模組之探討流程圖..........................26
圖 4 - 1預測之蛋白質複合體數量.........................31
圖 4 - 2預測的複合體Jaccard`s coefficient分數..........31
圖 4 - 3蛋白質複合體之蛋白質交互作用密度結果...........33
圖 4 - 4蛋白質複合體之蛋白質交互作用連通結果...........34

演算法目錄
演算法 3 - 1:Clique的演算法...........................13
演算法 3 - 2:Haiyuan 的Pseudo Clique的演算法[7].......17
演算法 3 - 3:本文所提出的Pseudo Clique的演算法........18
演算法 3 - 4:隨機PPI建立之演算法......................20
演算法 3 - 5:蛋白質複合體評估之演算法.................22
演算法 3 - 6:核心模組建立演算法.......................27
[1].Altaf-Ul-Amin M., Shinbo Y., Mihara K., Kurokawa K., Kanaya S., (2006). Development and implementation of an algorithm for detection of protein complexes in large interaction networks. BMC Bioinformatics 7, p 207.
[2].Arnau V., Mars S., Mar?n I., (2005). Iterative cluster analysis of protein interaction data. Bioinformatics 21(3), p 364.
[3].Bader G.D., (2003). An automated method for finding molecular complex in large protein interaction networks. BMC Bioinformatics 4, p 2.
[4].Bader G.D., Betel D., Hogue C.W., (2003). BIND: the biomolecular interaction network database. Nucleic Acids Res 31(1), p 248.
[5].Dijkstra T.G., (1959). The divide-and-conquer manifesto. Lecture notes in artificial intelligence 1, p 269.
[6].Gavin A.C., Aloy P., Grandi P., Krause R., Boesche M., Marzioch M., Rau C., Jensen L.J., Bastuck S., D?mpelfeld B., Edelmann A., Heurtier M.A., Hoffman V., Hoefert C., Klein K., Hudak M., Michon A.M., Schelder M., Schirle M., Remor M., Rudi T., Hooper S., Bauer A., Bouwmeester T., Casari G., Drewes G., Neubauer G., Rick J.M., Kuster B., Bork P., Russell R.B., Superti-Furga G., (2006). Proteome survey reveals modularity of the yeast cell machinery. Nature 440, p 631.
[7].Haiyuan Y., Paccanaro A., Trifonov V. and Gerstein M., (2006). Predicting interactions in protein networks by completing defective cliques. Bioinformatics 22(7), p 823.
[8].King A.D., Przulj N. and Jurisica I., (2004). Protein complex prediction via cost-based clustering. Bioinfo. 20, p 3013.
[9].Lee R.C.T., Chang R.C., Tseng S.S., Tsai Y.T., (2005). Introduction to the design and analysis of algorithms, a strategic approach. McGraw Hill.
[10].Liu Y.C., (2006). Systematic extraction of Functional modules through protein-protein interaction network and biological annotation analysis. Msc. thesis, Department of computer science and information engineering, National Cheng Kung University, Taiwan.
[11].Lodish H., Berk A., Zipursky S., Matsudaira P., Baltimore D. and Darnell J., (2001). Molecular Cell Biology, 4th ed. W.H. Freeman.
[12].Lubovac Z., Gamalielsson J., Olsson B., (2006). Combining functional and topological properties to identify core modules in protein interaction networks Proteins: Structure. Bioinformatics 64(4), p 948.
[13].Pang C.N., Krycer J.R., Lek A., Wilkins M.R., (2008). Are protein complexes made of cores, modules and attachments? Proteomics 8(3), p 425.
[14].Tsukiyama S., Ide M., Aviyoshi H. Shirakawa I., (1977). A new algorithm for generating all the maximum independent sets. SIAM Journal on Computing 6, p 505.
[15].Wu H.,(2005).Prediction of functional modules based on comparative genome analysis and Gene Ontology application. Nucleic Acids Research 33(9), p 2822.
[16].Zhang B., Park B.H., Karpinets T., Samatova N.F., (2008). From pull-down datato protein interaction networks and complexes with biological relevance. Bioinformatics 24(7), p 979.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top