跳到主要內容

臺灣博碩士論文加值系統

(18.97.9.169) 您好!臺灣時間:2024/12/11 17:20
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:盧勇凱
研究生(外文):Yong-Kai Lu
論文名稱:病毒分類之研究-藉由基因體編碼序列
論文名稱(外文):A Study of Virus Classication via Genomic Coding Sequence
指導教授:王經篤王經篤引用關係
指導教授(外文):Jing-Doo Wang
學位類別:碩士
校院名稱:亞洲大學
系所名稱:資訊工程學系碩士班
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2011
畢業學年度:99
語文別:中文
論文頁數:44
中文關鍵詞:病毒分類編碼序列比較基因體研究
外文關鍵詞:virus classificationtranslated coding sequencecomparative genomic analysis
相關次數:
  • 被引用被引用:0
  • 點閱點閱:330
  • 評分評分:
  • 下載下載:18
  • 收藏至我的研究室書目清單書目收藏:0
傳統的病毒分類方法是根據型態學、核酸型態(DNA 或RNA) 、核酸是單鏈/雙鏈、或病毒入侵的物種。本研究從基因體的觀點, 根據編碼序列(CDS) 來做病毒分類。其中CDS 是用來定義蛋白質的編碼區域。根據『相似的CDS之轉譯序列擁有相近的生物功能』的簡單假設, 我們以E-value(E)值為評量標準, 利用blast 程式將CDS 序列分成不同的群組, 然後根據這些群組, 將病毒轉換成具有代表性的向量, 以便做進一步分類處理。實驗資料來源是選擇過的22科(family) 病毒, 包含1,596種病毒。利用著名的SVM 分類器,經由5-fold 交叉驗證, 當E-value 值為39時, 得到最佳的正確率為93.8% 。本研究對於比較基因體研究提供一個新的病毒分類方法。
Traditional approaches for virus classification based on morphology,
the type of nucleic acid genome (DNA or RNA), the nucleic acid being
single/double stranded, or the species the virus invaded. In this
study, from the genomic point of view, we have virus classification via translated coding sequences (CDS). Note that the translated CDS feature is used to define a protein coding region. Under an assumption, for simplicity, that similar translated CDS sequences conserve similar biological functions, the translated CDS sequences were clustered into distinct groups via a criteria of the E-value(E) of blast program such that the instances of viruses could be transferred into representative vectors for further classification processes. The experimental resources included 22 virus family consisting of 1,596 viruses. The best accuracy was as high as 93.8% when E=39 achieved by the well known SVM classifier through 5-fold cross-validation. This study provided a new approach to virus classifiation for comparative genomic analysis.
目錄
摘要i
Abstract ii
圖目錄v
表目錄vii
1 介紹1
1.1 病毒分類. . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 編碼序列(Coding Sequence) . . . . . . . . . . . . . . . . 5
1.3 基本本地端比對收尋工具(BLAST) . . . . . . . . . . . . 7
1.4 樣式權重. . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Support Vector Machine(SVM) . . . . . . . . . . . . . 9
2 方法11
2.1 特徵擷取translated CDS Clustering . . . . . . . . . . . 13
2.2 特徵權重計算GF*IGF . . . . . . . . . . . . . . . . . . . 15
3 實驗結果與實作18
3.1 資料來源. . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.1 NCBI . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.2 序列資料. . . . . . . . . . . . . . . . . . . . . . 18
3.1.3 病毒向量化. . . . . . . . . . . . . . . . . . . . . 21
3.2 分類結果. . . . . . . . . . . . . . . . . . . . . . . . . . 23
4 結論與討論27
4.1 結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 討論. . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5 附錄:translated CDS Clustering 步驟34
誌謝38
簡歷39
圖目錄
1.1 螺旋型: 流感病毒[3] . . . . . . . . . . . . . . . . . . . . 2
1.2 正二十面體型: 腺病毒[2] . . . . . . . . . . . . . . . . . . 3
1.3 包膜型: 愛滋病[7] . . . . . . . . . . . . . . . . . . . . . 3
1.4 複合型: 噬菌體[7] . . . . . . . . . . . . . . . . . . . . . 3
1.5 ICTV. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.6 central dogma[11] . . . . . . . . . . . . . . . . . . . . . 6
2.1 GI:111146921序列原始格式. . . . . . . . . . . . . . . . 12
2.2 系統概念流程圖. . . . . . . . . . . . . . . . . . . . . . . 12
2.3 第一類5隻病毒. . . . . . . . . . . . . . . . . . . . . . . 14
2.4 分群:4各族群. . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 Group Frequency . . . . . . . . . . . . . . . . . . . . . 16
2.6 Inverse Group Frequency . . . . . . . . . . . . . . . . . 17
3.1 NCBI FTP . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 FTP病毒資料. . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Bacillus phage SPP1 virus Sequence . . . . . . . . . . . 20
3.4 Bacillus phage SPP1 CDS Sequence . . . . . . . . . . . 20
3.5 CDS 資料庫. . . . . . . . . . . . . . . . . . . . . . . . 21
3.6 病毒向量化(E-value3) . . . . . . . . . . . . . . . . . . . 22
3.7 Easy.py參數訓練(E-value3) . . . . . . . . . . . . . . . . 25
3.8 CDS正確率. . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1 其他序列. . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 輸出結果. . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3 bioperl安裝. . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1 20條序列. . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2 根據E-value 值做為比對收尋的距離. . . . . . . . . . . . 36
5.3 任選一個GI 做為種子收尋新的族群5.1 . . . . . . . . . . . 36
5.4 根據E值為收尋距離, 向外收尋. . . . . . . . . . . . . . . 37
5.5 20條序列分成4各族群. . . . . . . . . . . . . . . . . . . 37
表目錄
1.1 病毒分類[12] . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 NCBI 分類[13] . . . . . . . . . . . . . . . . . . . . . . . 4
3.1 The Statistics of CDS Groups . . . . . . . . . . . . . . 24
4.1 formatdb 參數表[5] . . . . . . . . . . . . . . . . . . . . 31
4.2 blastall 參數表[5] . . . . . . . . . . . . . . . . . . . . . 31
參考文獻
[1] 中華民國第一屆網路智能與應用研討會. http://ncwia2011.nuk.edu.tw/.
[2] 互動百科. http://tupian.hudong.com/.
[3] 生物秀論壇. http://www.bbioo.com/Article/2008/22338.htm.
[4] 高宇. 分子生物學. 2 edition, 2009.
[5] 許瀚升王經篤, 范宗宸. The establishment of a automatic BLAST
system for T-DNA insert mutant Right Border flanking sequence in Rice. 2008.
[6] 網上醫學小百科. http://big5.39kf.com/cooperate/book/05/cellbiology/
2007-09-25-411584.shtml.
[7] 維基百科. http://zh.wikipedia.org.
[8] 劉仁嘉. 應用於文件分類的自建構是模糊特徵擷取法. 2009.
[9] 鄭清俊. 應用類神經網路與支援向量機於目標客戶選取. 2005.
[10] 魏忠志陳彥良. SCI/SSCI 文章比對方法之研究. 2005.
[11] Protein synthesies. http://juang.bst.ntu.edu.tw/BCbasics/Nucleicxx.htm.
[12] Phd Patrick R. Murray, PhD Ken S. Rosenthal, PhD George S. Kobayashi, and MD Michael A. Pfaller. Medical Microbiology. 2005.
[13] Wikipedianet. http://en.wikipedia.org/wiki/Virus classification.
[14] Taxonomy. http://taibif.org.tw/informatics/?p=316.
[15] David H. Bos and David Posada. Using models of nucleotide evolution to build phylogenetic trees. Developmental and Comparative Immunology, 29:211–227, 2005.
[16] Stefan R. Henz, Daniel H. Huson, Alexander F. Auch, Kay Nieselt-Struwe, and Stephan C. Schuster. Whole-genome prokaryotic phylogeny. Bioinformatics, 21(10):2329–2335, 2005.
[17] Taxonomy and Classification of Viruses. http://www.ncbi.nlm.nih.gov/ICTVdb/MCM8.pdf.
[18] Jonathan Pevsner. Bioinformatics and Functional Genomics. Wiley List, 2003.
[19] Wikipedia. http://www.news-medical.net/health/Virus Classification.aspx.
[20] David W. Mount. Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press, 2 edition, 2004.
[21] Jing-Doo Wang and Jig-Fu Huang. A Study of Virus Classification via Genomic DNA Sequences. In 2011 Conference of Information Technology and Application in Outlying Islands, 2011.
[22] CDS. http://zh.wikipedia.org/wiki/Dna.
[23] Miller W. Myers E.W. Altschul S. F., Gish W. and Lipman D. J. Basic Local Alignment search Tool. pages 403–410, 1990.
[24] NCBIBLAST. http://www.ncbi.nlm.nih.gov/BLAST/.
[25] June Cohen, W. Integration of Heterogeneous databases Without Common Domains Using Queries Based on Textual Similarity. pages 201–212, 1998.
[26] T.E. Doszkocs. From Research to Application: The CITE Natural Language Information Retrieval System. pages 251–262, 1983.
[27] M. Geffet and D.G Feitelson. Hierarchical indexing and document matching in BoW. pages 259–267, 2001.
[28] G. Salton and C.S. Yang. On the Specification of Term Values in Automatic Indexing. pages 351–372, 1973.
[29] TF*IDF. http://morris.lis.ntu.edu.tw/wikimedia/index.php/TF*IDF.
[30] G. Salton. Automatic Text Processing: The Transformation, Analysis and Retrieval of Information by Computer. 1973.
[31] G. Salton and C. Buckley. Improving retrieval performance by relevance feedback. 1988.
[32] Haesun Park Yunjae Jung and Ding zhu Du. A Balanced Term-Weighting Scheme for Effective Document Matching. 2001.
[33] S.T. Dumais. Improving the retrieval of information from external sources. pages 229–236, 1991.
[34] R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrieval. 1999.
[35] LIBSVM. http://www.csie.ntu.edu.tw/ cjlin/libsvm/.
[36] I. H. Witten and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques. Elsevier, second edition, 2005.
[37] NCBI. http://www.ncbi.nlm.nih.gov/books/NBK8174.
[38] Ethem Alpaydin. Introduction to Machine Learning. The MIT Press, 2004.
[39] N. Cristianini and J. Shawe-Taylor. An Introduction to Support Vector Ma-chines and other kernel-based learning methods. Cambridge University Press,2000.
[40] C. D. Manning, P. Raghavan, and H. Schu”tze. Introduction to Information Retrieval. Cambridge University Press, 2008.
[41] Bryan Bergeron. 生物資訊計算導論. 2005.
[42] Michael Moorhouse and Paul Barry. Bioinformatics, Biocomputing and Perl: An Introduction to Bioinformatics Computing Skills and Practice. Wiley, 2004.
[43] Ronald L. Rivest Clifford Stein. Thomas H. Cormen Charles E. Leiserson. Introduction to Algorithms, Second Edition. 2001.
[44] TOM M. MITCHELL. MACHINE LEARNING. 1997.
[45] Wikipedia. http://en.wikipedia.org/wiki/Tombusviridae.
[46] Boulez K Brenner S Chervitz S Dagdigian C Fuellen G Gilbert J Korf I Lapp H Lehvaslaiho H Matsalla C Mungall C Osborne B Pocock M Schattner P Senger M Stein L Stupka E Wilkinson M Birney E . Stajich J, Block D. The bioperl toolkit: Perl modules for the life sciences. 2002.
[47] Lincoln Stein. How perl saved the human genome project. 1996.
連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top