跳到主要內容

臺灣博碩士論文加值系統

(18.97.14.84) 您好!臺灣時間:2024/12/14 20:07
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:黃琦瑋
研究生(外文):Chi-Wei Huang
論文名稱:微生物相數據分析之品質評估
論文名稱(外文):Quality Assessment in Microbiome Data Analysis
指導教授:楊永正楊永正引用關係
指導教授(外文):Ueng-Cheng Yang
學位類別:碩士
校院名稱:國立陽明大學
系所名稱:生物醫學資訊研究所
學門:生命科學學門
學類:生物化學學類
論文種類:學術論文
論文出版年:2017
畢業學年度:105
語文別:中文
論文頁數:67
中文關鍵詞:微生物體品質評估16S rRNA變異區域定序錯誤微生物多樣性
外文關鍵詞:Microbiomequality assessment16S ribosomal RNAvariable regionssequencing errormicrobial diversity
相關次數:
  • 被引用被引用:0
  • 點閱點閱:305
  • 評分評分:
  • 下載下載:16
  • 收藏至我的研究室書目清單書目收藏:0
近幾年來,許多證據證實了微生物(microbiota)在人類疾病中扮演非常重要的角色,當微生物群落(communities)不平衡時,將會引起疾病發生。在微生物相的研究中,通常利用16S ribosomal RNA(rRNA)去分析微生物群落的組成,而V3~V4的序列為探測微生物多樣性最為常見的目標定序區域。因為做一次定序無法區別定序錯誤與序列變異,定序錯誤直接影響多樣性分析之結果。品質評估是不可或缺的,因此本研究最主要之目的是評估序列品質對多樣性分析的影響,進而改善定序的方法與生物資訊分析的流程。
由於V3~V4長度約為460 bp,所以必須將雙端定序(paired-end sequencing)的結果拼接(stitch),才能比較序列。V3~V4定序定序資料中兩序列片段的重疊區域為90 bp至130 bp,在組裝的過程中,重疊區域內鹼基因為被定序兩次,可以被確認定序是否相同。所以,雖然3’端的序列品質比5’端的低,可是組裝序列的過程讓錯誤的機率降低,有利於正確決定樣本中的多樣性。
為增加探索多樣性的搜尋空間,有些人會將定序區域延長至V5。儘管如此,因這樣做而增加的多樣性,仍有待驗證。我們提出證據顯示,許多低品質鹼基無法經由組裝而消除,這是因為V3~V5長度為550 bp,且兩序列重疊區域只剩大約12 bp至22 bp,因此3’端的低品質鹼基仍存於組裝後的序列中,這些可能有錯的序列,會讓我們高估樣本中微生物相的多樣性。本研究利用人工產生的錯誤序列,顯示定序錯誤會造成菌種分群錯誤而誤判結果,因此嘗試將分析流程最佳化,以減少因定序錯誤而錯估多樣性的機會,以幫助未來微生物項研究之發展。本研究也建議,在定序技術改進前,研究微生物相應使用V3~V4定序估計多樣性,而避免延伸到V5。
More and more evidences have shown that microbiome has played an important role in human diseases. Most microbiome studies are using 16S ribosomal RNA sequences to characterize the microorganisms in a given sample. The variable regions V3 to V4 are frequently used to detect the diversity after high throughput sequencing. However, it is difficult to distinguish a sequence variation with a sequencing error. Therefore, quality assessment is essential to avoid mis-interpreting the diversity data.
The quality of a read is usually high in the 5’-end and low in the 3’-end. Because the sequence from V3 to V4 is about 464 bases long, a pair end sequencing approach is commonly used. These two reads need to be assembled into a contig before any sequence comparison. The overlapped region is about 90 to 130 bases long, which may enhance the sequence quality. This is because the assembled region is supported by two reads. If two reads have identical sequences, the quality is usually high enough for diversity detection.
To enhance the sensitivity of detecting diversity, some people also include V5 region as well. Nevertheless, the increased diversity in a computer simulation has not been examined carefully by using an experimental approach. We presented evidence to show that many low quality bases cannot be effectively eliminated by the sequence assembly process. This is because the V3 to V5 region is about 550 bases long. As a result, the two reads overlapped by only 12 to 22 bases long, so the low quality region at the 3’-end of a read are still there in the assembled sequence. These sequencing errors in the V4 region might be interpreted as the diversity if the sequencing quality is not assured.
In this study, we artificially add sequencing errors to reads, indicating that the sequencing errors will cause the errors in the grouping process. Therefore, optimizing the pre-processing pipeline is essential to reduce the effect of sequencing error on the diversity estimation. Unless the sequencing technology is improved, using V3~V4 regions to estimate the diversity of a microbiome should be more accurate than using V3~V5 regions to do that.
目錄
中文摘要 i
ABSTRACT ii
目錄 iii
圖目錄 v
表目錄 vii
誌謝 viii
第 1 章 研究背景 1
1.1研究重要性 1
1.2微生物體(Microbiome)研究現況 2
1.3無法區分定序錯誤或是序列變異 3
1.4研究目標 4
第 2 章 研究原理 5
2.1 QIIME對前處理步驟的建議 5
2.2利用分析流程觀察序列品質與多樣性之關聯 6
2.3人工加入定序錯誤觀察多樣性之變化 7
第 3 章 材料及工具 8
3.1材料來源 8
3.2 16S rRNA序列分析 9
3.2.1 16S ribosomal RNA (rRNA) 12
3.2.2 16S ribosomal RNA (rRNA)在微生物體上之應用 13
3.3品質控管(Quality control) 14
3.3.1Quality (Phred) Scores 14
3.3.2 FastQC 15
3.4序列前處理(Pre-processing) 16
3.4.1拼接序列 17
3.4.2引子去除 19
3.4.3序列品質之篩選 20
3.4.3嵌合序列檢查 22
3.5 OTU物種分類與表建置 23
3.5.1 Operational Taxonomic Unit(OTU) 23
3.5.2 OTU表建置 24
3.6微生物多樣性分析 27
3.6.1 Alpha多樣性(α diversity) 27
3.6.2 Beta多樣性 (β diversity) 30
3.6.3多樣性分析流程 32
3.7定序錯誤之導入 34
第 4 章 研究結果及討論 35
4.1不同分析流程造成結果差異 35
4.2分散式運算 38
4.3前處理分析流程最佳化 38
4.3.1序列拼接之工具 40
4.3.2序列資料之檢查 42
4.3.3品質管控之方法 44
4.3.4資料庫之使用 48
4.4評估序列品質對微生物多樣性之影響 50
4.4.1嚴格的篩選條件可能影響到試驗結果 50
4.4.2定序錯誤使多樣性測量結果產生變化 54
4.5基於序列品質採用16S定序之方法 59
4.6 V3~V5以修剪變異區域V4解決序列品質問題 61
4.7研究限制與總結 64
4.8未來展望 65
參考文獻 66


圖目錄
圖 3‑1QIIME建議之流程 11
圖 3‑2 16S rRNA結構圖 12
圖 3‑3 FastQC之HTML報表 16
圖 3‑4雙端定序分析之簡易流程圖 17
圖 3‑5 PEAR序列品質校正並合併 18
圖 3‑6可能發生拼接之情況 19
圖 3‑7修剪低品質序列示意圖 20
圖 3‑8依序列所佔Quality Score之百分比例(%)做篩選示意圖 21
圖 3‑9嵌合序列的形成 22
圖 3‑10 OTU叢集狀況 23
圖 3‑11 OTU表建構策略 25
圖 3‑12搜尋序列資料比對示意圖 26
圖 3‑13物種豐富度之示意圖 28
圖 3‑14物種均勻度之示意圖 29
圖 3‑15Shannon計算考量之因素 29
圖 3‑16Unifrac的計算方式 30
圖 3‑17Weighted Unifrac計算示意圖 31
圖 3‑18多樣性分析流程圖 32
圖 4‑1相同定序資料不同操作分析流程的主要物種分佈圖(Phyla Level) 36
圖 4‑2相同定序資料不同操作分析流程的稀釋性曲線圖 37
圖 4‑3 benchmark之測試 38
圖 4‑4 QIIME官網以及本研究分析之前處理步驟差異 40
圖 4‑5序列資料內鹼基引子缺失或配錯之真實狀況 42
圖 4‑6引子比對差異造成影響計算序列相似度 43
圖 4‑7修剪(trimming)品質低於30的區域之序列長度分佈圖 47
圖 4‑8過濾(filtering)序列未有包含80%鹼基品質為30之分佈圖 47
圖 4‑9序列長短影響計算相似度之值(長度短會影響多樣性,多樣性會不見) 48
圖 4‑10 Silva以及GreenGenes個別分析結果之菌種(phylum)比較 48
圖 4‑11GreenGenes與Silva資料庫內序列之比較示意圖 49
圖 4‑12 GreenGenes與Silva資料庫內各層次物種數量比較 50
圖 4‑13不同品質(Q30P80 & Q30P90)篩選條件之稀釋性曲線結果 51
圖 4‑14 Q30P100之稀釋性曲線結果 51
圖 4‑15以固定取樣數目觀察品質對多樣性之影響 53
圖 4‑16引入少於1%定序錯誤量之情況 54
圖 4‑17整體引入定序錯誤之概況 55
圖 4‑18 OTUs之分佈概況 56
圖 4‑19引入定序錯誤之發生狀況 57
圖 4‑20 在引入不同定序錯誤,統計個別由單一read所形成的OTU數量 58
圖 4‑21 V3~V4與V3~V5定序區域ratadata之FastQC 60
圖 4‑22序列拼接以及序列過濾之FastQC 60
圖 4‑23 V3~V5以及V3+V5之FastQ序列品質概況 62
圖 4‑24 V3~V5以及V3+V5的稀釋性曲線圖之比較 64


表目錄
表 3‑1 V3~V4以及V3~V5之樣本資訊 8
表 3‑3:Quality (Phred) Scores與錯誤概率之間的關聯性 15
表 3‑4本研究各目標區域所使用的通用引子 19
表 4‑1比較不同分析流程之使用工具 36
表 4‑2兩個拼接工具之序列統計表 41
表 4‑3有無刪除引子之個別統計表 44
表 4‑4 Trimming以及Filtering之序列量統計 46
表 4‑5 V3~V5以及V3~V4前處理序列量統計表 63
參考文獻
1. Ruth E. Ley1, P.J.T., Samuel Klein1 & Jeffrey I. Gordon1, Microbial ecology: Human gut microbes associated with obesity. Nature, 2006. 444(1009-1010): p. 1022-3.
2. Boulange, C.L., et al., Impact of the gut microbiota on inflammation, obesity, and metabolic disease. Genome Med, 2016. 8(1): p. 42.
3. Le Chatelier, E., et al., Richness of human gut microbiome correlates with metabolic markers. Nature, 2013. 500(7464): p. 541-6.
4. Group, N.H.W., et al., The NIH Human Microbiome Project. Genome Res, 2009. 19(12): p. 2317-23.
5. Sinha, R., et al., The microbiome quality control project: baseline study design and future directions. Genome Biol, 2015. 16: p. 276.
6. J Gregory Caporaso, J.K., Jesse Stombaugh, Kyle Bittinger, Frederic D Bushman, Elizabeth K Costello, Noah Fierer, Antonio Gonzalez Peña, Julia K Goodrich, Jeffrey I Gordon, Gavin A Huttley, Scott T Kelley, Dan Knights, Jeremy E Koenig, Ruth E Ley, Catherine A Lozupone, Daniel McDonald, Brian D Muegge, Meg Pirrung, Jens Reeder, Joel R Sevinsky, Peter J Turnbaugh, William A Walters, Jeremy Widmann, Tanya Yatsunenko, Jesse Zaneveld & Rob Knight, QIIME allows analysis of high-throughput community sequencing data. Nature Methods, 2010. 7: p. 335 - 6.
7. Schloss, P.D., et al., Introducing mothur: open-source, platform-independent, community-supported software for describing and comparing microbial communities. Appl Environ Microbiol, 2009. 75(23): p. 7537-41.
8. Lam, H.Y., et al., Performance comparison of whole-genome sequencing platforms. Nat Biotechnol, 2011. 30(1): p. 78-82.
9. Nakamura, K., et al., Sequence-specific error profile of Illumina sequencers. Nucleic Acids Res, 2011. 39(13): p. e90.
10. Schloss, P.D., D. Gevers, and S.L. Westcott, Reducing the effects of PCR amplification and sequencing artifacts on 16S rRNA-based studies. PLoS One, 2011. 6(12): p. e27310.
11. Pruesse, E., et al., SILVA: a compre hensive online resource for quality checked and aligned ribosomal RNA sequence data compatible with ARB. Nucleic Acids Res, 2007. 35(21): p. 7188-96.
12. DAVIDA.STAHL, B., HOWARDR.MANSFIELD,AND LARRYMONTGOMERY, Use of Phylogenetically Based Hybridization Probes for Studies of Ruminal Microbial Ecology. APPLIED AND ENVIRONMENTAL MICROBIOLOGY, 1988. 54(5): p. 1079-84.
13. Ltd., E.S., Millennium bugs. 1999.
14. Chakravorty, S., et al., A detailed analysis of 16S ribosomal RNA gene segments for the diagnosis of pathogenic bacteria. J Microbiol Methods, 2007. 69(2): p. 330-9.
15. Zhang, J., et al., PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics, 2014. 30(5): p. 614-20.
16. Bonnie L. Maidak, G.J.O., Niels Larsen, Ross Overbeek, Michael J. McCaughey and Carl R. Woese, The RDP (Ribosomal Database Project). Nucleic Acids Research, 1997. 25(1): p. 109-10.
17. Rognes, T., et al., VSEARCH: a versatile open source tool for metagenomics. PeerJ, 2016. 4: p. e2584.
18. Navas-Molina, J.A., et al., Advancing our understanding of the human microbiome using QIIME. Methods Enzymol, 2013. 531: p. 371-444.
19. Caporaso, J.G., et al., PyNAST: a flexible tool for aligning sequences to a template alignment. Bioinformatics, 2010. 26(2): p. 266-7.
20. Lozupone, C. and R. Knight, UniFrac: a new phylogenetic method for comparing microbial communities. Appl Environ Microbiol, 2005. 71(12): p. 8228-35.
連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top