您好,欢迎访问三七文档
目录Next-generationtranscriptomeassembly应用第二代测序技术的转录组组装...................2第一部分:总体介绍挑战与机遇...........................................................................................2第二部分:实验提取与数据分析...........................................................................................2组装前:...........................................................................................................................2组装策略:.......................................................................................................................3选择策略...................................................................................................................................4选择组装软件...........................................................................................................................4评价组装的质量.......................................................................................................................5总结和未来的展望...................................................................................................................5全文完.......................................................................................................................................5Next-generationtranscriptomeassembly应用第二代测序技术的转录组组装第一部分:总体介绍挑战与机遇1.现有的转录组组装技术主要有三大方向:基于参考序列的组装,从头组装,两者结合的组装方法2.第二代测序与Sanger测序在转录组中的优势:高灵敏度,高精度,高深度,检测范围广甚至包括起调节作用的稀有转录本,3.第二代测序与其他高通量技术如基因芯片技术相比在转录本中的优势:能达到单碱基水平的分辨率,能反应表达水平的动态变化,能进行从头基因注释4.第二代测序在组装中的挑战:测序片段(reads)短,质量值偏低,数据量大,要求大内存或者多核计算机。现在已经有一些软件能解决这些问题如:Velvet,ABYSS,ALLPATH等5.转录本组装与基因组组装的差别:1.测序深度问题:各个转录本的深度不一致2.链特异性,组装软件需要考虑正义链和反义链之间的overlap3.转录本变异:例如可变剪切第二部分:实验提取与数据分析组装前:1.文库构建:A.为了多的构建转录本,核糖体RNA(rRNA)和丰度过高的转录本应该被移除,但是如果实验要研究转录本的丰度数值的话,应该构建不经过移除处理的文库。B.是否取消文库构建的PCR过程,因为PCR导致高GC含量的转录本测序深度偏低。需要研发免扩增的技术(Amplification-freeprotocols),最新的单分子测序技术则不需要PCR扩增,尤其是Helicos甚至不需要构建cDNA文库,但是这种测序技术会大幅增加错误率。应用免扩增的技术使得转录本的测序深度更平均,更连续,有利于组装。C.利用链特异性的RNA测序技术则可以利用互补链的转录本信息来辅助组装。这在基因密度较大的基因组如细菌,古细菌和低等真核生物中尤为重要。此外在检测高等生物的antisensetranscription中也有应用。://en.wikipedia.org/wiki/Antisense_RNA需要看参考文献27:什么是链特异的RNA测序2.测序:A.测序平台的选择:454SOLiDSolexaB.测序片段长度:越长越好C.是否采用双向测序的策略:双向测序可以将测通的短测序片段连接成较长的片段,此外不同插入片段的reads还有助于识别可变剪切等。3.数据预处理:A.移除人工引入的序列:测序接头low-complexityreads和一致的reads(通常由PCR扩增造成)。B.通过测序质量以及kmer频率移除测序错误,kmer纠错的缺点是丰富较低的转录本将会被移除。组装策略:1.基于参考序列的组装:A.首先将测序reads利用特定比对软件比对到基因组上。B.利用overlap关系构建graphC.转换graph中的信息为转录本。软件有Cufflinks,Scripture等。关键步骤是reads比对和构图解码,reads比对分为两个策略:种子延伸和Burrows–Wheeler转换法。两种算法在处理跨越内含子的reads处理上相对不同。构图现在主流的也有两种算法:Cufflinks和Scripture。通常Cufflinks在重构转录本上更加保守而Scripture则在同一个位置上能得到更多的转录本。基于参考序列的组装的优点:1.将整体的数据组装转换为各个位点的局部组装,内存需求小。2.污染及人工引入的序列影响小,因为这些reads不能被比对回参考序列。3.灵敏度高,能检测低丰度的转录本4.组装的转录本序列更完整,gap可以使用参考序列来填补,类似的可以获得更长的UTR序列。4.可以发现参考序列中未注释的新的转录本。基于参考序列的组装的应用:在组装细菌,古细菌,低等真核生物的转录本中更加容易,是因为这些物种的基因含有较少的内含子以及较少的可变剪切。转录本的边界可通过基因组中reads的连续覆盖度来判断,转录本的起始终止点可通过5端帽子或者polyA来判断。但是在基因密度较大的基因组中,这种策略无法区分来自两条链的转录出来的具有overlap的转录本,所以会把他们融合组装成一个转录本,即使他们不是一个基因的多个顺反字。链特异性的RNA测序也只能区分来自不同链的转录本而不能区分同一个链上具有overlap的基因的转录本。植物和哺乳动物的基因结构较复杂,很难进行组装。CufflinksandScripture主要是针对哺乳动物设计的重构转录本的软件。在多倍体植物中,转录本的组装依然是个难题。基于参考序列的组装的缺点:1.依赖于参考序列,如果参考序列本身不可靠,那么转录本组装结果可信度很低。2.比对软件会导致错误的比对。3.不容易组装trans-splicedgenes,而这些基因对研究一些癌症一份关键。其他:基于参考序列的组装当然不能没有参考基因组,然而在缺少本物种的参考基因组的情况下可以使用相近物种的基因组序列(草莓基因组文章)。总结:在高质量参考序列的存在下,该方法具有较高的灵敏度和精度,即使在测序深度10x左右依然能得到全长的转录本。同时利用更长的reads也有利于转录本的组装。结合基因预测,基于参考序列的组装将成为转录注释的一个强有力工具。2.从头组装:不利用基因组,直接利用测序的reads之间的overlap进行组装。组装的算法为构建DeBruijngraph,然后从graph中连接reads构建转录本。现在流行的组装策略有A.首先对数据集进行多次组装,最后合并多次组装得到的结代表软件有Rnnotator,Multiple-kandTrans-ABySS等。B.直接从graph中计算得到转录本。从头组装的优点:与基于参考序列的组装策略相比,具有以下优点1.不依赖于参考序列2.不依赖于比对软件3.从头组装能较好的重建可变剪切或者来自染色体重组的转录本。从头组装的应用:对细菌,古细菌,低等真核生物的转录本组装十分轻松。利用测序深度大于30层、测序长度为35bp的reads成功组装出了酵母的转录本,其中大部分组装出来是全长转录本。在不构建互补反转的kmer的情况下,可以区分来自不同链的具有overlap的基因转录本。然而对于来自同一个链上的具有overlap的基因则依然无法区分,或许可以利用测序深度的不同、明显的转录起始终止位点、编码阅读框来进行区分。由于在高等真核生物中,数据量较大而且存在较多的可变剪切变异,所以利用从头组装策略将对时间和内存有较大的需求,当然可以通过并行多节点运算来解决。利用从头组装来解决可变剪切的具体策略现在又以下两个:1.利用双向测序的reads,代表软件:Oases2.逐步组装策略,首先使用贪婪算法进行初步组装,再构建DeBruijngraph进行第二级组装,这样会大大提高运算速度。从头组装的缺点:1.需要较大内存资源。2.需要较高深度的测序。3.对测序错误敏感。4.高相似度的转录本可能会被合并3.1和2结合的组装方法:结合基于参考序列的组装的高敏感度和从头组装查找新基因、可变剪切的能力。是先比对到基因组上再进行从头组装还是先先进行从头组装,到现在没有一个系统的评价,在不同的条件下需要选择不同的策略。先比对再组装:比对完成之后,进行基于参考序列的组装,将组装的得到的初步结果和reads混在一起作为从头组装的输入文件(要求从头组装既支持短reads也支持长reads,代表:Trans-ABySSandOases)。在参考基因组比较完整的情况下,含有错误的reads或者污染的reads将无法比对回基因组,这使得第二部中的从头组装占用更少的内存,更加准确。当reads中含有较多污染时,应当首选该策略。先组装再比对:当参考序列质量较差或者是近缘物种的基因组时,应该先进行从头组装,在把从头组装得到的序列比对回参考序列进行延伸,构建scaffold。这中策略的优点是参考序列的错误影响不大。最近的一项鲶鱼转录本的研究中,在从头组装完成之后比对回棘鱼的基因组作进一步的组装,获得了更长的转录本(N50增加了27%),蚊子转录本也是用这种方法构建的。其他:现在还没有能实现结合方法组装的软件,也没有系统的研究这种方法可能带来的错误。选择策略:选择策略依赖于数个因素如:是否存在参考序列,测序能力,计算能力,数据类型,项目的目标等等。转录本的数据能提供大量的信息,有时候一小部分数据的研究也能带来成果,如最近水稻的研究中发现了新649个基因可能与耐盐性有关。还有的研究只关注数据的一部分,如老年痴呆症研究中假设发病机理与可变剪切的起始位点及剪切模式相关。随着越来越多的基因组被测序,基于参考序列的组装策略应用将越来越广泛,当然没有参考序列的只能使用从头组装方法。选择组装软件:不同的测序平台有相应的不同数据类型,错误模型,因此也有不同的相应的组装算法、组装软件评价组装的质量:对于基因组的组装结果评价已经有较多的研究,但是转录组质量的评价现在还没有一个统一的标准。现在主要的评价指标有:准确性,完整性,连续性,嵌合现象,对变异的处理。总结和未来的展望:两种不同的组装方法的发展使得转录组组装能应用于几乎任何基因组,甚至在宏转录组中。HPC(高性能计算)的
本文标题:转录组组装
链接地址:https://www.777doc.com/doc-4235374 .html