您好,欢迎访问三七文档
第二代测序简介刘云山第一代测序◦第一代技术主要采用1977年Sanger发明的末端终止测序法◦在每一轮的Sanger测序反应中,在链延伸的同时加入荧光标记过的ddNTP,被结合的链将终止合成反应,没有被结合的将继续根据模板链合成,一直重复这样的过程直到所有的合成反应都被终止。这样将得到大量长短—末端被同荧光标记的序列,通过电泳对以将不同长度的序列分离开,这样就可以逐个碱基的读出整个序列了。◦一个反应所测的序列不可能太长,通常为1000个核苷酸左右,测序通量不大,且测序反应费时费力;◦由于DNA聚合酶造成的碱基错配,因此测序的准确度并不高;◦基于技术的基因组测序十分昂贵,从基因组中预测基因的方法也十分有限。测序技术的发展90年代:DNA芯片技术21世纪:第二代高通量测序技术第二代测序第二代测序,即大规模平行测序平台,具有通量大,读长短的特点。代表技术:Illumina公司遗传分析仪(Solexa):边合成边测序法;Roche公司的454平台:焦磷酸合成测序法;ABI公司推出的SOLiD系统:边连接边测序法。Illumina-Solexa基本流程:1.构建测序文库。提取基因组DNA,随机打断成100~200bp片段,末端加上接头;2.桥式扩增。解链后的单链DNA片段两端被分别固定于芯片上,形成桥状结构,进行桥式PCR扩增。经过PCR扩增,产生数百万条待测的DNA片段,随后被线性化;3.测序。将荧光标记的dNTP、聚合酶、引物加入到测序通道启动测序循环。DNA合成时,伴随着碱基的加入会有焦磷酸被释放,从而发出荧光,不同碱基用不同荧光标记,读取到核苷酸发出的荧光后,将3′羟基末端切割,随后加入第2个核苷酸,重复第一个核苷酸的步骤,直到模板序列全部被合成双链DNA。特点:测序通量大、速度快、成本低;性价比最高。Illumina-SolexaFlow-cellRoche-454基本流程:1.构建测序文库。将基因组DNA打碎成300~800bp的片段后,在两端加上锚定接头;2.乳液PCR扩增。每个含有接头的DNA片段被固定在特定的磁珠上,进行乳液PCR扩增。多个循环后,磁珠表面被打破,扩增产生的成千上万个拷贝仍然在磁珠表面;3.焦磷酸测序。将磁珠转移到PTP板上,每个PTP板上的小孔只能容下1个磁珠。分别装有A、T、C、G4种碱基的试剂瓶,依次进入PTP板,每次只进1个碱基,如果发生配对,就会释放1个焦磷酸,释放出的荧光信号会被CCD捕获到。每个碱基反应都会捕获到1个荧光信号,由此一一对应,模板的碱基序列由此获得。特点:读长长,但是准确率低、成本高。Roche-454乳化:形成油包水的混合物。ABI-SOLiD基本流程:1.文库制备。将基因组DNA打断,在其两头加上接头,构建成文库;2.乳液PCR/磁珠富集。此过程与454测序技术类似,不过SOLiD的微珠只有1μm;3.连接测序。混合的8碱基单链荧光探针为连接反应的底物,探针的5′端用4色荧光标记,3′端第1、2位碱基对应5′端荧光信号的颜色。因为只有四色荧光,而2个碱基却有16个组合情况,故4种碱基对应一种颜色的荧光。单次测序由5轮测序反应组成,反应后得到的为原始颜色序列。特点:通量最大,最准确(99.94%);但读长最短,双末端测序困难。ABI-SOLiDSingle-read,Paired-end,Mate-pair单末端测序(Single-read):,首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flowcell上生成DNA簇,上机测序单端读取序列。这种方法较简单,但是它只有一端有拼接信息,不利于拼装;Single-read,Paired-end,Mate-pair双末端测序(Paired-end):构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-EndModule)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。Single-read,Paired-end,Mate-pairMate-pair文库制备:旨在生成一些短的DNA片段,这些片段包含基因组中较大跨度(2-10kb)片段两端的序列,更具体地说:首先将基因组DNA随机打断到特定大小(2-10kb范围可选);然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600bp的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成mate-pair文库,然后上机测序。第二代测序的应用——基因组学与转录组学基因组从头测序及重测序从头测序:denovosequencing,主要应用于基因组序列未知的物种,DNA片段测序后,用生物信息学软件对序列进行拼接、组装,从而获得该物种的基因组序列图谱。重测序是指该物种基因组序列已被测序,有参考基因组序列的测序工作。由于第2代测序技术测序读长较短,完成基因组的从头测序一般需要第一代测序技术的辅助,但是可以完成简单生物的基因组从头测序及所有生物的基因组重测序。在第二代测序技术的推动下,大量生物的全基因组被顺利测序,大量物种的基因组计划完成。基因组研究策略主要分为基因组测序、基因组组装、基因组完成、基因预测、基因注释和基因组比较分析六大部分。第一步:DNA的提取及测序。常用平台有:Solexa、454、SOLiD。第二步:基因组组装。常用的软件有Newbler、AMOScmp、Phred/Phrap/Consed和Velvet等。第三步:基因组完成。即确定组装获得的Contigs之间的连接顺序并修补Gaps。第四步:基因预测。常用的蛋白质编码基因预测软件有Glimmer、GeneMarkS和Prodigal。第五步:基因注释。通常要整合多个数据库,通过序列比对进行预测基因的注释。第六步:基因组比较分析。通常会进行相近物种之间或同一物种不同个体之间的基因组比较分析。转录组研究内容转录本结构的研究(起始密码子鉴定、内含子边界确定、UTR确定、可变剪切等),表达量研究,SNP(单核苷酸多态性)位点研究,新转录本检测,非编码区功能研究(小RNA、非编码RNA的研究)转录组:是指在特定的发育阶段和生理条件下细胞中转录产生的所有转录物,包括mRNA、rRNA、tRNA和其他的非编码RNA,狭义上也可以指细胞所能转录出的所有mRNA,这个术语适用的范围是一个给定的有机体、组织或者特定的细胞集合。转录组学(transcriptomics):是一门从整体水平上研究基因转录情况和转录调控规律的学科。转录组学研究分为序列水平与表达量水平两个层面的内容,这两个层面综合在一起完整的反映了生物体遗传信息的表达方式。序列水平的研究:包括对未知转录本的探索以及对同一个基因在不同样品中的序列差异分析。表达量水平的研究:可以加深了解生物体基因调节的过程和特殊性状产生的分子机制。RNA-seq:基于第二代测序平台的转录组测序技术。转录组研究策略第一步:RNA提取和测序。提取总RNA,进行预处理;将预处理后的RNA打断后反转录成cDNA,在两端加上接头后固定到测序芯片上;随后对测序芯片上的每个cDNA进行扩增和测序,测到的每一段序列都是一个read。测得的所有reads就包含了样品中的转录组信息。第二步,检查reads质量。当二代测序的原始数据拿到手之后,第一步要做的就是看一看原始reads的质量,常用的工具就是fastqc。转录组研究策略横轴代表位置,纵轴quality。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。若任一位置的下四分位数低于10或中位数低于25,报WARN;若任一位置的下四分位数低于5或中位数低于20,FAIL.第三步,Readsmapping首先将Reads进行Mapping,从而获得Reads在基因组上的位置,常用的Mapping软件有BWA、Bowtie、SOAP2等。基于后缀Trie思想的Burrows-Wheeler转换可以用“循环、排序”四个字来概括.将基因组序列按一定规则压缩并建立索引,再通过查找和回溯来定位读段,在查找时可通过碱基替代来实现允许的错配。转录组研究策略转录组研究策略第四步,根据Readsmapping结果,进行后继分析。TSS鉴定:根据基因组上的Readscoverage来鉴定转录起始位点;5′UTR和3′UTR鉴定:鉴定编码基因中转录但不翻译的区域,即5′UTR和3′UTR;Operon鉴定:根据TSS、Readscoverage等鉴定;新基因鉴定:找出之前没有注释但是表达的区域,并根据是否存在ORF区分为蛋白质编码基因(Codinggene)和非蛋白质编码基因(SmallRNAgene);AntisenseRNA鉴定:根据SmallRNA与其他基因的位置关系确定是否是AntisenseRNA;Pseudogenes分析:比如研究假基因的表达情况;保守结构域的鉴定:利用MEME等软件鉴定保守结构域;ncRNA预测和鉴定:可以利用sRNAFinder、nocoRNAc等软件进行预测,也可以通过与Rfamdatabase比较来预测SmallRNA。另外,对那些比较重要的或者感兴趣的基因,可以通过Real-timePCR来验证RNA-seq的结果。转录组研究策略Thankyou
本文标题:第二代测序简介
链接地址:https://www.777doc.com/doc-5542499 .html