您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 统计图表 > 基因测序的前世今生(一代测序-二代测序-三代测序最详原理)
测序技术的前世今生测序技术的发展历程第一代测序技术(Sanger测序)第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解),在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础。原理:ddNTP的3’无羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。第二代测序技术(NGS)第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。经过不断的技术开发和改进,以Roche公司的454技术、illumina公司的Solexa、Hiseq技术和ABI公司的Solid技术为标记的第二代测序技术诞生了。其大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性,以前完成一个人类基因组的测序需要3年时间,而使用二代测序技术则仅仅需要1周,但在序列读长方面比起第一代测序技术则要短很多,大多只有100bp-150bp。1.illuminaIllumina公司的Solexa和Hiseq是目前全球使用量最大的第二代测序机器,占全球75%以上,以HiSeq系列为主,技术核心原理都是边合成边测序的方法,测序过程主要分为以下4步:1)构建DNA测序文库DNA分子用超声波打断成200bp-500bp长的序列片段,并在两端添加上不同的接头。2)测序流动槽(flowcell)结构:Flowcell是测序的载体,课吸附DNA文库,每个flowcell有8条lane,每个lane有2行column,每行column有60个tail,每个tail经CCD镜头课捕获荧光信号。3)成簇(cluster)NGS的核心技术特点,目的在于实现将单一碱基的信号强度进行放大,以达到CCD镜头摄取荧光的信号要求。大体原理网上都可查到,在此解答2大难理解之处:一.可逆终止荧光dNTP(Illumina测序核心技术)荧光修饰dNTP可逆合成终止(包括用叠氮基团即起到了可逆终止作用和用不同荧光集团区别碱基信号的功能),是Illumina测序的最核心技术。1.上图是修饰过的dCTP分子结构式,在核苷酸糖基的3'位连一个叠氮基团(红色基团)。这个叠氮基团在链延伸的时侯起到了阻止聚合的作用(理解见下图DNA复制时的5’和3’的示意图,下一个碱基合上时是:下一个核苷酸的5’P连接到上一个核苷酸的3’OH,故如果下一个核苷酸的3’带有叠氮基团而非自然状态下的OH时,下一个核苷酸就无法合上。)。2.叠氮基团有一个特性,就是遇到巯基试剂(例如:二巯基丙醇),叠氮基团会发生断裂,并在原来的位置留下一个羟基因此在荧光照相之后可以借此回复3’的-OH状态,以供下一个碱基合上。3.在碱基上,通过连接臂(蓝色基团)连接一个荧光基团。4种dNTP分别连4种不同颜色的荧光基团。测序时,通过识别荧光基团的颜色,就可以判断原来的碱基是哪一种。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。荧光信号记录完成后,再加入化学试剂[TCEP(Tris(2-carboxyethyl)phosphine,三(2-羧乙基)膦)]淬灭荧光信号,并用巯基试剂去除3'位阻断的叠氮基团,以便能进行下一轮的测序反应。注:每一步试剂具有极高的处理效率,因为在要重复几百次的反应中(30~40x测序),每步的得率差一点,最终的结果就会差许多,所谓的指数放大效应。缺点1)Prephasing:在边合成边测序过程中,每个循环应该合成一个碱基,因为某些原因,会一个循环合成二个或更多的碱基,这种多合成碱基的情况就称为Prephasing。叠氮基团在常温下不是很稳定,尤其是3'位的叠氮基脱落,是导致测序时的Prephase的主要原因。Prephasing越严重,则测长越短(因为多个1个循环只记录1个碱基,如果1个循环中同时合上了多个碱基,则势必相对长度缩短)。Prephasing占了Illumina测序长度中几乎一半的限制性因素。(叠氮基团在常温下不是很稳定,Illumina的测序SBS试剂都要低温保存。Illumina的新型测序仪(HiSeq/NextSeq/MiSeq等)的内部还内置了一个小冰箱,来给试剂降温。)2)Phasing:在边合成边测序过程中,每个循环应该合成一个碱基,因为某些原因,会一个循环没有合成碱基,这种少合成碱基的情况就称为Phasing。用修饰的dNTP代替天然dNTP来进行边合成边测序的工作,就会遇到天然聚合酶对修饰dNTP的聚合效率低的问题。Phasing越严重,则测长越短。Phasing是除Prephasing外的另一个重要长限制因素。(另外还有的两个测长限制因素是:桥式PCR对文库长度的限制、和激光会打断DNA链。(天然聚合酶对修饰dNTP的聚合效率低:Illumina用基因工程定向进化的方法不断地改进其测序聚合酶,以提高酶对修饰dNTP的合成效率。现在Illumina的试剂已经改到V4版。Illumina的每次酶改版,都带来测序能力的大幅提升。)二化学方法选择性、定点切断特定DNA链在Illumina的测序过程中,无论是单端还是双端测序,都会用到特异选择性链切断的过程。其中单端测序的要切断1次,双端测序中的两条链要先后各切断1次(共2次)。单端测序(35cycles):在完成桥式PCR后,把Read1测序引物杂交到模板上之前,需要切断桥式PCR所形成的双链中的一条,只留下单一的模板链,以作为模板,供下面的边合成、边测序之用。方法:高碘酸希夫反应:过碘酸把糖类相邻两个碳上的羟基氧化成醛基。原理:P5最后一个碱基A的糖基的第4和第5位的C分别加入一个-OH(二羟基-diol,即构成P5-diol-OH),桥式PCR后用高碘酸钠溶液处理,高碘酸根快速、精确地将二个醇基之间的那个碳碳键切断,洗掉P5相接的那条DNA链,当然,最后一个碱基A也被洗掉了,如下图:双端测序第一条链切断(在上图中的第2步):第一次桥式PCR之后(25-28cycles)和单端测序中的那次切断的目标一样,是要留下双链中的一条,以作为read1的测序模板。方法:通过在P5中加入一个U碱基(具体序列信息待查),而后在要切断这链链的时侯,用USER酶(UracilSpecificExcisionReagent,尿嘧啶链特定切断试剂)来切一下。USER™(尿嘧啶-特异性切除试剂)酶在尿嘧啶位置产生一个单核苷酸缺口。USER酶是尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶EndoVIII的混合物。UDG催化尿嘧啶碱基的切割,形成一个脱碱基(脱嘧啶)位点,但保持磷酸二酯骨架结构完整。EndoVIII的裂解酶活力使脱碱基位点3´和5´端的磷酸二酯键断裂,释放无碱基的脱氧核糖。第二次切断(上图中的7):方法:“甲酰胺基嘧啶糖苷酶,FPG”对“8-氧鸟嘌吟糖苷,8-oxo-G”的选择性切断作用。P7的3’末端最后一个G被修饰为8-oxoguanine,是FPG的作用位点,Fpg就把“8-oxo-G”碱基切掉(步骤A),并把那条链给切断(步骤B),剩下的结构是P7的3’末端有一个与上一个核苷酸的3’-OH相连的磷酸基以及一个不完整糖基的磷酸基,也就是上图中,其5’磷酸基团连接着上一个核苷酸的3’端,所以此结构相当于BlockedP7接头的3’,起到了阻止链延伸的作用。在后面重新长簇的时候,会重新利用这个接头,所以要恢复3'端羟基,此时再用“脱嘌呤嘧啶内切核酸酶,AP-endonuclease”把带不完整糖基的那个磷酸基切掉(至此,彻底切掉了P7的最后一个尿嘧啶G),3'端羟基就露出来了(步骤C)。4)测序边合成边测序,向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(具体见上文)。这些dNTP的3’-OH被叠氮基团保护,因而每次只能添加一个dNTP,这就确保了在测序过程中,一次只会被添加一个碱基。同时在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP3’-OH保护基团,以便能进行下一轮的测序反应。30x-50x测序深度对于Hisq系列需要100小时,而对于2017年初最新推出的NovaSeq系列则只需要40个小时!下面是测序量比较(双流动槽为例,如为单流动槽则测序量减少为下表的一半,时间不变)一次测序的数据总产量的单位Gb,不是计算机字节,而是测序碱基的数目(Gigabase)第三代测序技术单分子测序,以PacBio公司的SMRT和OxfordNanoporeTechnologies纳米孔单分子测序技术为主,最大的特点就是单分子测序,测序过程无需进行PCR扩增,超长读长,平均达到10Kb-15Kb,是二代测序技术的100倍以上。基本原理是:边合成边测序的原则,DNA聚合酶和模板结合,4种碱基(荧光标记dNTP),在碱基配对阶段发出不同光,根据光的波长与峰值可判断进入的碱基类型。读长主要跟酶的活性保持有关。SMRT技术的测序速度很快,每秒约10个dNTP。但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到10%-15%,而且以缺失序列和错位居多。但可通过多次测序来进行有效的纠错。PacBioSMRT技术除了能够检测普通的碱基之外,还可以通过检测相邻两个碱基之间的测序时间,来检测碱基的表观修饰情况,如甲基化。因为假设某个碱基存在表观修饰,则通过聚合酶时的速度会减慢,那么相邻两峰之间的距离会增大,我们可以通过这个时间上的差异来检测表观甲基化修饰等信息。OxfordNanoporeOxfordNanopore的MinION是另一个比较受关注的第三代测序仪,俗称U盘测序仪。是基于电信号而不是光信号的测序技术!技术关键是特殊的纳米孔,孔内共价结合有分子接头。当DNA碱基通过纳米孔时,它们使电荷发生变化,从而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),灵敏的电子设备检测到这些变化从而鉴定所通过的碱基,理论上,它也能直接测序RNA。。附:
本文标题:基因测序的前世今生(一代测序-二代测序-三代测序最详原理)
链接地址:https://www.777doc.com/doc-1647596 .html