您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 高通量测序技术及实用数据分析
生物信息学Bioinformatics高通量测序及数据分析第一节测序技术及其发展•(基因组/DNA)测序经历了三代技术的发展第一代测序:Sanger测序第二代测序:高通量测序第三代测序:单分子测序含有A,T,C三种脱氧核苷酸,G双脱氧核苷酸,依次类推......Sanger双脱氧链终止法测序:用双脱氧核苷酸(ddGTP,ddATP,ddTTP,ddCTP)作为链终止试剂(双脱氧核苷酸在脱氧核糖上没有聚合酶延伸链所需要的3-OH基团,所以可被用作链终止试剂)通过聚合酶的引物延伸产生一系列大小不同的分子后再进行分离的方法。第一代测序:Sanger测序测序引物与单链DNA模板分子结合后,DNA聚合酶用dNTP延伸引物。延伸反应分四组进行,每一组分别用四种ddNTP(双脱氧核苷酸)中的一种来进行终止,再用PAGE分析四组样品。从得到的PAGE胶上可以读出我们需要的序列。具有共同的起始点,但终止在不同的的核苷酸上基于第一代测序技术进行全基因组测序主要依靠“鸟枪法”。将目的基因组DNA随机打断成小片段,然后分别对这些大小不同的小片段进行测序,再将这些小片段利用重叠关系连接起来,从而形成一致序列,达到全基因组测序的目的。分级鸟枪法测序和全基因组鸟枪法测序是采用鸟枪法进行基因组测序的2种主要方法。其中分级鸟枪法需要构建物理图谱。全基因组鸟枪法不需要构建物理图谱,直接将全基因组随机打断成小片段进行测序,操作过程相对简单很多,但是在生成一致序列时依赖强大的计算能力。基于Sanger测序的基因组测序技术:第二代测序:高通量测序(NGS)高通量测序/第二代测序(Next-generationsequencing,NGS)一次性对几百万到几亿条DNA分子进行并行测序,又称大规模平行测序。高通量测序可对一个物种的转录组和基因组进行深入、细致、全貌的分析,所以又被称为深度测序。常见的高通量测序测序平台焦磷酸测序技术:引物与模板DNA退火后,在dna聚合酶(DNApolymerase)、ATP硫酸化酶(ATPsulfurytase)、荧光素酶(1uciferase)和三磷酸腺苷双磷酸酶(Apyrase)4种酶的协同作用下,将引物上每一个dNTP的聚合与一次荧光信号的释放偶联起来,通过检测荧光的释放和强度,达到实时测定DNA序列的目的。Hiseq2000/Hiseq1000(HIseq2500/Hiseq1500)平台简介:原理:基于DNA单分子簇边合成边测序技术,以及专有的可逆终止化学反应的原理。将基因组DNA的随机片段附着到光学透明的玻璃表面(即Flowcell),这些DNA片段经过延伸和桥式扩增后,在Flowcell上形成数以亿计的簇(Cluster),每个Cluster是具有数千份相同模版DNA的单分子簇。然后利用带荧光基团的四种特殊脱氧核糖核苷酸,通过可逆性终止的SBS(边合成边测序)技术,将捕获的不同光信号转化为特定的峰值即可获得待测DNA序列的碱基顺序,据此对待测的模板DNA进行测序。SBS:加入的dNTP要么通过酶促级联反应催化底物发出特定荧光信号,要么在合成互补链时释放出相应的荧光信号。目前单次运行可产生600/300Gb的数据量,测序长度可达到双端150~250bp。SOLiD测序技术:与合成测序不同,SOLiD是通过连接反应进行测序,即以不同荧光标记的dNTP进行多次连接反应,而非聚合反应。与454测序技术类似,SOLiD测序技术采用的也是乳液PCR对待测DNA片段进行扩增。在乳液PCR扩增结束后,模板变性,然后将带有模板的磁珠富集。磁珠上的模板经过3’末端修饰后,可以共价结合在特定玻片上。每张特定的玻片可以容纳更多和高密度的磁珠是SOLiD系统最大的特点,因此SOLiD技术可以实现更高的通量。SOLiD测序反应就在SOLiD玻片表面进行。每个磁珠经测序后得到一条序列。IonTorrent测序技术:使用半导体技术将生化反应与电流强度直接联系。在聚合酶反应时,每聚合一个碱基会释放出相应的质子,引起周围环境PH的变化,将PH变化转化为电流的变化,最终记录电流信号,获得测序序列。读长约200bp,根据芯片不同可以一次产生10M-20G的数据。不同于第二代测序依赖于DNA模板与固体表面相结合然后边合成边测序,第三代分子测序,不需要进行PCR扩增。早在2008年,HelicoBioScience公司的Harris等在Science上报道了他们开发的TIRM(totalinternalreflectionmicroscopy)测序技术。BioScienceCorporation的HeliScope单分子测序仪(HeliScopeSingleMolecularSequencer);PacificBiosciences公司的单分子实时DNA测序技术[SingleMoleculeRealime(SMRT)DNAsequencingtechnology];OxfordNanoporeTechnologiesLtd公司的纳米孔单分子测序技术。技术优点:速度快,测序速度是化学法测序的2万倍;读长长,三代测序一个读长可测几千个碱基(二代测序可以测到上百个碱基);直接测RNA的序列;直接测甲基化的DNA序列。目前该技术主要缺陷是测序错误率高且标记核苷酸的成本高。第三代测序:单分子测序Single(RL)Pairend(PE)Matepair(MP)NGSLibraryTypeNGS数据格式1)fasta格式2)fastq格式:Illumina以及NCBI等常用网站的数据格式是FASTQ,包含序列信息和测序质量打分信息。4)把序列拼接到参考序列上产生的数据格式为SAM格式或者BAM格式。下图为SAM格式的数据:3)SOLiD平台的数据一般分为两个独立的文件:一个为CSFASTA文件一个为QUAL文件。其中QUAL文件包含质量评估信息。CSFASTA不同于FASTA的地方在于,序列的碱基位于不同的颜色区间,而且用0-3这几个数字表示两个相连的碱基。NGS应用范围基因组测序平台选择:1)ExperimentPurpose(re-sequencing/denovo)2)GenomeSize3)GenomecomplexityNGS测序流程及数据分析NGS测序平台:NGS测序文库:PE、MPNGS特点:高通量:(600Gb/run)读长短:(35~1000bp/reads)成本低:(0.01$/Mb)NGS数据格式:fasta、fastqNGS应用范围:genome、chromatin、transcriptome高通量测序/第二代测序(Nextgenerationsequencing,NGS)高通量测序数据分析流程Genomeassembly基因组组装就是利用高覆盖度的reads之间的交叠关系,重新构建待测基因组序列的过程。123Importantconceptinassembly•contigContiguoussequenceofDNAcreatedbyassemblingoverlappingsequencedfragmentsofachromosome(whethernaturalorartificial,asinBACs)•ScaffoldAseriesofcontigsthatareintherightorderbutarenotnecessarilyconnectedinonecontinuousstretchofsequenceGenomeAssembly基于贪婪策略的启发式算法(greadyheuristics)给定初始contig(reads),按照给定的标准,基于reads之间交叠关系,逐碱基扩展,达到延长contig的目的常用的标准有:选择具有最长的交叠、选择具有共性最高的碱基等给定的标准需要在长度和准确度之间寻求平衡:标准contig长度准确度标准contig长度准确度该方法比较直观,相对简单初始read在候选扩展相差不大时,贪心方法导致拼接中断需要大量内存存储计算需要的数据,不能有效处理大数据量的计算。不能处理基因组中的重复序列贪婪算法的局限:software:SSAKE,SHARCG,VCAKE,PE-Assembler,etcOverlap-Layout-Consensus(OLC)算法交叠-排列-共有序列OLC算法的基本思想是基于多序列比对获得共有(一致)序列,主要由3步来完成:a.Overlap阶段:所有序列(reads)两两比对(all-versus-allcomparison),搜索序列间的交叠部分,生成的交叠信息用于构建交叠图;b.Layout阶段:OLC拼接的核心步骤。将所有Reads进行排列,确定它们之间的相对位置,将每个序列片段作为节点构建交叠图,通过对交叠图分析,寻找对应于待测基因组片段的路径集合,即寻找形成的contig;c.Consensus阶段:将包含在contig上的Reads进行多序列比对,构建共有序列,即最终的congtig。software:ARACHNE,PHRAP,CAP,TIGR,CELERAetc基于deBruijn图的算法(简称DBG算法)1.在短序列拼接时,deBruijn算法得到广泛应用2.该拼接技术和OLC算法有很多相似性,主要区别在于构建算法图的策略不同3.主要步骤为:a.将序列分解为多个长度为K的子序列(k-mer);b.通过k-mer构建deBruijn图;c.寻找欧拉路径。•每一个k-mer作为图中一个节点,两个k-mer如果在同一read中相邻,则形成一个边。•长度为K的子序列都将转化为图中的一个节点。•拼接问题等价的转化为在deBruijn图中寻找经过每一个节点且仅一次的的路径(欧拉路径)。气泡结构K-mers使用固定K值,不能有效的处理重复序列覆盖区域AAGACTCCGACTGGGACTAGACTCCGACTGGGACTTGACTCCGACTGGGACTTTK=18K=3气泡结构的解决办法:使用迭代算法:1.先用小k值,保证较好的连通性2.再逐步增加k值,用于去除重复序列气泡结构software:SOAPdenovo、Velvet、ALLPATHS、ABySS、etc主要组装软件的比较Velvet进行基因组组装由欧洲生物信息中心(EMBL-EBI)开发,在Linux系统下运行的从头(denovo)基因组组装软件。主要用于拼接测序读长较短的序列,如Solexa和Solid测序序列。支持各种来源的测序数据,包括Hiseq的shortreads和454的longreads。能够处理多种格式的数据,如fasta、fastq、fasta.gz、fastq.gz、sam、bam。输出结果为简洁的contig,同时描绘覆盖结果的直方图、详细图等,借助第三方软件可以进行图形化展示。test@ubuntu:~$sudoapt-getinstallvelvet#软件安装#输入密码#安装成功test@ubuntu:~$velveth-h#测试是否安装成功#支持reads类型的数目#支持最大的k值#用法介绍#版本号Vleveth用法:vlevethoutput_directoryhash_length[[-file_format][-read_type]filename]1.Velveth进行数据格式化将用户指定的数据用给定的K-mer长度值格式化。2.Velvetg实现基因组组装对格式化的数据进行组装。velveth./velvet_output31./test1.fa./test2.fa#将test1.fa和test2.fa两个文件用长度为31的k-mer值进行格式化,结果放在velvet_output文件夹下output_directory:输出文件所在路径的名字(即创建一个文件夹存放结果文件)hash_length:也叫k-merlength,默认为31bp,值越大,内存需求越大filenam
本文标题:高通量测序技术及实用数据分析
链接地址:https://www.777doc.com/doc-1662315 .html