您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 生物信息学_高通量测序技术及数据分析_陈润生院士.
生物信息学陈小伟chenxiaowei@moon.ibp.ac.cn中国科学院生物物理研究所2015.09.30高通量测序技术及数据分析介绍高通量测序技术及数据分析介绍•背景介绍–第一代测序技术–第二代(高通量)测序技术•基因芯片与高通量测序的比较•高通量测序技术的应用–高通量测序数据分析概览–高通量测序数据质量评估与过滤–基因组测序–RNA-seq–ChIP-seq–UCSCGenomeBioinformatics背景介绍背景介绍•第一代测序技术–Sanger测序法•链终止法•双脱氧终止法•1975年Transcription弗雷德里克·桑格1918年8月13日-2013年11月19日1958年诺贝尔化学奖1980年诺贝尔化学奖背景介绍•第二代测序技术–边合成边测序•2005年左右•Sequencingbysynthesis–代表性测序技术•Illumina/Solexa•Roche/454•ABI/SOLiD•Polonator•HeliScope–参考文献•Metzker,M.L.(2010).Sequencingtechnologies-thenextgeneration.NatRevGenet11,31-46.背景介绍•高通量测序文库构建–单末端测序,single-end•首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flowcell上生成DNA簇,上机测序单端读取序列。–双末端测序,paired-end•在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。背景介绍•以Illumina为例简单介绍测序原理IlluminaHiSeq2500cBot背景介绍•高通量测序数据格式–fasta•序列文件的第一行是由大于符号()打头的任意文字说明,主要为标记序列用。从第二行开始是序列本身,标准核苷酸符号,通常核苷酸符号大小写均可–fastq•第一行由‘@’开始,后面跟着序列的描述信息,这点跟fasta格式是一样的;第二行是序列;第三行由‘+’开始,后面也可以跟着序列的描述信息;第四行是第二行序列的质量评价(qualityvalues),字符数跟第二行的序列是相等的。背景介绍•高通量测序数据格式–fastqQ=-10log10(p)ORQ=-10log10[p/(1-p)](p:碱基错误率)字符的ASCII值-64=质量值OR字符的ASCII值-33=质量值NCBI/SangerorIllumina1.8andlater.UsingaPhredscaleencodedusingASCII33to93.ThisisthestandardforfastqformatsexceptfortheearlyIlluminadataformats(thischangedwithversion1.8oftheIlluminaPipeline).IlluminaPipeline1.2andearlier.UsingaSolexa/Illuminascale(-5to40)usingASCII59to104.TheWorkbenchautomaticallyconvertsthesequalityscorestothePhredscaleonimportinordertoensureacommonscaleforanalysesacrossdatasetsfromdifferentplatforms(seedetailsontheconversionnexttothesamplebelow).IlluminaPipeline1.3and1.4.UsingaPhredscaleusingASCII64to104.IlluminaPipeline1.5to1.7.UsingaPhredscaleusingASCII64to104.Values0(@)and1(A)arenotusedanymore.Value2(B)hasspecialmeaningandisusedasatrimclipping.ThismeansthatwhenselectingIlluminaPipeline1.5andlater,thereadsaretrimmedwhenaBisencounteredintheinputfileiftheTrimreadsoptionischecked.363939393939393939393839393636343429312202019191938383836363636363630323535基因芯片与高通量测序的比较芯片与测序比较•基因芯片–约20年的历史,技术比较成熟,成本相对较低–原理•探针,互补配对的原则•靶序列用荧光标记•通过荧光强度间接反映靶序列的数量–应用•检测已知基因的表达水平•检测SNP位点的基因型•检测CNV芯片与测序比较•高通量测序–约10年的历史,发展快速,成本逐步减少–原理•边合成边测序•碱基用荧光基团标记•直接测定碱基序列–应用•全基因组测序•转录组测序(smallRNAseq,RNA-seq),可以检测已知基因的表达水平,可以发现全新的转录本•ChIP-seq•CLIP-seq,…芯片与测序比较•用高通量测序技术和基因芯片技术检测基因表达Malone,J.H.,andOliver,B.(2011).Microarrays,deepsequencingandthetruemeasureofthetranscriptome.BMCBiol9,34.高通量测序技术的应用测序应用•高通量测序数据分析概览测序应用QualityAssessmentRawDataFastQC;fastx_quality_statsRemoveadaptor/linkerfastx_trimmerfastx_clipperSplitaccordingtobarcodefastx_barcode_splitter.plfastx_trimmerQualityControlfastq_quality_trimmerfastq_quality_filterFurtherAnalysis•高通量测序数据质量评估与过滤–FastQC–FASTX-Toolkit测序应用•全基因组denovo测序–第一期:基因组调研图•整体测序深度不低于20倍覆盖度。进行初步的数据分析,对基因组大小,GC含量等做出初步评估,确定框架图梯度文库构建具体策略–第二期:基因组框架图•基因组覆盖度达到90%以上,基因区覆盖度达到95%以上,单碱基的错误率达到1万分之一以内,整体测序覆盖深度不低于60倍覆盖度。同时对框架图进行基本基因注释和功能注释,和简单的比较基因组学分析。–第三期:基因组精细图•基因组覆盖度达到95%以上,基因区覆盖度达到98%以上,单碱基的错误率达到10万分之一以内,整体基因组覆盖度不低于100倍,ScaffoldN50大小不低于300Kb,对基因组精细图进行详细基因注释,基因功能注释,基因代谢途径注释和比较基因组学分析。•全基因组denovo测序数据拼接组装算法流程DeBruijnGraph(德布鲁因图)Read:AGATACTk-merAGAGATATATACACTAGAGATATATACACT…测序应用•全基因组重测序(外显子组测序)算法流程–发现遗传变异(SNP,indel等)测序数据与参考基因组做比对重新校对测序质量打分每一种基因型的先验概率对基因型做推断计算每一种基因型的概率测序应用测序应用•转录组测序–SmallRNAseq•检测smallRNA(主要是miRNA)的表达水平•发现新的smallRNA–RNA-seq•Poly(A)–检测蛋白质编码基因的可变剪切体及表达水平•TotalRNA(exceptrRNA)–检测mRNA及longnoncodingRNA的表达水平–发现新的longnoncodingRNA•数据分析工具–Bowtie()–TopHat()–Cufflinks()测序应用•RNA-seq数据分析工具–Bowtie•Bowtieisanultrafast,memory-efficientshortreadalignergearedtowardquicklyaligninglargesetsofshortDNAsequences(reads)tolargegenomes.–TopHat•TopHatisafastsplicejunctionmapperforRNA-Seqreads.–Cufflinks•Cufflinksassemblestranscripts,estimatestheirabundances,andtestsfordifferentialexpressionandregulationinRNA-Seqsamples.ColeTrapnell:TopHat(2009),Cufflinks(2010)PhDStevenSalzberg,UniversityofMarylandLiorPachter,UniversityofCalifornia,BerkeleyPostdocJoinRinn’slab,TheBroadInstitute测序应用•OverviewofTopHat测序应用•SplicingJunctionsExonskippingorcassetteexonMutuallyexclusiveexonsAlternativedonorsiteAlternativeacceptorsiteIntronretention测序应用•TopHat:Discoveringsplicejunctions–TopHatv1.0.7earlier•seed-and-extendalignment–TopHatv1.0.7andlater•SupposeSisareadoflengthlthatcrossesasplicejunction•splitsSintonsegments,n=floor(l/k),(k=25bp)•mapsthesegmentss1,…,snwithBowtietothegenome•segmentssi,si+1thatbothaligntothegenome,butnotadjacently•asegmentsifailstoalignbecauseitcrossesasplicejunction,butsi-1andsi+1arealigned.测序应用•TopHat:Discoveringsplicejunctions–TopHatv1.0.7andlater•asegmentsifailstoalignbecauseitcrossesasplicejunction,butsi-1andsi+1arealigned.si-1Si+1si12345678910111213141516171819202122232425simbpk-mbpm=1,…,24m=12测序应用•OverviewofCufflinks测序应用•转录本拼接算法中涉及到的概念–偏序关系与偏序集合PartialorderandPartiallyorderedset–
本文标题:生物信息学_高通量测序技术及数据分析_陈润生院士.
链接地址:https://www.777doc.com/doc-2199568 .html