您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物信息学是数据导向的科学,大规模测序是其最重要的数据来源
测序中的数学问题李松岗北京大学2002/04/04生物信息学是数据导向的科学,大规模测序是其最重要的数据来源之一大规模测序与实验室测序的不同实验室测序:手工操作,效率低,结果是第一位的大规模测序:流水线操作,自动化追求稳定、高效、低成本两种测序策略:基于BAC的方法:先把基因组打碎成200-300kb的片段并制成BAC文库,再选择一些BAC进一步打碎成3kb左右的小片段,测序并拼接。全基因组鸟枪法:把基因组直接打碎成3kb左右的小片段,测序并拼接。基于BAC的方法全基因组DNA随机打成大片段选择并克隆大片段排序,选择再打碎,克隆,测序,拼接全基因组鸟枪法基因组DNA随机打碎测序并拼接近来测序技术的进展从基于BAC的策略转向全基因组鸟枪法毛细管自动测序仪的广泛使用全基因组鸟枪法测序的拼接困难:数据量极大大量重复序列造成拼接途径的不确定拼接软件的新需求能充分利用正反向测序的配对信息,避免重复序列造成的错误拼接能处理数以百万甚至千万计的数据程序并行化高效率比对能逐步拼接水稻基因组拼接步骤:采用数学模型识别重复序列把重复序列屏蔽掉后,根据是否具有重叠部分进行分组采用大型计算机并行拼接恢复重复序列,延伸contig构建scanfold识别重复序列的数学模型))(exp()()1()()1()()1(P0ki,1))((GkNLGLCGLGLCGLGLCYYkkNkNGLLGkkNkNkkNikik其它,个点的覆盖深度为第))(log()log()1())1(exp()())(exp()()()(111YENLNLGGNLNLYEGkNLGLCGYEYEkkNGiikk特别地,重复序列识别:若repeat有m个拷贝,且已知随机序列覆盖深度为0,1,2……的概率:g0,g1,g2,……,则一次抽样repeat覆盖深度为0,1,2,……的概率P0,P1,P2,……为:11010312021122303133102120212210111001jjmmmmmmmmmmmmmPPPPggCgggCCggCPggCggCPggCPgPn次抽样,其中i次以上深度在j以上的概率Pij设一次抽样深度在j以上和以下的概率分别为:Pj-,Pj+;111)1(22223111211injijinjiijnjjnjjnjjnjjnjjPPCPPPPCPPPPCPPPPn次抽样,其中i次以上深度在j以上则认为是repeat,此时犯两类错误的概率为:设repeat在基因组中的比例为b,出现概率为P,非repeat出现概率为P*,则:,*)1(1ijijijijPbPbPbPMDR(Mathematically-DefinedRepeat)vs.BDRs(Biologically-DefinedRepeats)BDR’(~25%)BDR(~50%?)MDR(42.2%)人与水稻基因组中重复序列分布的差别Contigs:127,550(N50=6,688bp)Scaffolds:102,444(N50=11,764bp)Quality:546bpatQ2093-11(indica)basicshotgundataest.genomesize[Mb]464numberofreads3,565,386Q20readlengths[bp]546shotguncoverage4.2exact20-merrepeatsfractionmasked,bysize42.2%fully-maskedreads18.7%sequenceassemblytotalcontigsize[Mb]359N50contigsize[Kb]6.69totalscaffoldsize[Mb]360N50scaffoldsize[Kb]11.76un-assembleddatafully-maskedreads[Mb]78ALLotherreads[Mb]26NumbersTestedCoverageSTS284592.4%UniGene2327992.1%cDNA90790.8%SequencegeneratedMethodologycDNAsMis-assembliesFly(D.melanogaster)120Mb13xwhole-genome18891.1%Thalecress(A.thaliana)115Mbclone-by-clone48040.2%Rice(O.sativa93-11)359Mb4.2xwhole-genome9071.1%进一步工作的设想新拼接程序步骤:•利用覆盖深度模型纠正测序错误•采用严格比对快速确定所有可能的重叠•利用图论或线性代数方法完成拼接纠正测序错误对6X左右鸟枪法测序数据,统计所有20碱基长小片段出现次数;对每一个read,顺序标出它的小片段出现次数;若有连续一串1出现,则可能有测序错误存在,应进行纠正。消除测序错误的好处:可区分部分重复序列;可采用严格比对的方法,提高计算速度;有利于简化拼接算法;有利于后期数据分析,例如SNP识别等。
本文标题:生物信息学是数据导向的科学,大规模测序是其最重要的数据来源
链接地址:https://www.777doc.com/doc-292652 .html