您好,欢迎访问三七文档
FujianAgricultureandForestryUniversity系统发育分析PhylogeneticAnalysis2016.05RAINDYOK@QQ.COM生物信息学课程要求会根据序列特征选择建树方法掌握常见建树方法的规范操作•NJ法(MEGA)•ML法(MEGA、RaxmlGUI)•BI法(Mrbayes)Part3.Howtoperformphylogeneticanalysis?Part1.Whatisphylogeneticanalysis?Part2.Whydoweperformphylogeneticanalysis?本章纲要01PARTONEWhatisphylogeneticanalysis?系统发育(Phylogeny),也叫系统发生,是指任何实体(基因、个体、种群、物种等)的起源和演化关系。将进化论的原理拓展到DNA水平和蛋白质序列水平,通过多重序列比对,研究一组相关的基因或蛋白质,推断和评估不同基因间的进化关系,其中包括分子进化(基因树)和物种进化(物种树)。系统发育的定义多重序列比对重建系统发育树(最大似然法)基因树与物种树的区别基因树是根据DNA或蛋白质序列数据构建的系统树;物种树是表达生物类群进化路径的系统树。两者存在差异:•来自两不同物种的两个基因的分化时间可能早于物种的分化;•基因树的拓扑结构可能与物种树不完全一致同源性是指从一些数据中推断出的两个基因或蛋白质序列具有共同祖先的结论,属于质的判断。同源性分析中常常要通过多重序列比对来找出序列之间的相互关系,常用的程序,如Clustal-Alignment等。相似性与同源性的区别相似性将待研究序列与已知DNA或蛋白质序列库进行比较,找出与此序列相似的已知序列,反映是一种直接的数量关系;常用的程序如BLAST、FASTA、DotPlot等。建树方法邻接法(Neighbor-Joining,NJ)最大似然法(MaximumLikelihood,ML)最大简约法(MaximumParsimony,MP)贝叶斯法(Bayesianinference,BI)特点:NJ法是基于最小进化原理经常被使用的一种算法,它构建的树相对准确,假设少,计算速度快,只得一颗树。缺点:序列上的所有位点等同对待,且所分析的序列的进化距离不能太大。适用:进化距离不大,信息位点少的短序列。邻接法(Neighbor-Joining,NJ)123原理:将每个位点所有可能出现的残基替换概率进行累加,产生特定位点的似然值,对所有可能的系统发育树都计算似然函数,似然函数值最大的那颗树即最可能的系统发育树。优点:在进化模型确定的情况下,ML法是与进化事实吻合最好的建树算法。缺点:计算强度非常大,极为耗时。最大似然法(MaximumLikehood,ML)特点:基于进化过程中碱基替代数目最少这一假说。缺点:推测的树不是唯一的,变异大的序列可能会导致建树错误。适用:序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。最大简约法(MaximumParsimony,MP)1234信息位点:在两个及以上分类单元(的序列)中存在差异,且其中至少有两种变异类型在该位点出现两次及以上。序列位点及性状Pos123456789Seq1AAGAGTGCAseq2AGCCGTGCGseq3AGATATCCAseq4AGAGATCCG点击这里查看信息位点.表示与Consensus(一致序列)中的碱基相同;注:请找出下面序列的信息位点特点:基于进化模型的统计推论法,具有完整而坚实的数学和统计学基础,可以处理复杂而接近实际情况的进化模型,可以将现有的系统发育知识整合或体现在先验概率中,通过后验概率直观反映出各分支的可靠性而不需要通过自举法检验。缺点:对进化模型比较敏感,BI法中指定的每个氨基酸的后验概率建立在许多假说条件下,在现实中可能不成立。适用:大或复杂的数据集。贝叶斯法(Bayesianinference,BI)02PARTTWOWhydoweperformphylogeneticanalysis?Findevolutionarytiesbetweenorganisms(Analyzechangesoccurringindifferentorganismsduringevolution)Find(understand)relationshipsbetweenanancestralsequenceanditdescendants(Evolutionoffamilyofsequences)EstimatetimeofdivergencebetweenagroupoforganismsthatshareacommonancestorAnotherfieldbuoyedbythegrowthingenomesequencingisphylogenetics,thestudyofevolutionaryrelationshipsbetweenspecies.Number20onthelistisapaper12thatintroducedthe“neighbor-joining”method,afast,efficientwayofplacingalargenumberoforganismsintoaphylogenetictreeaccordingtosomemeasureofevolutionarydistancebetweenthem,suchas…Neighbor-joiningtreeshowingexpansionsofABCtransportergenes03PARTTHREEHowtoperformphylogeneticanalysis?如何规范进行系统发育树的重建?避免犯一些常识性的错误严谨的科学方法严肃的科学结论(VirologyJournal,IF=2.09)maximumcladecredibilitytree(MCCtree)maximumlikelihoodtree(MLtree)PlantPathology(2015)Doi:10.1111/ppa.12314Fig2.UnrootedNeighbour-joiningphylogenetictreeoftheCPgeneofPVY遗传距离计算不适合NJ平均距离10平均距离1进化模型选择MP法建树/评估树的查看及美化合适NJ法NJ法建树/评估ML/BI法建树多序列比对饱和度检测饱和未饱和不适合建树适合建树规范流程*保守区选择,主要用于优化多重比对质量,仅适用于信息位点足够多的长序列。保守区选择*建树软件主要软件•PAUP(MP/ML)•PHYLIP(NJ/ML)•MrBayes(BI)•MEGA(ML/NJ/MP)•RaxmlGUI(ML)•PhyML(ML)多重比对系统树的可视化•TreeView•TreeGraph(JAVA)•FigTree(JAVA)•Clustalx/ClustalW•MAFTT•MUSCLE模型选择•Modeltest3.7•MrModeltest2.3•jModelTest辅助软件PAUP的DOS命令控制台PHYLIPDOS界面MrBayes主界面MEGA5主界面建树前提序列是否存在重排是否替换已经饱和检测•PAUP软件验证替换饱和:在PAUP中分别计算p距离和GTR+I+G距离,然后在Excel中做散点图。如果散点分别在y=x直线上,就说明没达到饱和;如果GTR+I+G距离p距离就说明饱和了。•DAMBE软件验证替换饱和:若ISS小于ISS.c且p=0.0000,极其显著?就说明序列替换未饱和,可以建树!12342341231建树步骤多重序列比对MAFFT/ClustalX/ClustalWClustalW(Codons)、Muscle(codons)1stClustalW/XMuscleMAFFT速度:MuscleMAFFTClustalWT-Coffee•Protein-codingsequence对象:•Non-codingsequenceClustalW(Codons)Muscle(Codons)准确性:MAFFTMuscleT-CoffeeClustalW多重序列比对的选择*PRANK:ProbabilisticAlignmentKit如何FASTA格式转为标准Nexus格式123将nucleotide改为dnaexportfile=yourname.nexformat=nexusinterleaved=no;45格式化为连续式的标准Nexus格式序列保守区的选择2ndRaindy注:保守区选择主要适用于信息位点足够多的序列,短序列此步可忽略保守区选择之在线Gblock篇Note:Whenappliedtoshorteralignments,GBLOCKSoftenhasanunwantedeffectontopologyandbootstrapvaluesoftheestimatedphylogenies-theexclusionofsomanycolumnsfromthefinalanalysisbytheprogramsimplyremovingtoomuchinformationfromtheanalysis.However,forlongeralignments,itcanbeshownthatithasapositiveeffect.在线版本:=gblocks231=gblocks4保守区选择之本地Gblock篇在实际分析过程中,由于服务器对序列文件的限制,大数据则无法进行在线操作分析,故只能选择使用本地版Gblock进行处理。下载链接:参数设置先行设置Block参数,输入参数设置前面的英文字母b,回车即可该参数主要是对于gap的处理,共有5条选项可供设置,其中第5条最为主要。对于Gap位置的处理有三个标准:None、Withhalf和All,即对应全部删除Gap、保留一半Gap和保留全部Gap,具体依据数据分析需要而选择。2.序列类型设置输入o,提示输入文件名称(含扩展名),如RNA2.fas,程序默认识别为蛋白质序列(Protein),需要根据实际情况修改需要类型此时需要根据实际情况修改,本例数据RNA.fas是基于密码子方式的比对,故序列类型应为Codon,在YourChoice后输入t将序列类型切换至Codon即可。3.获得保守区参数设置完毕,返回主菜单(m),输入g回车,程序会给出原始序列和裁切后的序列长度信息Gblock处理后在目录下,生成两个文件:一个是-gb(默认扩展名,可修改),另一个是htm的网页文件。为方便后续分析,可以直接将文件名中的-gb移至.fas前,此时扩展名发生变化,系统会提示,可直接“是”确定。得到的序列为fas序列文件,可以直接用MEGA打开,示例序列Gblock后长度为2466,为3的倍数(Codon比对)。核苷酸替换模型的选择MrMTGui:ModelTest、MrModelTest(PAUP)jModelTest氨基酸替换模型的选择ProtTest3rd进化模型的选择同时支持核苷酸和氨基酸替换模型ModelGeneratorMrModel、Modeltest需要结合PAUP才可以完成,可以生成Mrbayes模块;jModelTest为独立的Java程序,可以独立操作,但极耗系统资源;ModelGenerator支持核
本文标题:系统发育分析完整版
链接地址:https://www.777doc.com/doc-6084230 .html