您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 第四章、系统树的构建
第四章、系统树的构建第一节、系统树的基本知识1.构建系统树的数据来源:表型数据(phenetic)和遗传(cladistic)数据表型性关系定义为根据物体一组表型性状所获得的相似性。——表型分枝图(phenogram)遗传性关系含有祖先的信息,因而可用于研究进化的途径。——进化分枝图(cladogram)表型分枝图和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。Nei(1987)指出的,如果表型相似性的尺度意味着进化上的相似性的程度,则有关表型的方法就可以提供遗传上的关系树。Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Phylogramsshowbranchorderandbranchlengths进化树,有分支和支长信息进化分支图,进化树Cladogramsshowbranchingorder-branchlengthsaremeaningless进化分支图,只用分支信息,无支长信息。2.系统树的表示方法节点根核酸替代率进化枝自展支持率•节点(node):表示一个分类单元(taxonomicunit),它可以是一个已存在的物种,也可以是一个祖先。•进化枝(clade):由两种或两种以上生物或DNA序列以及其祖先及所有后代组成的树枝。•根(root):所有分类的共同祖先。•操作分类学单位(operationaltaxonomicunit,OTU):指所要研究样品分类水平。•进化分支长度(branchlength):用数据表示的进化枝的变化程度。3.系统树的类型有根树和无根树有根树:有一个叫根的特殊节点,用来表示共同的祖先,由该点通过唯一路径产生其他节点,反映了树上物种或基因的时间顺序。无根树:只是指明了种属的相互关系,没有确认共同祖先或进化途径。即反映分类单元之间的距离而不涉及谁是谁的祖先问题。Rootedbyoutgrouparchaeaarchaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotebacteriaoutgrouprooteukaryoteeukaryoteeukaryoteeukaryote无根树archaeaarchaeaarchaeaMonophyleticgroup(单源群)Monophyleticgroup有根树外类群4.外类群的选取要区分不同的进化路径,在进化树分析过程中必须加入一个或多个已知与分析序列关系较远的序列作为外类群(OTUgroup)。外类群可以辅助定位树根,外类群序列与其他序列间的差异必须比其他序列之间的差异更显著,外类群的选择对进化分析的结果影响较大。5.建树方法的选择建树方法基于距离的方法基于离散特征的方法邻接法NJ非加权分组平均法UPGMA最大简约法MP最大似然法ML距离的方法:利用所有物种或分类单元间的进化距离,依据一定的原则及算法构建系统发育树。基本思路是列出所有可能的序列对,计算序列之间的遗传距离,选出相似程度比较大或非常相关的序列对。离散特征的方法:利用具有离散特征状态的数据,如DNA序列中的特定位点的核苷酸;建树时,着重分析分类单元或序列间每个特征(如核苷酸位点)的进化关系等。一种简单的距离矩阵(1)非加权分组平均法UPGMA最简单的距离算法,这一方法最初在数值分类学中用于反映类群的表征相似程度,当用来重建分子系统发育树时,其假定的前提条件是:在进化过程中,每一世系发生趋异的次数相同,及核苷酸或氨基酸的替换速率是均等且恒定的。通过UPGMA法所产生的系统发育树可以说是物种树的简单体现,在每一次趋异发生后,从共祖节点到2个OTU间分支长度一样。•UPGMA法在聚类时,首先将距离最小的2个OTU聚在一起,并形成一个新的OTU,其分支点位于2个OTU间距离的1/2处;然后计算新的OTU与其他OTU间的平均距离,再找出其中最小的2个OTU进行聚类;如此反复,直到所有的OTU都聚到一起,最终得到一个完整的系统发育树。UPGMA法d=e=10/2=5c=19/2=9.5g=c-d=9.5-5=4.5a=b=22/2=11AB(CDE)A-2239.5B--41.5(CDE)---(AB)(CDE)(AB)-40.5(CDE)--f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75(2)邻接法Neighbor-joiningmethod,NJ:基于最小进化原理,被认为是最小进化法ME的简化版。在重建系统发育树时,它取消了UPGMA法所作的假定,认为在进化分支上发生趋异的次数可以不同。现在表明它是最有效的基于距离数据重建系统发育树的方法之一。NJ得到的系统发育树,2个聚在一起的OTU所在的终节点到共祖节点的距离并不一定相同。•NJ法跟踪的是树上的节点,而不是OTU。在聚类过程中,根据原始距离矩阵,基于其他所有节点间的平均趋异程度而对每对节点间的距离作了调整,将每个OTU的趋异程度标准化,从而形成一个新的距离矩阵。重建时将距离最小的2个终节点连接起来,在树中增加一个共祖节点,同时去除原初的2个终节点及其分支,对整个树进行了修剪,随后,新增加的共祖节点被视为终节点,重复上一次循环。(3)最大简约法MaximumParsimonymethod,MP:最早源于形态性状研究,现在已经推广到分子序列的进化分析中。其理论基础是奥卡姆哲学原则,认为解释一个过程的最好理论是所需假设数目最少的那一个。MP法对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。•MP法利用对简约分析能提供信息的特征。如在DNA序列数据中,利用的只是存在核苷酸序列差异的位点,这些位点被称为简约信息位点。利用MP法重建系统发育树。实际上是一个对给定OTU,其所有可能的树进行比较的过程。对某一个可能的树。首先对每个位点祖先序列的核苷酸组成做出判断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度。通过比较所有可能的树,选择其中长度最小的树作为最终的系统发育树,即最大简约树(4)最大似然法MaximumLikelihoodmethod,ML:最早应用于基因频率数据的分析,后来引入到了分子序列的分析中。ML法分析中,选取一个特定的替换模型来分析给定的一组序列数据,使获得的每一个拓扑结构的似然率都为最大值,然后在挑出其中似然率最大的拓扑结构作为最优树。在ML法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长。•利用ML法来推断一组序列的系统发育树,需首先确定序列进化的模型,目前使用较多的是一些相对较简单的模型,如Jukes-Cantor模型、Kimura二参数模型及一般二参数模型。这些模型都是建立在一定假设基础上;然后基于一定的模型考虑2个OTU序列间的关系,找到枝的长度。这个过程需要寻找在某一进化距离上由第一种序列真正转换成第二种序列的可能性,并确定在最大可能下的进化距离;接着将多个OTU所构成的所有可能树作为最佳树,对重建每棵树的统计量进行似然估计;最后通过对树长度的优化,从而获得最佳树各参数的最大似然估计。(5)贝叶斯推断Bayesian法:英国学者T.贝叶斯1763年在《论有关机遇问题的求解》中提出一种归纳推理的理论,后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。但在发展过程中始终存在着与经典统计之间的争论。WhichMethodsmuchbetter?6.建树方法比较A)UPGMA法假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确,现在已经很少使用。B)NJ法是一个经常被使用的算法,它构建的进化树相对准确,而且计算快捷。其缺点是序列上的所有位点都被同等对待,而且所分析序列的进化距离不能太大,在处理相似度较高、亲缘关系较近的序列时,NJ算法是最可靠的。C)MP法的速度上比距离法更快,但不适合处理大量的和变异比较明显的序列。它有个弱点,用这种算法计算得到的树往往不是唯一的,还需要进一步筛选。而且,在遇到趋同进化或进化速率不同的时候,这种方法的结果往往不理想。D)ML法在MP法的基础上计算每个位点转移概率的大小,同时通过调节各个分支的长度和位点来描述最可能的谱系关系。在树的拓扑结构方面,ML法可能是最好的算法。但是ML算法的计算量显然大大增加了。所以在处理大量序列的时候,此种方法计算极其耗时!•一般来讲,如果模型合适,ML的效果较好。对近缘序列,有人喜欢MP,因为用的假设最少。MP一般不用在远缘序列上,这时一般用NJ或ML。对相似度很低的序列,NJ往往出现Long-branchattraction(LBA,长枝吸引现象),有时严重干扰进化树的构建。贝叶斯的方法则太慢。对于各种方法构建分子进化树的准确性,一篇综述(ComparisonoftheAccuraciesofSeveralPhylogeneticMethodsUsingProteinandDNASequences,HallBG.MolBiolEvol2005,22(3):792-802)认为贝叶斯的方法最好,其次是ML,然后是MP。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。•对于NJ和ML,是需要选择模型的。对于各种模型之间的理论上的区别,这里不作深入的探讨,可以参看Nei的书。对于蛋白质序列以及DNA序列,两者模型的选择是不同的。一般来说,对于蛋白质的序列,一般选择PoissonCorrection(泊松修正)这一模型。而对于核酸序列,一般选择Kimura2-parameter(Kimura-2参数)模型。如果对各种模型的理解并不深入,并不推荐初学者使用其他复杂的模型。•Bootstrap几乎是一个必须的选项。一般Bootstrap的值70,则认为构建的进化树较为可靠。如果Bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。•对于进化树的构建,如果对理论的了解并不深入,推荐使用缺省的参数。需要选择模型的时候(例如用NJ或者ML建树),对于蛋白序列使用PoissonCorrection模型,对于核酸序列使用Kimura-2参数模型。另外需要做Bootstrap检验,当Bootstrap值过低时,所构建的进化树其拓扑结构可能存在问题。并且,一般推荐用两种不同的方法构建进化树,如果所得到的进化树类似,则结果较为可靠。7.重建系统发育树的基本流程(1)选择合适的序列进行多序列比对所有系统发育学分析的一个基本假设,就是所比较的基因必须是种间同源基因。因此,应首先确认要比较的基因可归于同一类。输入序列的比对是进化树分析的基础,比对的错误可能使最精心设计的算法失效。多序列比对最常使用的是Clustal程序,包括ClustalX和ClustalW。使用Clustal程序比对后,有时还要根据序列特点进行手工比对,最后将比对结果转换为特定格式输出。(2)选择合适方法构建进化树根据多序列比对分析的结果,判断序列之间的相似程度(即序列一致性的高低),再选择合适的方法。如序列一致性非常高,首先选用MP法,该法计算速度快。如有可分辨的相似性,选择NJ法。相似最差的利用MJ法和贝叶斯法(3)进化树评估对进化树进行评估主要采用自展分析(Bootstrap)法,这是对进化树重新取样的评估方法,可以对距离法、简约法、似然法以及衍生出的任何其他方法构建的进化树进行评估。其分析结果是一组数字。这组数字描述了进化树进化分支的支持比例,也就是进化树分支的稳健性。进化树的构建是一个统计学问题,所构建出来的进化树只是对真
本文标题:第四章、系统树的构建
链接地址:https://www.777doc.com/doc-6318543 .html