您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 系统发育树构建方法的研究进展
系统发育树构建方法的研究进展科目:生物信息学院:物联网工程学院专业:计算机科学与技术班级:学号:姓名:2011年12月22日系统发育树构建方法的研究进展摘要:系统发育树的构建与分析是生物信息学中的一个重要分支。研究系统发育树可以重建祖先序列和估计分歧时间。对系统发育树及构建系统发育树的方法进行概述,并对基于这些方法的软件进行简要介绍,最后对系统发育树构建技术中的难点问题进行分析。1引言:系统发育树也称系统进化树(phylogenetictree),它是用类似树状分支的图来表示各种(类)生物之间的亲缘关系,通过对生物序列的研究来推测物种的进化历史。主要是通过DNA序列,蛋白质序列,蛋白质结构等来构建系统发育树,或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。研究系统发育树的目的可以重建祖先序列P性状;估计来自于同一个祖先的不同生物之间的分歧时间;识别和疾病关联的突变等近些年随着基因数据的爆炸增长,系统发育树的构建越来越流行。基于分子的进化研究已经应用到许多方面,如基因进化,物群划分,交配系统,父亲身份测试,环境监视以及已经转移物种的疾病源的研究等。从数学的观点看,系统发育树是一颗树叶有标签的有根二叉树,根表示祖先序列。系统发育树主要是它的拓扑结构和分支长度。分支长度表示突变的时间。系统发育树的叶子在生物上称作操作分类单元OTU(operationaltaxonomicunits),OTU代表构建的系谱的不同生物。构建系统发育树所用的数据用矩阵XN×K表示N表示氨基酸或核苷酸的序列数,即有N个叶子的树。K表示序列的字符数(列数)。系统发育树具有以下性质:(1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元;(2)如果找不到可以作为树根的单元,则系统发育树是无根树;(3)从根节点出发,到任何一个节点的路径均指明进化时间或者进化距离。构建系统发育树就是从生物物种的序列信息推断生物进化历史,“重塑”出系统进化的(谱系)关系,并把进化关系用系统发育树的形式表示出来——-树的叶子结点表示各个生物序列,树枝的长度表示生物间的进化距离。构建系统发育树的研究是生物信息学中的一个热点,通过蛋白质的系统发育树分析,为从分子水平研究物种进化提供了新的手段,可以比较精确的确定某物种的进化地位。对于物种分类问题,蛋白质的系统发育树亦可作为一个重要的依据。根据系统发育树不仅可以研究从单细胞有机体到多细胞有机体的生物进化过程,而且可以粗略估计现存各类种属生物的进化时间。例如在非典时期,对各种SARS病毒的研究。通过构建系统发育树,能确定各种病毒之间的关系,得出毒到底是由人类传染给动物,还是由动物传染给人类的。又如不少科学家就利用系统发育树对世界上鱼的种群进行研究:Durand等【nl基于Cytb序列,构建了中东地区的62种鲤科鱼类的分子系统发育树。系统发育树显示[12-13】,鲤亚科鱼类具有高度分化的3支谱系,一支与欧洲地中海地区的残留种群共享,一支与非洲共享,还有一支与亚洲共享。因此,他们认为中东地区更可能是淡水鱼类区系的一个重要的交换地带,而不是一个物种形成中心。这对人类了解不同鱼类的生活习性大有好处,所以研究高效准确地构建系统发育树算法有实际的应用价值。从现代生存物种的大分子中获得的进化历史信息是不完全的,因此。所推断出来的系统发育树有一定程度的不确定性和假设性。从同一组数据常常推断出干不同的系统发育树,因而如何通过可靠的算法,从一系列可能的系统发育树中选择“最合适的”或“最可信的”树就是一个十分有意义的问题。另外,构建系统发育树还在以下几个领域有重要意义(1)理解生物物种的进化历史;(2)为疫苗绘制病原体多样性图谱;(3)为流行病学(主要包括传染病和遗传缺陷)的研究提供帮助;(4)为新颖基因的功能预测提供帮助;(5)生物多样性研究;微生物生态学的理解。2构建系统发育树构建的研究历史和现状系统发育分析一般是建立在分子钟(molecularclock)基础上的。生物随着时间的推进而演化,进化的速率被视为进化研究中的基本问题之一。进化速率就是在某一段时间内的遗传改变量。分子进化速率相关的分子钟的概念源于对蛋白质序列的研究。在长期的进化过程中,有着相似功能约束的位点的分子进化速率则几乎完全一致。20世纪60年代最早由EmileZuckerkandl和LinusPauling所做的蛋白质序列的比较研究表明,蛋白质同系物的替换率就算过了千百万年也能保持恒定,因此他们将氨基酸的变异积累比做分子钟。Kimura进一步提出了具体的分子进化观点:对于各物种的每个蛋白质,如果用每个位点每年发育的氨基酸替换次数作为衡量分子进化的速率,则该速率是大致恒定的;功能上次要的分子(或者分子部分)的进化速率比功能重要的分子(或者分子部分)进化速率快:对现有分子结构或者功能破坏小的氨基酸替换比破坏力大的氨基酸替换发育得更加频繁。目前,基于DNA和RNA序列构建系统发育树主要使用的是RibosomalRNA16S序列组,因为这些序列存在于大部分的生物体内,而且能被比较完整的保留下来。可是仅仅靠基因序列所包含的信息还是无法判断同一代物种问的类别关系,甚至错误的比较和物种间不同的进化率还可能导致得到的系统发育树是错误的。而代谢网络是所有生物所拥有的复杂的物理和化学过程,包含物种大量的重要信息。这方面的研究成果也很多,主要有:1999年,Font和Schultentl2J提出了基于代谢网络中结合酶序列和潜在网络的信息来衡量不同物种的相似性,可惜没有给出计算距离的公式。2000年,Tohsato等人【3剐又提出了比较基因组和代谢网络的方法,该方法基于基因序列和酶反应的相似性判断。用酶的ECnumbers值来计算酶反应的相似性,并使用动态规划的算法比较不同的代谢网络。2002年,Liao等人f231提出了基于代谢网络比较不同物种的算法,该算法将生物中存在和不存在的代谢网络用布尔矢量来表示,使用一些常用的距离计算,通过聚类构建系统发育树,结果所表示的进化关系与基于16srRNA的系统发育分析有所不同。1983年,Sanfliu和Ful351将计算距离的方法划分为两类:一类是基于特征的距离计算方法,就是从每个图中提取一个特征集合,并用向量表示来计算距离。另一类是基于成本的距离计算方法,该方法考虑的是将一个图转化为另一个图所消耗的最小成本。转化的操作有“删除”和“插入”。1999年,Papadopoulos和Manolopoulos[3l】用基于特征的距离计算方法构建了一个特征向量,该方法通过计算顶点的入度和出度来衡量距离的,在实际应用中存在一些误差。1996年,Shasha等人139]用基于成本的距离计算方法构建了一个模型CUAL(ConnectedUndirectedAcyclicgraphswithLabellednodes),这个模型很好的解了误差问题,不过计算距离的算法却是NP问题,但可以通过具体问题简化模型来解决实际问题。·1998年,Bunke和Shearert习基于最大公共子图定义了图的距离距阵,该算法的主要问题是子图『一构是个NP问题。2002年,Melnik等人【24】提出了匹配两个图的最好的迭代算法,主要思想是依据当比较两个图的对应的顶点时,如果这两个顶点周围的顶点十分相似,那么这两个对应的顶点就是相似的。2002年,Jeh和Widom[17】也提出了顶点相似性的比较方法,不同的是他们所讨论的是一个图的任意两个顶点,而不是两个图的对应顶点。一2002年,Blondel和VanDoorenl31定义了有向图之间对应顶点的相似性的概念,提出了通过迭代方法计算任意顶点间的相似性。除了以上算法,研究人员还提出了大量应用于实际问题的构建系统发育树的解决方法。综上所述,构建系统发育树的方法是多种多样,应用广泛的。虽然,由于问题本身的复杂性导致算法的效率和准确度还不尽人意,但该领域的研究已经展现出广阔的发展空间和蓬勃的生机。3系统发育树的构建方法分子系统发生分析主要分成三个步骤:(1)分子序列或特征数据的分析;(2)统发生树的构造;(3)结果的检验。其中,第一步的作用是通过分析,产生距离或特征数据,为建立系统发生树提供依据。用于构建系统发生树的分子数据可以分成两类:一个是距离(distances)数据,常用距离矩阵描述,表示两个数据之间所有两两差异;另一个是特征(characters)数据,表示分子所具有的特征。根据所处理数据的类型,可以将系统发生树的构建方法大体上分为两大类。一类是基于距离的构建方法,利用所有物种或分类单元问的进化距离,依据一定的原则及算法构建系统发生树。基本思路是列出所有可能的序列对,计算序列之间的遗传距离,选出相似程度比较大或非常相关的序列对,利用遗传距离预测进化关系。这类方法有非加权分组平均法(unweightedpairgroupmethodwitharithmeticmeans)、邻近归并法(neighborjoiningmethod)、Fitch—Margoliash法、最小进化方法(minimumevolution)等。另一类方法是基于离散特征的构建方法,利用的是具有离散特征状态的数据,如DNA序列中的特定位点的核苷酸。建树时,着重分析分类单位或序列间每个特征(如核苷酸位点)的进化关系等。属于这一类的方法有最大简约法(maximumparsimonymethod)、最大似然法(maximumlikelihoodmethod)、进化简约法(evolutionaryparsimonymethod)、相容性方(compatibility)等。对于相似性和距离数据,在重建系统发生树时只能利用距离法。离散特征数据通过适当的方法可转换成距离数据,因此,对于这类数据在重建系统发生树时,既可以用距离法,亦可以采用离散特征法。构建树分析主要有二步:第一步用XN×K矩阵产生树T并用来估计未知的树T;第二步产生关于T的可信描述,通常采用Bootstrap方法。一般Bootstrap的值70,则认为构建的进化靠.如果Bootstrap的值太低,则说明有可能进化树的拓扑结构有错误,进化树是不可靠的。3.1基于距离的方法距离矩阵法(Distance2MatrixMethods)这类方法首先需要从DNA序列计算每对分类单元间的遗传距离。遗传距离的算法以Kimura[11]双参数法较为常用。得到距离矩阵后,按一定的规则,根据各距离值间的内在关系构建系统树。常用的方法是Saitou等[12]的邻接法(NeighborJoining)和Sneath等[13]的不加权对群分析法(UnweightedPairGroupwithMathematicalAverage)。距离法适合于分析各种方法获得的分子数据,如序列、RFLP、RAPD等。。相应的软件是PHYLIP,MEGA。3.2最大简约法(MaximumParsimonyMethod,MP)这种方法最早是基于形态特征分类的需要而发展起来的,因算法不同而有许本MP法利用的只是对简约分析能提供信息的特征。如在DNA序列数据中,利的是有序列差异(至少有2种不同类型的核苷酸序列)的核苷酸位点,这些位点称简约信息位点。利用MP法重建系统发育树,实际上是一个对给定OTU其所可能的树进行比较的过程。对某一个可能的树,首先对每个位点祖先序列的核苷酸组成作出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度。同比较所有可能树,选择其中长度最小的树作为最终的系统树,即最大简约树。在不同世系间进化速率相差较大但进化速率恒定,而树的内支很短的情况下,MP法不能对一个真正的系统发育树作出始终一致的判断。它获得一个正确树的效率通常要比最大似然法低。但在序列趋异程度较小(D0.1),核苷酸替换速率大致恒定,没有很高的转换与颠换比及很强的GC含量偏差,所分析的核苷酸数量较多的情况下,MP法能利用序列中碱基的插入和缺失信息。
本文标题:系统发育树构建方法的研究进展
链接地址:https://www.777doc.com/doc-5410543 .html