您好,欢迎访问三七文档
分子进化和系统发育Darwin,Charles(1809-1882)《TheOriginofSpecies》(1859)共同祖先•化石证据——最理想的方法经典的进化研究方法然而…零散、不完整•形态学证据——确定大致的进化框架经典的进化研究方法分子进化研究分子进化理论由莱纳斯.鲍林(LinusPauling)于1964年提出。该理论基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息。ACTCGACTT…ACTCGGCTT…ACTTGGCTT…GCTTGGCTT…GCTTGTCTT…GATTGTCTC…CATTGTCAC…CACTATCAC…CACTATGAC…系统发育分析:研究物种进化和系统分类的一种方法,常用一种类似树状分支的图形来概括各物种/类群生物之间的亲缘关系,这种树状分支的图形称为系统发育树。系统发育(phylogeny)相关概念TreeofLife:重建所有生物的进化历史并以系统树的形式加以描述。分子进化研究——系统进化树16SrDNA分子进化研究——物种分类分子进化研究——人类起源(OutofAfrica)线粒体基因组(16,587bp)人类迁移的路线当前人类线粒体基因组最大的差异存在于非洲和非非洲人之间。分子钟理论•在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。•两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系。从一个分歧数据可以推测其他序列分歧度分歧时间xy分子钟理论系统发育分析的基本步骤序列有指定的来源并且正确无误。序列是同源的,即所有的序列都起源于同一祖先序列(ortholog)。样本序列之间的差异包含了足以解决感兴趣的问题的信息位点。样本序列随机进化。序列中的每一个位点的进化都是独立的。选择生物学数据时的注意事项Ortholog(直系同源基因):两个基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。Paralog(旁系同源基因):两个基因在同一物种中,通过至少一次基因复制(重复)的事件而产生,常常具有不同的功能。paralogsorthologs直系同源基因vs.旁系同源基因祖先节点/树根内部节点/分歧点,该分支可能的祖先结点分支/世系末端节点ABCDE代表最终分类,可以是物种,群体,或者蛋白质、DNA、RNA分子等系统发育树的基本特征通过外类群来确定树根根bacteriaoutgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea有根树外类群无根树,有根树,外类群通过外类群来确定树根有根树外类群通过外类群来确定树根有根树外类群通过外类群来确定树根有根树eukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea无根树树根确定——最常用的确定树根的方法是使用一个或多个无可争议的同源物种作为外群(outgroup),这个外群要足够近,以提供足够的信息,但又不能太近以至于和树中的种类相混。外群(outgroup)abcabc不同数目的分类群可能的有根树和无根树考虑3个分类群时,共有3种可能的有根树,1种无根树acbcbaabcdabcdabcdadbcbacdcabddabcacbdbcadcbaddbacadbcbaaccdabdcab考虑4个分类群时,共有15种可能的有根树abcdacbdadbc考虑4个分类群时,共有3种可能的无根树无根树和有根树:潜在的拓扑结构数目无根树有根树分类群数树分枝/树树分枝/树31334435156515710586105994510102,027,0251734,459,42518308.691036574.95103858N(2N-5)!2N-3(N-3)!2N-3(2N-3)!2N-2(N-2)!2N-2真实树(truetree)——物种分化事件的顺序在历史上是唯一的,所以在用给定物种建立的所有可能的树中只有一种能代表真实的进化历史,这样一种系统树称为真实树。推测树(inferredtree)——用某一组数据和某种构树法得到的树称推测树,推测树可能与真实树等同也可能与真实树不同。分类数目增大,计算量急剧增加,因此,目前算法都为优化算法,不能保证最优解DNA序列的替换模型祖先基因XYt2t时间X’Y’AAGACTTTGGACTTAAGGCCTAGGGCATTAGCCCTAGCACTTAAGGCCTTGGACTTTAGCCCATAGACTTAGCACAAAGGGCATAGGGCATTAGCCCTAGCACTTAAGACTTTGGACTTAAGGCCTAGGGCATTAGCCCTAGCACTTAAGGCCTTGGACTTAGCGCTTAGCACAATAGACTTTAGCCCAAGGGCATDNA序列进化演变321当前百万年DNA序列间的差异•DNA序列间核苷酸的差异越少,分化时间越短;•同一祖先序列衍生的两条后裔序列间分化的简单测度就是两条后裔序列不同核苷酸位点的比例。对于两条长度为N的序列,差异位点数为n,则两条DNA序列的替换率P(也可以称两条序列之间的距离或差异):DNA序列的替换率估计P=n/N14个碱基长度,其中有3个位点发生了改变,那么这两条序列的替换率(距离)P=3/14DNA序列的替换率估计大多数替换估计会显著低估真正替换的数目。如在序列的同一个位点可能发生不止一次的变化。如在第7个位置观测到G,而在另一条序列为A,有多种可能GAGCA…DNA序列替换模式必须准确和无偏见地估计替换率;数学模型可以考虑回复和平行突变等情况,尤其是在P值较大时。DNA序列的替换模型替换模型的必要性:Jukes-Cantor单参数模型最简单的DNA序列进化模型:假设每个核苷酸有同样的机会突变为任一其它核苷酸,突变几率为;那么每一个核苷酸总的替换几率为3。ATCGK=真正的替换率P=观测到的替换率可以概括出大部分突变的发生情况…Jukes-Cantor单参数模型修正替换率为:K=(-)ln(1–*0.21)=0.253443如观测到的替换率7/14=0.5,那么单参数模型修正后的替换率更为可信:K=(-)ln(1–*0.5)=0.823443Jukes-Cantor单参数模型观测到的替换率3/14=0.21Kimura双参数模型转换:嘌呤嘌呤;嘧啶嘧啶颠换:嘌呤嘧啶;嘧啶嘌呤两类核苷酸:嘌呤(A,G);嘧啶:(C,T和U)同类型核苷酸间相互替换和不同类型核苷间互替换的几率不同。这促使了Kiumra两参数模型的产生。转换发生的几率是颠换的三倍。Kimura双参数模型ATCG转换发生的几率是α颠换发生的几率是βK=真正的替换率P=观测到的转换率Q=观测到的颠换率Kimura双参数模型修正替换率为:K=ln()+12101-2*0.07-0.14观测到的替换率3/14=0.21观测到的转换率1/14=0.07观测到的颠换率2/14=0.12Kimura双参数模型14101-2*0.14ln()=0.164+0.082=0.246K=(-)ln(1–*0.21)=0.2463443单参数模型修正:单参数和双参数模型的比较序列分化(序列差异)较小时,两个模型的结果基本相同;序列分化(序列差异)较大时,双参数模型更为准确,特别是转换率明显高于颠换率。氨基酸序列的替换模型氨基酸序列的进化演变•氨基酸序列较核苷酸序列更为保守,对年代跨度大的进化分析大多采用氨基酸序列数据;•对于编码蛋白质的基因序列对齐排列时可能需要借助氨基酸序列的校正;•氨基酸置换模型比核苷酸置换模型简单。为什么研究氨基酸?氨基酸序列替换率估计两条氨基酸序列的替换率(P距离)为:两条序列间差异氨基酸的数目(n)占氨基酸序列长度(N)的比例:P距离P=n/N进化时间越长,P值越大氨基酸序列替换率估计不同物种间血红蛋白α链氨基酸差异数及比例不同物种血红蛋白α链氨基酸序列的对齐(140个aa的前60个)进化时间氨基酸序列替换率期望值(实际值)观测值P不是很严格地与时间成比例进化时间较短时,回复突变较少,两者大致成线性关系;当进化时间较大时,回复突变增多,二者成非线性关系。泊松校正(PoissonCorrection)泊松校正d=-ln(1-p),即泊松距离。TIYAPPPWSTIYTPPPWSTIYGPPPWSTIYAPPPWS例如该位点的丙氨酸虽然发生了3次变化,但我们并没有观察到这些变化由于氨基酸存在回复突变,大多数替换估计会显著低估真正替换率。泊松校正0.1290.1290.2060.5730.6660.1290.2320.6370.6520.1970.5980.6240.5730.7070.753泊松校正距离P距离P-距离与泊松距离比较进化时间氨基酸序列替换率期望值(实际值)P距离(观测值)泊松距离1.最大简约法(maximumparsimony,MP)–适用序列有很高相似性2.距离法(distance)–适用序列有较高相似性3.最大似然法(maximumlikelihood,ML)–可用于任何相关序列集合计算速度:–距离法最大简约法最大似然法系统发育树重建基本方法1.最大简约法根据信息位点提供的各序列间的替换情况,在所有可能的树中筛选含最小替换数树的方法。理论基础为奥卡姆剃刀(Ockham)原则:计算所需替换数最小的那个拓扑结构,作为最优树。在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。优点:不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树。最大简约法(MaximumParsimonyMethod)以下3个序列:1.ACG2.ACA3.GGA它们如何从一个共同祖先(GGG)进化而来?ACGACAGGAGGGACGACGACAGGAGGGGGGACGACAGGAGGGGGA121312212最大简约法基本原则:计算一个有最小化突变事件的进化路径,作为最优树。简约信息位点:位点上至少有两种不同的核苷酸或氨基酸,且每种至少出现两次。不变位点:在所有分类群中相同核苷酸或氨基酸的位点。不变位点不提供任何信息。信息位点(informativesite)哪一个树是正确的?信息位点Tree1突变位点4Tree2突变位点5Tree3突变位点6用最大简约法构树,选择最小变化的拓扑树Tree1突变位点4MPtree最优结果为Tree1Tree2突变位点5Tree3突变位点6根据最大简约法构建的最优树2.距离法又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。再依据进化距离,分别依次将序列合并聚类,构建进化树。一种简单的距离矩阵距离数据(distancedata):涉及成对基因、个体、群体或物种信息,常用距离矩阵描述,表示两个数据集之间的关系。构树方法:UPGMA非加权分组平均法(UPGMA,UnweightedPairGroupMethodwithArithmeticmean)最近分类群分类群聚类计算平均距离构树方法:UPGMA新的距离矩阵计算:如分类单元i和j,所形成的新的聚类群(ij),新聚类群到其他分类单元k的距离计算如下:其中ni,nj,(ni+nj)分别为分类单元i、j和(ij)类的元素个数。ABCDEB2C44D666E6664F888881)通过两两比较,获得一个距离矩阵构树方法:UPGMAABECDF2)找到距离矩阵中最小的距离,在这个例子中最小距离是A和BABCDEB2C44D666E6664F88888构树方法:UPGMA将A与B相连并给每一个分支赋予一半的距离。构树方法:UPGMAABECDF
本文标题:分子进化和系统发育
链接地址:https://www.777doc.com/doc-4737402 .html