您好,欢迎访问三七文档
(六)检验分子水平自然选择的方法在选择主义与中性主义的争论中,中性理论提出了很多的假设,其中的许多涉及到群体内等位基因频率分布,以及种内-种间遗传变异的关系。因此,可以利用统计学模型来验证中性学说的正确性,即把中性理论作为统计学检验的零假设(nullhypothesis),非中性选择作为选择性假设(alternativehypothesis),如果这个零假设被显著地拒绝(significantlyrejected),那么中性假设将被认为是不合适的(KimuraandOhta1971)。关于在分子水平验证选择的方法,Garrigan和Hedrick(2003)认为可以按照种群的当前世代,种群的短期历史和物种的长期演化历史三种时间尺度来划分为三类。然而,选择是一个长期作用的过程,种群的当前世代体现出来的临时状态无法真实反映选择的作用;并且这种时间尺度的划分也不利于寻找种内-种间遗传变异所反映的选择信号。Nielsen(2005)则把选择检验分为群体遗传学检验(populationgeneticapproaches)和比较数据检验(comparativedataapproaches)。Biswas和Akey(2006)从基因组学的角度出发,将选择检验的方法分为种内多态性,种内多态性与种间分歧,和种间检验三类。事实上,不论如何划分,不同的检验方法都有不同的数据类型作为检验对象。因此,在这篇综述里我将按照数据类型的不同对目前常用的统计检验方法进行整理和归纳。(1)基于群体内等位基因频率分布的中性检验在核酸的碱基测序时代之前,群体遗传多样性的研究手段主要是对遗传标记的电泳图谱进行分析,其中等位基因的杂合度(alleleheterozygosity)曾经是一个普遍用于描述遗传多样性的指标。以某单一等位基因位点为例,在一个个体数为1000的群体里,如果其中50个个体在该位点是杂合子,那么我们可以简单地把(Ho)=50/1000=0.05作为该位点的表观杂合度;说明该种群在以这个位点为遗传标记时得到的遗传多样性程度不高,即仍有95%的个体是纯合子。这种评估方式适用于小片段的蛋白质或核酸序列(如几十或者几百个氨基酸或碱基),但不适用于较长片段的研究。事实上,在自然状态下,核酸水平上的变异是比较丰富的,尤其从大片段的尺度来看。例如比较两条长度为10,000bp的等位基因,如此长度的序列几乎可以肯定他们是杂合的,因为序列越长,里面的变异越丰富,那么可以想象该位点在群体里杂合度Ho接近1。因此,在对核酸序列进行群体遗传多样性分析时,考虑两条序列间存在多少差异所获得的遗传多样性信息要远远大于判断他们是纯合子还是杂合子(Li1997)。在后来发展起来的群体遗传学研究中,有三个重要指标被运用于评估核酸遗传多样性(Nei1987;Li1997)。第一个是∏,即将所研究群体的所有核酸序列中任意两条不同序列的碱基差异数取平均值;这个指标对等位基因频率依赖很大。第二个是K,即分离位点数(numberofsegregatingsites),现在也被称为SNP(singlenucleotidepolymorphism),是指所有序列排列比对后存在变异的碱基位点数目;这个指标依赖于等位基因数目而与等位基因频率无关。第三个是Na,即等位基因数(numberofalleles)。此外,有一个非常关键的反映种群动态的参数θ将以上三个指标在数学上联系起来;这里θ=4Neμ,其中Ne为有效种群大小,μ为每一代的序列突变率(Watterson1975;Tajima1983)。有两种公认的θ估值,一个是Watterson估值(Watterson’sestimator,θW),把θ与K联系起来,即θW=K/a,其中a=[1+1/2+1/3+???+1/(n–1)](Watterson1975);另一个是Tajima估值(Tajima’sestimator,θT),即θT=∏(Tajima1983)。从理论上说,在中性条件下,应当有θT=θW=4Neμ的平衡状态。因此,Tajima(1989)设计了D值检验(Tajima’sD),即D=[(θT–θW)/Var(θT–θW)],通过统计学模型来验证中性突变假说。Tajima’sD值检验的作用原理是(Tajima1989):在原有的平衡状态中(θT=θW=4Neμ),所以D=0。但是,如果群体中存在许多低频率的等位基因(稀有等位基因),可以期望K/a不断增大而∏并未受到严重影响,因为后者主要是由高频率等位基因决定的。于是有θTθW,则D0。相反,当群体中是中等频率的等位基因占主导时,可以期望∏增大而K/a不受影响;这时θTθW,D0。Tajima(1989)把过多低频率等位基因的存在归咎为定向选择时,选择性清除下选择性清除会削弱原有等位基因的在群体中的频率,而使新等位基因以低频率补充进来成为稀有等位基因。相反,如果是中等频率的等位基因占主导,则可能是平衡选择的结果,或者是种群大小在经历瓶颈时使稀有等位基因丢失。因此,当Tajima’sD显著大于0时,可用于推断瓶颈效应和平衡选择;当Tajima’sD显著小于0时,可用于推断群体规模放大和定向选择。由于平衡选择与定向选择都属于正选择的范畴,因此,只要D值显著背离0,就可能是自然选择的结果;而当D值不显著背离0时,则中性零假说则不能被排除。之后,Fu和Li(1993)提出了与Tajima’sD略为不同的方法来检验中性进化,即FuandLi’sD&Ftest。他们考虑的是可以获得外类群的情况,因而对一组给定的等位基因序列可以构建一颗有根树。在这棵树上,总突变数为y,内部分枝突变数为yi,外部分枝的突变数目为ye,则y=yi+ye。这里y和ye的数学期望值分别为E(y)=a*θ,E(ye)=θ,其中a=[1+1/2+1/3+???+1/(n–1)]。如果发生了选择作用,那么外部分枝突变数将会偏离期望值,而内部分枝突变数并未受到严重影响。因此,可根据与Tajima’sD类似的策略,构建统计模型来验证中性零假说。此外,Fay和Wu(2000)构建了H检验(FayandWu’sHtest),用以测试高频率变异与中等频率变异的差异。他们认为在中性占主流的状态下,并不期望会出现很多高频率的变异,因而仅仅根据少数存在的高频率的变异就可以推断“搭车效应”。在果蝇的一些低频重组的区域中,H检验观察到了许多高频率变异,因此,Fay和Wu(2000)推断果蝇中的这些高频变异可能是由于“搭车效应”时正选择保留了有利变异并使其以高频率在群体中存在。到目前为止,Tajima’sD,FuandLi’sD&Ftest和FayandWu’sHtest,可能是针对群体内的等位基因频率被运用得最广泛的中性检验模型(Nielsen2005)。D0suggestseitherarecentpopulationbottleneckorsomeformofbalancingselection.D0suggestseitherpopulationexpansionorpurifyingselection.AquickcheckinWebofSciencerevealsthatthepaperinwhichTajimadescribedthisapproach[4]hasbeencitedover3100timessince1994|900timessinceIlasttaughtthiscoursetwoyearsago.Clearlyithasbeenwidelyusedforinterpretingpatternsofnucleotidesequencevariation.Althoughitisaveryusefulstatistic,Zengetal.[5]pointoutthatthereareimportantaspectsofthedatathatTajima'sDdoesnotconsider.Asaresult,itmaybelesspowerful,i.e.,lessabletodetectdeparturesfromneutrality,thansomealternatives.(2)基于连锁不平衡的中性检验这里面首先涉及的参数是等位基因频率(allelefrequency),基因型频率(genotypefrequency)和单倍型频率(haplotypefrequency)。在无视连锁的情况下,最简单的单一位点模型是“哈迪–温伯格平衡”(Hardy–Weinbergequilibrium)模式。假设在单一位点上有两种等位基因A和a,那么该群体存在三种基因型:AA,Aa和aa。如果用p表示A的等位基因频率,q表示a的等位基因频率,那么在经典的Mendel的基因分离定律和独立分配定律下,p2为AA的基因型频率,2pq为Aa的基因型频率,q2为aa的基因型频率,则有p2+2pq+q2=1。哈迪–温伯格平衡模式认为(Hardy1908;Weinberg1908),对于一个理想群体,即无穷大的随机交配且没有任何进化压力的群体,基因型频率将以p2,2pq和q2的比例存在于随机交配后的各代中,等位基因频率不会逐代发生改变,故而这个基因座位的基因库不会发生进化。事实上,当两对性状或者考虑两个等位基因座位时,我们必须考虑有可能的连锁和重组现象。假设研究对象为两个基因座位A和B,每个座位上的等位基因分别是A1和A2,B1和B2,那么用x来表示四种单倍型的频率:A1B1:x11A1B2:x12A2B1:x21A2B2:x22而每一个等位基因的频率表示为:A1:p1=x11+x12A2:p2=x21+x22B1:q1=x11+x21B2:q2=x12+x22假设两个座位上的等位基因是自由地独立地分配到后代中去,那么以A1B1为例,我们可以期望x11(e)=p1q1。这时单倍型频率的观察值x11(o)与期望值x11(e)之间的差异,就可以用来反映连锁不平衡(linkagedisequilibrium,LD):D=x11(o)–p1q1。连锁平衡(linkageequilibrium,LE)指的就是这种两个座位上的等位基因是自由地独立地分配到后代中去的现象,A与B的组合是完全随机的,因此有D=0,即LD为零的状态。我们其实可以把LE看作是双位点版本的“哈迪–温伯格平衡”,只不过这里是单倍型频率而不是基因型频率。当D≠0时,观察值与期望值不符,我们就说这两个等位基因处于连锁不平衡状态。事实上,重组能打断连锁关系而使在很多代以后LD趋向于0。假设c(0x'11=(1–c)x11+cp1q1,也可以写成x'11–p1q1=(1–c)(x11–p1q1),即D1=(1–c)D0。扩展到第n代时,有Dn=(1–c)nD0。如果n趋向于+∞,则(1–c)n趋向于0,这时Dn=0。如果两位点在物理距离上越接近,连锁越紧密,被重组的可能性就越低,则Dn→0的速率就越慢。在前面提到的“搭车效应”中,当一个有利突变开始产生时,它是处于完全LD状态的,即可视为与其构成单倍型的所有基因完全连锁,而其他单倍型因为不存在这个突变而被选择性清除所消灭(Ennis2007)。因此,搭车效应,正选择,选择性清除,连锁不平衡,基因重组以及群体结构相联系组成了一种情况极为复杂的局面,使得基于LD检验统计模型的设计成为一个难度极高的挑战。尽管如此,近几年,已经发展出了一些检验方法用于检测与LD相关联的自然选择,包括LRHtest(Sabetietal.2002),iHStest(Voightetal.2006),LDDtest(Wangetal.2006)等。然而,这些检验效力如何,还需要更多的研究结果来提供证据。(3)基于种群分化的检验Wright(1931)首先给出了群体遗传分化系数Fst的计算公式,用以评估亚群体的分化程度。Cavalli-Sforza(1966)认为自然选择可能会对群体亚分化形成贡献,因此首次建议用群体间的分化程度来推断自然选择的作用。
本文标题:中性检验相关知识
链接地址:https://www.777doc.com/doc-2775617 .html