您好,欢迎访问三七文档
第四讲遗传距离与距离树概念•遗传距离:以任何对象(序列、基因次序、基因有无、蛋白质结构域等)采用各种方法估计的两个OTU(个体、群体、物种、种上分类单元或基因家族序列)之间的差异值。与距离相对的是相似性。•距离矩阵:假设有n个OUT,则需要计算的成对距离有n(n-1)/2个,通常以上三角或下三角表示。•将序列数据转化为距离分析的优点:1)序列本身很少有直观意义,距离能直观而具体的表达序列之间差异;2)将序列转换成距离,能够对各自对应的不同进化时间的距离作相应校正。3)距离矩阵方法运算速度快,可用于大规模数据集的系统分析。•缺点:1)转化过程中部分系统发生信息丢失;2)转化成距离数据后无法与其他类型性状数据联合分析;3)只有通过性状分析才能识别特定的有用性状(即序列位点),距离数据无法做到。遗传距离计算方法•未校正的遗传距离1)总替换分歧度2)转换/颠换替换分歧度3)同义/非同义替换分歧度4)indel距离•校正的遗传距离1)独立估计方法:解析公式法(JC69;K80)、最大似然法;2)同步估计方法•LogDet距离(考虑进化过程中碱基组成的不稳定性)•基因组距离•蛋白质遗传距离(类型类似核苷酸)未校正遗传距离•未校正遗传距离:将两个序列的所有同源位点逐一比较,对差异绝对值求和,可以直接获得两序列间发生的总替换数,也可以对indel、转换和颠换分别计数,求出两条序列之间发生的indel数、转换数和颠换数。这些数据除以序列长度就是各自的差异百分比,即未校正的遗传距离(p-distance)。总替换分歧度•总替换分歧度:根据序列之间的所有类型的差异计算的未校正的遗传距离。仅适用于相似性较高的序列。•p=nd/n;nd为两条序列之间不匹配的位点数目,n为比对后序列长度•注意事项:1)序列末端长度变异的处理2)空位处理:作为性状;两两删除;完全删除3)相同残基位点数目的确定:严格定义;宽松定义(嘧啶、嘌呤)4)模糊残基处理转换/颠换替换分歧度•转换距离:序列对之间发生的转换位点数/序列长度。•颠换距离:序列对之间发生的颠换位点数/序列长度同义/非同义替换分歧度•同义替换:蛋白质编码基因序列没有引起氨基酸取代的核苷酸突变。•同义替换距离(dS)、非同义替换距离(dN)计算方法:1)突变比例法:计算每条序列的同义替换位点数S和非同义替换位点数N——两序列间的同义替换差异数Sd和非同义替换差异数Nd——多重替换校正算出dS,dN,P80,MY80,NG86,I95,ZRN98,YN002)简并位点法:计算两条序列间无简并位点、二重简并位点、四重简并位点差异数目——算出dS,dN;LWL85,PB93,L93,C95,MP973)密码子模型法:最大似然法计算61个有义密码子间的同义和非同义替换速率(Ks,Ka)——计算dS,dN;MG94,GY94,M96,YN98校正的遗传距离•随着分歧时间延长,DNA序列上突变的固定数目增加,某些快速进化位点上发生多重替换的概率增大,多重替换位点中后来发生的变化将消除早期变化的任何痕迹,这可通过进化过程的假设估计多重替换的数目来校正。•注意事项:1)JC69距离≤0.1:JC69,K802)0.1JC69距离0.3:转换频率高K80,反之JC693)0.3JC69距离1.0:碱基替换速率虽不同位点强烈变化Γ距离,4种碱基组成频率相差较大Tajima和Nei(1984)4)JC69距离1.0:放弃序列,删除快速进化序列;转换成氨基酸5)分析氨基酸序列:近缘物种,且同义替换遗传距离1.0,用同义替换遗传距离;远缘物种,非同义替换遗传距离基因组距离•基因组距离:从一个基因组进化到另一个基因组所发生的遗传改变事件的最小数目。包含基因含量距离、基因重复距离、基因重排距离、字符串向量距离、蛋白结构距离计算遗传距离的软件•PAUP、MEGA6、TREECON、DAMBE、DnaSP、TREE-PUZZLE系统树构建•距离矩阵法•简约法:简约法利用系统发生学上的离散资料作为特征所构成的矩阵估计一个或多个最佳的系统发生树,而这些资料来源可能是有遗传关系的多个物种或多个族群,之后最大简约法在可能的亲缘树中挑选需最少步骤可形成者作为所估计的亲缘关系树。•最大似然法:最大似然法明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。最大似然法是一类完全基于统计的系统发生树重建方法的代表。该方法在每组序列比对中考虑了每个核苷酸替换的概率。•贝叶斯系统发生推论法:贝叶斯推断的显著特征是,为了得到一个统计结论能够利用先验信息和样本信息。系统树构建•1980-2010年系统发生分析文献数量、分析方法及软件使用情况的统计结果基于距离矩阵的系统树•聚类分析方法:非加权配对算数平均法UPGMA•邻接法(NJ):无根树中一个节点所连接的两个分类群互为邻居;使用最广泛的距离树,适用于大数据集•最小进化法•叠加树法•距离树可靠性检验:自举检验、自举内部分支检验•距离树优点:1)简单2)稳定•缺点:1)信息丢失2)无比较次优树能力3)统计学分析困难•建树软件:PAUP、MEGA、PHYLIP等•Beginpaup;bootstrapnreps=1000search=nj;end;beginpaup;dsetdist=jc;showdist;nj;End;
本文标题:遗传距离
链接地址:https://www.777doc.com/doc-3200404 .html