您好,欢迎访问三七文档
杨茜北京大学生命科学学院2011-01-09分子系统发育分析MolecularPhylogenetics1AppliedBioinformaticsCourse2AppliedBioinformaticsCourse提纲2345案例:分析NADH1序列系统发育的基本概念系统发育树的构建方法系统发育分析的软件参考和推荐书目elines513AppliedBioinformaticsCourse系统发育的相关概念研究物种进化和系统分类系统发育学推断或评估这些进化和分类关系系统发育分析通过系统发育分析所推断出来的进化关系一般用分支图来描述系统发育树系统发育(Phylogeny)系统发育分析是研究物种进化和系统分类的一种方法,其常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。系统发育树描述了同一谱系的进化关系,包括了分子进化、物种进化以及分子进化和物种进化的综合。通过系统发育树,我们可以找到亲缘关系最近的物种或者基因,探索基因的功能,追溯基因的起源。在现代系统发育学研究中,研究的重点已经不再是生物的形态学特征或者其他特性,而主要是序列信息。虽然已有了大量的用于系统发育的算法、过程和计算机程序,但是这些方法的可靠性和实用性还是依赖于数据的结构和大小。系统发育分析一般没有实验基础,因为系统发育的发生过程都是已经完成的历史,只能去推断或者评估,而无法重现。4AppliedBioinformaticsCourse5AppliedBioinformaticsCourse系统发育分析的概念性步骤系统发育分析生物数据序列比对建立替代模型构建系统发育树评估系统发育树选择序列时的注意事项1.序列有指定的来源并且正确无误2.序列是同源的,即所有的序列都起源于同一祖先序列3.样本序列之间的差异包含了足以解决感兴趣的问题的信息位点。4.样本序列是随机进化的。5.序列中的每一个位点的进化都是独立的。6AppliedBioinformaticsCourse序列比对建立一个序列比对的基本步骤包括:选择合适的比对程序;然后从比对结果中提取数据。至于如何提取有效数据,取决于所选择的建树程序如何处理容易引起歧义的比对区域和插入/删除序列(即所谓的indel或者gap)。分析DNA序列的方法基本上仍然是通过碱基和密码子的替代来考察序列的差异;这个方法同样应用于对蛋白质序列的分析,但是由于氨基酸的生物化学多样性,我们必须引入更多的参数。7AppliedBioinformaticsCourse从比对中提取数据如果比对中出现可变长度,我们通常会根据比对的不确定性程度和处理indel状态的原则这两个标准对比对结果进行取舍,从中选择所需的数据;其中针对indel状态的处理方法取决于建树方法以及从比对结果中发掘出的信息,最极端的方法是把包括空位在内的所有indel位点从比对中清除出去,在分析时不加考虑,这个方法的好处是可以把序列的变化包容在取代模型中,而不需要特别的模型来处理indel状态,但是它的缺点也很明显:indel区域的信息完全被忽略了。8AppliedBioinformaticsCourse系统发育树的种类1.有根树和无根树2.基因树和物种树3.期望树和现实树9AppliedBioinformaticsCourse有根树和无根树•有根树是具有方向的树。包含唯一的根节点,将其作为树中所有物种的最近共同祖先。•无根树是没有方向的,其中线段的两个演化方向都有可能。•如果类群数(m)为4,就有15种可能的有根树拓扑结构和3种无根树拓扑结构。•可能的拓扑结构随m的增加而迅速增加,这些拓扑结构中只有一种是真实树。10AppliedBioinformaticsCourse物种树和基因树代表一个物种或群体进化历史的系统发育树被称为物种树。根据基因构建的树称为基因树。基因树可能不同于物种树。11AppliedBioinformaticsCourse期望树与真实树一个用无限长的序列或每一分支的替代树构建成的树称为期望树。而建立在实际替代数基础上的树称为真实树。要注意的是,期望树和真实树通常不同于由所观察到的序列数据重建的树,即重建树或推论树。由于基因的进化改变受限于随机误差和某些自然选择因素,即使由很多基因构建的树也可能不同于真实树。12AppliedBioinformaticsCourse13AppliedBioinformaticsCourse距离法(Distance)最大简约法(MaximumParsimony)最大似然法(MaximumLikelihood)建树方法距离法(Distance)运用距离法或距离矩阵法时,系统发育树的构建基于所有类群间的进化距离值的关系。根据所有序列的两两比对结果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度-使用算术平均的不加权的组对法(UPGMA)-最小进化法(MinimalEvolution)-邻接法(Neighbor-joining)14AppliedBioinformaticsCourse最大简约法(MaximumParsimony)最大简约法根据序列的多重比对结果,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最少的拓扑结构作为最优树,即能够利用最少的步骤去解释多重比对中的碱基差异。理论基础是解释一个过程最好的理论是所需假设数目最少的那一个。前提是要选择信息位点。-加权MP法(转换和颠换)-不加权MP法15AppliedBioinformaticsCourse最大似然法(MaximumLikelihood)最大似然法以一个特定的替代模型分析一组序列数据的多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化树,使所获得的每一个拓扑结构的似然率均为最大,挑选似然率最大的拓扑结构作为最优树。建树过程费时,计算量大,每个步骤都要考虑内部节点的所有可能性。前提是要选择合理并正确的替代模型。16AppliedBioinformaticsCourse核苷酸替换模型系统发育树可靠性的检验自展法(bootstrap)是对所比较序列上的替换位点作多次随机取样,根据每次取样的数据可以得到新的树形图,相同的组合出现在某一个节点上的次数占总取样次数的百分比就是该节点的bootstrap值。95%统计学上有意义,70%可信,50%不可信。18AppliedBioinformaticsCourse不同建树方法的优缺点19AppliedBioinformaticsCourse常用的建树软件1.MEGA(MolecularEvolutionaryGeneticsAnalysis)2.PHYLIP(PHYLogenyInferencePackage)3.PAUP(PhylogeneticAnalysisUsingParsimony)4.PAML(PhylogeneticAnalysisbyMaximumLikelihood)20AppliedBioinformaticsCoursePAUP(PhylogeneticAnalysisUsingParsimony)PAUP是为系统发育分析提供一个简单的,带有菜单界面的、拥有多种功能(包括进化树图)的程序。PAUP4.0可以针对核苷酸数据进行与距离方法和ML方法相关的分析功能。21AppliedBioinformaticsCoursePHYLIP(PHYLogenyInferencePackage)PHYLIP是一个包含了大约30个程序的软件包,这些程序基本上囊括了系统发育的所有方面。PHYLIP是最广泛使用的系统发育程序。PHYLIP是一个命令行程序,没有PAUP那样的鼠标点击的界面。软件的文档写得非常好,容易理解,命令行界面也很简明。22AppliedBioinformaticsCourseMEGA(MolecularEvolutionaryGeneticsAnalysis)MEGA是一个关于序列分析以及比较统计的软件包,其中包括有距离建树方法和MP建树方法。针对核苷酸数据建树,MEGA的效果不如PAUP或者PHYLIP。进化树图形很简单。虽然MEGA可以通过密码子数据和氨基酸数据建立距离进化树,但是使用的取代模型太简单,对于绝大多数数据而言,不能产生可靠的进化树。23AppliedBioinformaticsCourse使用MEGA构建系统发育树通过这个界面我们可以看到有四个条目,一个是MEGA的使用指南;二是打开数据文件;三是发表文章时要注明引用MEGA;四是MEGA的网站。我们可以通过使用指南熟悉MEGA的使用可以利用已有的数据,也可以利用MEGA直接通过NCBI直接查找所感兴趣的序列。以七个物种的血红蛋白α亚基为例将我们的数据转化为FASTA格式,导入Alignmentexplorer、在Alignmentexplorer下还可以对序列进行编辑和插入、进行BLAST搜索等。数据导入后将序列全部选中也可选一部分进行多序列比对,参数为默认值Data-Exportalignment-MEGAformatPhylogeny—BootstrapTestPhylogeny—NJ法可以根据需要选择不同的模型,修改参数结果将会出现两种树。一种为originaltree,另一种为consensetree,一般我们选择后者,即一致树。PAML(PhylogeneticAnalysisbyMaximumLikelihood)PAML是一个共享软件包,可以建立ML模型,模拟实验,进行基于ML进化树的分析,能够进行进化树评估以及数据和进化树的统计。对于密码子数据和氨基酸数据,提供了最详细的和最灵活的参数指定和评估方案。对于核苷酸数据替换模型的范围同PAUP的一样广泛,可能包括了所有值得考虑的模型。34AppliedBioinformaticsCourseTreeView这个软件可以读取标准的NEXUS和PHYLIP格式的系统发育树文件,允许用户重新定义树根和其它一些简单的节点,系统发育树可以打印或者保存在一个文件中以备处理。35AppliedBioinformaticsCoursePhylogeneticAnalysisofNADH1Sequencesfrom8PrimateSpecies36AppliedBioinformaticsCourseSummaryofdataandmethodInthisstudy,DNAsequencesfromthemitochondrialNADH1dehydrogenasegeneswereusedtoanalysethephylogeneticrelationshipamong8primatespecies.WeretrievedsequencesfromGenBank,usedclustalWtoalignsequences,andusedprogramsinthephylippackagetoreconstructphylogenetictreesandperformbootstrapanalysis.PhylogenyreconstructionwascarriedoutunderdistancemethodbasedonJukes-Cantorsubstitutionmodelandparsimonymethods.Wefurtherdemonstratedthathowonepartitionedthedatabycodonpositionshoweddifferenttopologiesfromthefulllengthsequences.37AppliedBioinformaticsCourse38AppliedBioinformaticsCourseFigure1.PhylogenetictreebasedonfulllengthsequenceFigure2.Phylogenetictreebasedoncodonposition1underNJmethodFigure3.Phylogenetictreeba
本文标题:分子系统发育分析
链接地址:https://www.777doc.com/doc-7216594 .html