您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物信息学分子系统发育分析
分子系统发育分析毛理凯2本课目录一.总括二.多序列比对三.构建系统树四.系统发生软件3一、总括4系统发生学(phylogenetics)亦称系统学,种系发生学,种系发生系统学(phylogeneticsystematics)在希腊文中phylon=tribe,race(种系)genesis=birth研究生物群体(如:物种,种群)之间的进化关系5相关概念phylogenetictaxonomy(系统发生分类学)是系统学的一个分支根据进化相关度对生物群体分类phylogeny(=phylogenesis系统发生)生物群体的产生和进化分子系统学(molecularphylogenetics)将核酸,氨基酸序列作为进化特征6系统发生树(phylogenetictree)也叫系统树,进化树(evolutionarytree),生命树(treeoflife)对物种之间的进化关系的一种描述,这些物种被认为有共同祖先叶,节点关系,时间7有根树和无根树有根树(rootedtree)有共同祖先无根树(unrootedtree)树空间(treespace)从已知序列可以产生许多系统树来自几何8无根树和有根树的关系(1)从一棵有根树总可以产生一棵无根树而从无根树产生有根树需要额外的数据9无根树和有根树的关系(2)一棵无根树可以产生多棵有根树10WilliHennig(1913-1976)德国生物学家,被认为是系统发生学和分类学(cladistics;也叫cladogram)的奠基人据已知资料来看,他的观点并不是最早被阐述属达尔文学派;类似的观点另一学派的Lamarck和Rosa也有阐述可以认为是系统发生学的集大成者11历史上的系统树海克尔(ErnstHaeckel)首次制成了当时所有已知生物的系统树(1834-1919)著名的德国生物学家,哲学家,医生,教授,艺术家创建了重演论(recapitulationtheory)命名了许多生物学术语(如:门,系统发生,生态学,原生生物)和几千物种出版了著名的KunstformenderNatur(ArtformsofNature)12可能是最早的系统树C.Darwin,183713特征选取的变迁经典系统发生学主要是比较大的物理或表型特征如生物体的大小,颜色,牙齿个数,行为特征缺点:不易量化(连续),难以选取合适特征现代系统发生学分子水平:核酸或氨基酸序列优点:易量化(离散),易获取,适于自动化,更本质例子:(现代人起源)通过对线粒体DNA的研究,认为所有现代人都是一个非洲女性的后代(“夏娃”)14系统发生学研究方法目的在树空间中寻找正确的系统树分析步骤1.多(重)序列比对(multiplesequencealignment,MSA)2.构建系统树3.评价结果15三种构建系统树中使用的搜索算法穷尽法搜索整个空间(所有可能的树),然后根据评价标准选择一棵最优的树分支约束方法根据一定的约束条件将搜索空间限制在一定范围内启发式或经验性方法(heuristic)根据目前的搜索情况指导下一步的搜索方向根据先验知识或一定的指导性规则压缩搜索空间16两类数据:距离和离散特征距离描述序列之间的差别(遗传距离)一般用距离矩阵(distancematrix)表示距离往往由序列比对产生(如错配的比例)离散特征二态特征(如:DNA序列上的某个位点是否剪切位点)多态特征(如:某一位点可能的碱基有A,T,G,C)17两大类构建系统树的算法1.基于距离的构建方法(distance-matrixmethods)邻近归并法(或称邻接法,neighbor-joining)非加权组平均法(UPGMA)Fitch-Margoliash法最小进化方法2.基于离散特征的构建方法最大简约法(MP)进化简约法(EP)最大似然法(ML)相容性方法18注意:系统树的限制有人认为生物的系统关系不一定是树状的系统树不一定代表进化历史1.有很多干扰分析的因素噪音(noisy)水平基因转移(horizontalgenetransfer;网状)杂交,重组等(网状)2.用不同基因或蛋白产生的树往往不同3.已经灭绝的物种只能作为叶节点19二、多序列比对20例子多物种核糖体Rplp0蛋白比对ClustalW生成(颜色表示氨基酸保守性)21多序列比对方法动态规划(dynamicprogramming)慢,耗内存改进:使用“sumofpairs”目标函数渐进法(progressivemethod;或称分级法hierarchical,建树法tree)迭代法(iterativemethod)基序法(motiffinding;或称轮廓分析法profileanalysis)来自计算科学的算法HMM,GA,SA星形比对,树形比对22动态规划法是两两比对所用动态规划方法的直接扩展步骤1.用两两比对的方法比对所有的序列对2.建立n维矩阵(n为序列个数)3.产生多序列比对优点理论上适用于任意多个序列保证能得到较好结果缺点耗费大量时间,内存实际上很少用于多于3个序列的比对23逐对加和法(sumofpairs,SP)步骤1.进行所有两两比对,并给每个比对打分2.将所有的得分相加3.找到最优多序列比对,使得总得分(目标函数objectivefunction)最高例子对于这个蛋白多序列(3个)比对,求总分已知得分(K,R)=3,间隔罚分为-12K–R(-12)+(-12)+3=-2124Clustal可能是使用最广的多序列比对软件算法1.用Needleman-Wunsch全局算法做所有两两比对2.得到距离矩阵,从而产生引导树(guidetree;利用UPGMA,见后;得到dnd文件)3.渐进式比对(先处理距离最近的2个序列,再加次最近的…;得到aln文件)两个主要形式ClustalW(命令行)ClustalX(图形用户界面GUI)适用于Windows,MacOS,Unix/Linux25Clustal的输入输出文件格式输出PHYLIPClustalNBRF/PIRGCG/MSFGDENEXUS输入FASTAClustalNBRF/PIRGCC/MSFGDEEMBL/SwissprotGCG9RSF26ClustalW比对多序列(1)–主页这里将输入比对的多个序列27ClustalW(2)–获取FASTA格式的序列拷贝这些部分选择格式拷贝这些部分拷贝这些部分或将这里改为Text,更易拷贝28ClustalW(3)–将多个序列输入将多个序列粘贴到此点此比对29ClustalW(4)–比对结果(1)基本信息引导树文件多序列比对文件30ClustalW(5)–比对结果(2)比对图31ClustalW(6)–比对结果(3)引导树32MSA数据库Pfam(profileHMMlibrary)SMARTCDD(HMM;NCBIDART;=Pfam+SMART)BLOCKS(HMM)PRINTSPROSITEPopSetDOMO(GappedMSA)PRODOM(PSI-BLAST)MetaFAMINTERPROiProClass33MSA软件(维基的列表)NAMEDescriptionSequenceTypeAlignmentTypeLinkAuthorYearMSADynamicprogrammingBothLocalorGlobaldownloadD.J.Lipmanetal.1989(modified1995)MultAlinDynamicprogramming/clusteringBothLocalorGlobalserverF.Corpet1988PSAlignAlignmentpreservingnon-heuristicBothLocalorGlobaldownloadS.H.Sze,Y.Lu,Q.Yang.2006ClustalWProgressivealignmentBothLocalorGlobalEBIPBILEMBNetGenomeNetThompsonetal.1994KalignProgressivealignmentBothGlobalserverT.Lassmann2005T-CoffeeMoresensitiveprogressivealignmentBothLocalorGlobalserverC.Notredameetal.2000AMAPSequenceannealingBothGlobalserverA.SchwartzandL.Pachter2006MAVIDProgressivealignmentBothGlobalserverN.BrayandL.Pachter2004Multi-LAGANProgressivedynamicprogrammingalignmentBothGlobalserverM.Brudnoetal.2003MUSCLEProgressive/iterativealignmentBothLocalorGlobalserverR.Edgar2004MAFFTProgressive/iterativealignmentBothLocalorGlobalGenomeNetMAFFTK.Katohetal.2005GeneiousProgressive/Iterativealignment;ClustalWpluginBothLocalorGlobaldownloadA.J.Drummondetal.2005/2006CHAOS/DIALIGNIterativealignmentBothLocal(preferred)serverM.BrudnoandB.Morgenstern2003PRRN/PRRPIterativealignment(especiallyrefinement)ProteinLocalorGlobalPRRPPRRNY.Totoki(basedonO.Gotoh)1991andlaterPOAPartialorder/hiddenMarkovmodelProteinLocalorGlobaldownloadC.Lee2002SAMHiddenMarkovmodelProteinLocalorGlobalserverA.Kroghetal.1994(mostrecent2002)ProbConsProbabilistic/consistencyProteinLocalorGlobalserverC.Doetal.2005SAGASequencealignmentbygeneticalgorithmProteinLocalorGlobaldownloadC.Notredameetal.1996(newversion1998)Ed'NimbusSeededfiltrationNucleotidesLocalserverP.Peterlongoetal.2006RevTransCombinesDNAandProteinalignment,bybacktranslatingtheproteinalignmenttoDNA.DNA/Protein(special)LocalorGlobalserverWernerssonandPedersen2003(newestversion2005)34其他MSA软件Opal(Bioinformatics23(13);2007/7/1;免费)aligningalignmentsMurlet(Bioinformatics23(13);2007/7/1;开源)forRNASQUINT(Bioinformatics23(12);2007/6/1)Probalign(Bioinfor
本文标题:生物信息学分子系统发育分析
链接地址:https://www.777doc.com/doc-6311502 .html