您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 分子进化概况与系统发育分析
分子进化与系统发育分析Molecularevolutionandphylogeneticanalysis本章内容提要第一节关于分子进化简介第二节密码子偏好及分析第三节氨基酸序列的进化演变第四节分子系统发育分析第五节分子系统发育分析软件介绍TreeofLife重建所有生物的进化历史并以系统树的形式加以描述第一节关于分子进化简介生物进化理论达尔文进化论:进化:变异的遗传自然选择:解释为何演变发生的机制种群中个体变异的遗传学基础:孟德尔遗传孟德尔豌豆实验:杂交的表现特征是基因表达的结果,而不是基因杂交遗传中性进化论:并非所有种群中保留下来的突变都由自然选择所形成;大多数突变是中性或接近中性,不妨碍种群的生存与繁衍。研究生物进化历史的途径1.最确凿证据是:生物化石!——零散、不完整2.比较形态学、比较解剖学和生理学等:确定大致的进化框架——细节存很多的争议分子进化1964年,LinusPauling提出分子进化理论;从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。发生在分子层面的进化过程:DNA,RNA和蛋白质分子基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息。分子进化的模式DNA突变的模式:替代,插入,缺失,倒位;核苷酸替代:转换(Transition)&颠换(Transversion)基因复制:多基因家族的产生以及伪基因的产生A.单个基因复制–重组或者逆转录B.染色体片断复制C.基因组复制DNA突变的模式替代插入缺失倒位核苷酸替代:转换&颠换转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代基因复制:单个基因复制重组逆转录基因复制:基因组复制酿酒酵母克鲁雄酵母研究结果:克鲁雄酵母中的同源基因数量与酿酒酵母相比为1:2物种分类及关系:从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系——treeoflife大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能预测进化速率分析:例如,HIV的高突变性;哪些位点易发生突变?分子进化研究的目的基于16S/18S核糖体RNA序列比对得到的古细菌系统发育树生命三界:细菌(Eubacteria)古细菌(Archaebacteria)真核(Eukaryotes)TreeofLife:16SrRNAOutofAfrica53个人的线粒体基因组(16,587bp)人类迁移的路线同源性与相似性相似性(Similarity)序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占比例;定量描述;同源性(Homology)两个基因或蛋白质序列具有共同祖先的结论;定性判断;相似不一定同源,同源不一定相似。氨基酸序列相似性超过30%,很可能同源。两种同源物:即垂直方向的(orthology)与水平方向的(paralogy)。直系同源(orthology)是比较基因组学中最重要的定义。直系同源的定义是:(1)在进化上起源于一个始祖基因并垂直传递(verticaldescent)的同源基因;(2)分布于两种或两种以上物种的基因组;(3)功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;(4)结构相似;(5)组织特异性与亚细胞分布相似。鉴定直系同源的实际操作标准(practicalcriteria)为:如基因组Ⅰ中的A基因与基因组Ⅱ中的A‘基因被认是直系同源,则要求:(1)A‘的产物比任何在基因组Ⅱ中所发现的其它基因产物都更相似于A产物;(2)A‘与A的相似程度比在任何一个亲缘关系较远的基因组中的任一基因都要高;(3)A编码的蛋白与A‘编码的蛋白要从头到尾都能并排比较,即含有相似以至于相同的模序(motif)旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向(horizontal)产生的几个同源基因。即两个基因在同一物种中,通过至少一次基因复制的事件而产生。常常具有不同功能。paralogsorthologs直系同源物vs.旁系同源物Orthologs&Paralogs(直系同源与旁系同源)WormFlyHuman1Human2Yeast1Yeast2OrthologsParalogsGeneduplicationeventsSpeciationeventsParalogs•直系与旁系的共性是同源,都源于各自的始祖基因。•其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;•在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。•旁系同源的功能变异可能是横向加倍后的重排变异或进化上获得了另一功能。同源物种类Ortholog(直系同源物):两个基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。Paralog(旁系同源物):两个基因在同一物种中,通过至少一次基因复制的事件而产生。常常具有不同功能。Xenolog(异系同源物):由某一个基因水平转移事件而得到的同源序列。水平转移的基因功能主要根据在前后宿主中变化而确定,然而功能却常常相似。异源基因或水平转移基因xenologousorhorizontallytransferredgenes序列同源性模型中的进化假设所有的生物都起源于同一个祖先;序列不是随机产生,而是在进化上,不断发生着演变;基本假设:序列保守性结构保守性注意:反之未必序列保守性结构保守性第二节密码子偏好及分析密码子(codon):在随机或者无自然选择的情况下,各个密码子出现频率将大致相等;密码子偏好:各个物种中,编码同一氨基酸的不同同义密码子的频率非常不一致;可能的原因:密码子对应的同功tRNA丰度的不同-Anticodon标准密码子大肠杆菌RNA聚合酶大肠杆菌RNA聚合酶(2)密码子偏好非常明显;例如同为编码Leu的同义密码子CUA和CUG,二者出现的次数显著不等,CUA(1次),CUG(141次);再如:编码Arg的四个密码子CGU,CGC,CGA,CGG,出现次数分别为:89,46,1,0.提示:对应CGG的同功tRNA可能不存在!tRNA&Anticodon每一个密码子,对应一个tRNA;tRNA通过Anticodon来识别codon,联系mRNA和氨基酸序列的合成;密码子的使用偏好:由密码子对应的tRNA的进化及丰度来决定。碱基出现的频率1.假如:每个核苷酸位点上的替代是随机发生的,则A,T,C,G出现的频率应该大致相等。2.实际情况:DNA受到自然选择的压力,各个位点的碱基出现频率并不相等。3.需要解决的问题:A.每个位点上受到什么样的选择压力?B.各个位点的碱基频率反映了什么样的规律?4.表征/统计的方法:计算G+C的含量,并进行比较同义替代vs.非同义替代64个密码子,编码20个氨基酸GTTGTCGTAGTGCGTCGC脯氨酸P组氨酸H四倍简并二倍简并TGGTGC色氨酸W半胱氨酸C同义替代非同义替代DNA序列突变对氨基酸序列的影响同义(沉默)替代(synonymous/silentsubstitution)仍然为同义密码子的核苷酸替代如:TATTACTyrTyr非同义替代(nonsynonymoussubstitution)导致产生非同义密码子的核苷酸替代如:TATAATTyrAsn无义突变(nonsensemutation)导致产生终止密码子的核苷酸突变如:TATTAATyrSTP问题:假设所有密码子以同一概率出现,上述三种突变的比例?25%,71%,4%分子进化的理论自然选择理论:阳性选择:促进有益突变;定向选择:固定有益的等位基因;平衡选择:保持多态性;阴性选择(净化选择):清除有害突变;中性理论:阳性选择:少有;阴性选择:普遍存在;中性进化:普遍存在;分子进化的理论1.阳性选择,适应性进化,达尔文进化:DNA分子显著出现非同义替代,改变编码蛋白质的氨基酸组成,并产生新的功能;2.阴性选择,净化选择:DNA分子的同义替代显著,较少改变蛋白质的氨基酸组成,其原来的功能高度保守;3.中性进化:同义替代与非同义替代比例相当,突变不好不坏,不改变或轻微改变蛋白质的功能。基因的编码区和非编码区基因的DNA由编码区(Codingregion)和非编码区(Non-codingregion)构成;编码区可以转录信使RNA,进而调控蛋白质的合成;非编码区不能转录成信使RNA,但是它可以调控遗传信息的表达;原核基因:编码区全部编码蛋白质;真核基因:编码区分为外显子和内含子,只有外显子能编码蛋白质;分子进化选择压力进化选择压力:A.编码区:阳性选择1%(决定物种形成、新功能的产生);阴性选择19%(较少改变蛋白质的氨基酸组成,其原来的功能高度保守);中性进化80%(突变不好不坏)。B.非编码区:~100%的中性进化编码区:密码子1.对于同义的密码子,第一位少部分可以允许不同,例如,编码Ser的六个密码子:TCT,TCC,TCA,TCG,AGT,AGC2.第二位必须相同3.第三位绝大多数可以不同近似随机;4.因此:A.第一位:阴性进化占大部分,中性进化占小部分B.第二位:阴性进化C.第三位:阴性进化占小部分,中性进化占大部分密码子偏好的应用及计算基本假设:在高表达的基因中,密码子的选择,更倾向于使用“优化”的同义密码子推论1:给定一个物种的一些高表达的基因,我们可以估算优化的同义密码子的分布推论2:接着,我们可以对给定的一个未知基因的序列进行密码子分布的分析,预测该基因的表达量!推论3:对于一个表达量很低的基因,我们是否能够通过将少量的密码子改变成优化密码子,从而显著提高基因的表达量?RSCU相对同义密码子使用度(relativesynonymouscodonusage,RSCU)定义:观测到的某一同一密码子的使用次数,除以“期望”的该密码子出现次数injijiijijXnXRSCU11编码第i个氨基酸的第j个密码子的出现次数编码第i氨基酸的同义密码子的数目编码第i个氨基酸的第j个密码子的RSCU值密码子相对适应度TherelativeadaptivenessofacodonmaxmaxiijiijijXXRSCURSCUw编码第i个氨基酸的第j个同义密码子的“相对适应性”:即该同义密码子的观察值,除以编码该氨基酸的同义密码子的最大值大肠杆菌&酵母CAI:密码子适应指数CodonAdaptationIndexLLkkwCAI1L为基因中所使用的密码子数CAI值介于0~1之间,该值越大表示偏性越强;CAI值一般用来预测种内基因的表达水平,以及预测外源基因的表达水平。不同物种CAI的计算依赖于各自的参考数据集。大肠杆菌和酵母:部分基因的CAI异源基因:在其他物种中的CAI第三节氨基酸序列的进化演变分子进化的分析:基于氨基酸序列的分析早于DNA序列优势:氨基酸序列更为保守,对年代跨度大的进化分析有帮助;数学模型较DNA远为简单p距离:p-distance泊松校正,d距离P-distance:利用DNA序列数据计算遗传距离两条蛋白质序列之间的氨基酸差异数为nd,序列的氨基酸数目均为n,则P距离:nnpd不同物种的血红蛋白α链中差异氨基酸的数目及比例:(长度:140aa)所有的插入/缺失均删除PC:泊松校正序列差异的百分比(p)与分歧时间t的关系:t较短的时候,回复突变较少,两者大致成线性关系;当t较大时,回复突变增多,二者成非线性关系基本假设:令r为某一位点每年的氨基酸替代率,并假设所有位点的r都相同在时
本文标题:分子进化概况与系统发育分析
链接地址:https://www.777doc.com/doc-4737463 .html