您好,欢迎访问三七文档
内容1.概述2.蛋白质的序列分析3.蛋白质二级结构预测4.蛋白质三维结构的预测5.主要生物信息学资源(蛋白质数据库)6.生物信息学方法的应用(简单介绍)预测蛋白性质和结构一、概述1.蛋白质结构研究的重要性基因序列→蛋白质序列→蛋白质空间构象→生物功能解析蛋白质的空间结构——有利于认识蛋白质的功能?认识蛋白质是如何执行功能的?认识结构与功能的关系?基础——设计和创造新蛋白现代结构测定技术虽然发展迅速,但是非常复杂,费用很高。特别是已知结构的蛋白质,反复测定,费用高昂基因组序列分析→导出大量的蛋白序列→但蛋白的空间结构未知?结构测定面临的巨大挑战——蛋白质种类数量庞大,依靠结构测定方法获得空间结构信息面临巨大挑战?假如研究中对cDNA翻译的序列高级结构一无所知,——首先通过结构预测,提供实验设计思路?需要发展理论分析方法→预测蛋白质的结构2.为什么要进行蛋白质结构的预测?3.蛋白质结构预测的可行性分析•Anfinsen原理:蛋白去折叠→重新折叠→生物学活性能够完全恢复,说明高级结构的信息蕴含在一级结构中。因此,设法以一级结构来推测高级结构具有理论上的可行性。•结构分析表明:有些蛋白之间具有很高的同源性,根据蛋白质结构和功能的高同源性关系预测未知蛋白质结构,在理论和实践上是可行的。•蛋白质结构预测——已有大量研究和成功实例,提供了实践上的可行性。•分子生物学和生物信息学等技术的发展,有可能直接从一级序列出发,预测蛋白质的高级结构,为高级结构的预测提供了保障。因此,蛋白质高级结构的预测是可行的,而且成本相对低廉。4.蛋白质结构预测的目的已知蛋白一级结构序列↓预测或测定构建立体结构模型↓预测或测定结构与功能研究↓设计蛋白质新分子↓蛋白质结构改造或创造新分子(生产实践中应用)获得一级序列↓寻找同源蛋白↓依据同源蛋白晶体结构↓构建结构模型5.结构预测的主要思路同源建模(HolologyModeling)折叠识别(FoldRecognition)从头计算(AbInitio)获得一级序列↓没有同源蛋白↓二级结构预测超二级结构结构预测三级结构结构预测↓构建结构模型第一节蛋白质序列分析•序列同源性分析•双重序列比对•多重序列比对1.序列同源性分析?概念:与已知的序列进行比对,找出同源性序列,从中获取未知该序列蛋白的性质和结构信息的过程。方法:目标序列→数据库序列比对→寻找同源得分高的序列→获得如下信息–未知蛋白质aa组成、pI、MW、疏水区等性质–保守位点、活性位点等–建立蛋白质之间的进化关系–二级和三级结构预测信息–预测蛋白质的折叠块模式(二级结构与氨基酸关系,一级结构与三级结构关系)意义:–获取未知高级结构蛋白的性质和结构信息,–对蛋白质的性质和结构进一步实验研究具有指导作用。2.双重序列比对:概念:两个序列之间比较序列,通过aa残基数匹配,反映序列间同源性高低的程度和序列相似的程度。(1)原理•序列最小比较单位是aa残基,即是每个aa残基代表一个结构单元•通过二维矩阵的方法,寻找两个序列的最大匹配路径;•允许两个序列上插入或删除一些aa残基(gap)—获得残基最大匹配数量。(2)打分矩阵类型:由计算机软件完成→依据aa所对应的核苷酸变异的分析方法——GCGCMGDM:→依据aa所对应的物化性质的分析方法——Rao:→依据aa侧链的疏水性质的分析方法——HYDOR:→aa在一组相关蛋白质中相互间的替代关系——MDPAM:→结构打分矩阵.蛋白拓扑结构相应区域氨基酸残基的取代关系——RIS:→依据aa残基的主链二面角(φ—ψ)分布——SCM:→氨基酸残基的空间倾向因子——SCMm,SCFs:(3)打分矩阵的gap值gap:序列中的aa残基的插入和删除。序列比对中允许有“gap”存在,扣除gap值,打分仍最高。(4)矩阵打分——来自统计的结果反映蛋白质家族的共性。如免疫球蛋白家族、白蛋白家族序列比对:仅在一定程度上反映结构的相似性。结构打分矩阵序列比较——是一种类结构比较法,提高结构相似性(5)双重比对的实例:同种蛋白不同亚基,人血红蛋白——两个链同源性73%(P62)不同来源同功蛋白,人和软体动物肌红蛋白同源性22%(P63)同源性高,不同打分矩阵给出结果相一致。同源性低,不同打分矩阵给出结果有不同。原因:主要由于序列不保守区匹配不一致导致。3.多重序列比对(Multiplesequencealignment;MSA)(1)多重序列比对三个以上的序列(蛋白、DNA等)相互间的序列比对。推导出序列之间的同源性程度序列之间的种系发生关系蛋白质结构域的三维结构与二级结构等。图3基于细胞质砷还原蛋白氨基酸序列的系统发育分析(2)多重序列比对方法•多重序列比较以双重序列比较为基础•序列比对给出显著性得分的方法–假设6个序列,要得到显著性得分,将序列重排100次,–分别求出每两对序列的显著性得分,需要进行C62×101=1515(次)–归一化比对得分“NAS值”与“显著性得分”成正比–NAS:两个序列的(最大显著性得分)与(序列长度)的比值(归一化处理)–NAS值高的一对序列,即是同源性最高的序列•多重序列比对:–最先考虑两个同源性高的序列,–再挑选NAS值较高的第三个序列进行比对,–依次类推,获得全部序列的同源性高低排列。–如:feng-Doolite法和Barton-Sternberg法等。双重序列比对与多重序列比对关系–双重比对:目标序列与其它系列的同源性和结构相似性比较。一条系列与其它多条序列的比对。–多重比对:包括目标系列在内的多条系列之间相互关系的比较。多条序列之间每两条序列之间均进行相互比较。–双重序列比较是多重比对的基础,相互之间进行多重比对,找出它们之间相互的种系发生关系和高级结构的关系。–首先进行双重比对,选择出同源性较高的序列,然后进行多重比较,获得目标序列更多的信息。第二节蛋白质二级结构的预测二级结构预测是研究蛋白质折叠问题的主要内容之一,也是获得新氨基酸序列结构信息的一般方法。蛋白质分子中二级结构具有较强的规律性,每一段相邻的氨基酸具有形成二级结构的倾向,二级结构预测常作为局部结构预测和三维空间结构预测的基础。1、预测方法:有几十种,归纳为3大类统计法、基于已有知识的预测方法、混合方法2、预测的原则以aa残基为预测单位假定蛋白二级结构主要由临近残基间的相互作用决定。对已知结构蛋白分析、归纳,制定预测规则。3、以Chou&Fasman(20th70’)的方法为例进行讨论—思路基于单个aa残基统计的经验参数法——预测二级结构通过于对大量已知蛋白结构进行统计归纳出每种aa残基的二级结构倾向因子(1)Chou&Fasman预测二级结构参数定义每个aa残基具有7个参数,依据7个参数,预测二级结构——氨基酸残基的参数的定义Pα、Pβ、和Pt:分别为形成螺旋、折叠和转角的倾向性。f(i)、f(i+1)、f(i+2)、f(i+3):相邻四个残基的转角参数。f:每个aa残基在第一、第二、第三和第四位的频度如:Pro:30%在第二位,第三位4%依据Pα和Pβ大小:对20种aa分类如:Glu、Ala是最强螺旋aa残基;Val、Ile:最强折叠aa残基Asp、Gly、Pro常分布于转角的aa残基如:Pro中断螺旋,Glu:中断折叠(2)Chou&Fasman预测经验规则–基本思路•利用一组规则,扫描氨基酸序列,•寻找二级结构成核位点和终止位点,•扩展成核区域,•直到二级结构类型可能发生终止为止。–四个简要规则(掌握)-1、α-螺旋规则-2、β-折叠规则-3、转角规则-4、重叠规则-1、α-螺旋规则α-螺旋核:相邻的6个残基,至少4个残基倾向形成α-螺旋,(4个残基的Pα100),即为螺旋核。α-螺旋的定义•沿序列寻找α-螺旋核,向两端延伸,直至4个残基Pα100为止。•若aa片段长度5,Pα均值Pβ均值,则该片段为螺旋•螺旋内部不允许Pro出现,Pro终止螺旋的延伸。-2、β-折叠规则和定义β-折叠核,相邻的6个残基,至少4个残基倾向形成β-折叠,(4个残基的Pβ100),即为折叠核。沿序列寻找β-折叠核,向两端延伸,直至4个残基Pβ100为止。若片段Pβ105,且Pβ均值Pα均值定义该片段为β-折叠Glu:中断折叠-3、转角规则和定义转角模型为4肽组合模型,要考虑每个位置上残基组合的概率,(特定氨基酸在每个位置上的概率)从第i个残基开始,连续4个残基的片段,其概率相乘,根据计算结果判定是否转角若:f(i)×f(i+1)×f(i+2)×f(i+3)>7.5×10.5若:四肽Pt>100,且Pt>Pβ,Pt>Pα判定为转角结构-4、重叠规则若预测的肽段——螺旋区和折叠区重叠,按照重叠区域Pα均值和Pβ均值相对大小进行预测Pα均值Pβ均值,预测为螺旋Pβ均值Pα均值,预测为折叠本节小结重点讲述了Chou&Fasman预测方法和规则α-螺旋规则β-折叠规则转角规则重叠规则二级结构预测方法和原理——简单明了,二级结构参数的物理意义明确,二级结构成核、延伸、终止规则,反映了蛋白质二级结构形成过程。该方法的预测准确率在50%左右。第三节蛋白质三维结构预测一、蛋白质三维结构的理论预测:–利用计算机,根据已有理论和已知aa序列等信息来–预测蛋白质的三级结构。二、三维结构预测的复杂性——是目前最复杂、最困难的技术?–蛋白质序列与结构之间的关系非常复杂,–已经掌握了一些序列与二级结构之间的关系–关于aa序列与三维结构之间的关系了解较少。–序列相似的蛋白可能折叠成相似的三维结构,–序列差异较大的蛋白质也可能折叠成相似的结构,–分子伴侣存在下,蛋白的折叠问题更加复杂。三、蛋白质三维结构预测的理论三维结构分析表明:–三维结构堆积的次级作用力和二硫键等——在维系三维结构具有重要的作用,对蛋白质三维结构预测具有重要作用。–二级结构与三级结构之间的序列模体(motif)、结构域(domain)和折叠单元(fold)对蛋白质三维结构预测具有重要作用。四、预测的方法(3类)1、同源建模(HolologyModeling)2、折叠识别(FoldRecognition)3、从头计算(AbInitio)1、同源建模(1)概念:又称比较性模拟,利用已知结构的同源蛋白和蛋白质家族中的蛋白质作为模板,模拟目标蛋白质结构的方法(建立目标蛋白的分子模型)。(2)预测思路:未知结构蛋白寻找已知结构的同源蛋白以同源蛋白为模板建立同源蛋白结构模型移植模型蛋白的结构数据构建未知蛋白的模型(3)特点:预测速度快精度较高局限性大:已知结构蛋白数量较少,许多蛋白没有同源序列使用模型不同,预测结构并不唯一。(4)预测步骤(6个)搜索结构模型的模板序列比对建立骨架构建目标蛋白侧链建立目标蛋白的环区优化模型预测结果若序列的等同部分超过60%,非常接近测定结果若序列的等同部分超过30%,期望得到较好的预测结果搜索结构模型的模板:假定两个同源蛋白具有相同骨架,按同源蛋白模型建立模板序列比对:目标蛋白与模板蛋白残基匹配建立骨架:模板结构的原子坐标移植到目标蛋白,建立目标蛋白的骨架构建目标蛋白侧链:移植相同残基的坐标,不完全匹配的残基,侧链构象采用经验数据预测,建立目标蛋白的环区:经验方法,从已知蛋白质中,寻找最优的环区,拷贝结构数据优化模型:建立初步模型,对不相容的空间坐标进行改进优化如:采用分子力学、分子动力学、模拟退火等方法进行结构优化2、折叠识别(FoldRecognition)又称穿针引线法(threading):根据结构类型进行预测在没有同源蛋白模板情况下,将目标蛋白序列“穿”入蛋白质数据库中,与已知的各种蛋白质折叠模板的骨架比对,由计算机来识别目标蛋白序列与数据库中蛋白质折叠模板是否“匹配”。设计一个评分标准,计算目标蛋白序列折叠成各种已知模板的可能性,根据得法高低判断“匹配程度”。适用于大多数蛋白进行结构预测
本文标题:蛋白质结构预测
链接地址:https://www.777doc.com/doc-6853913 .html