您好,欢迎访问三七文档
蛋白质序列分析胡松年2005《基因表达序列标签(EST)数据分析手册》第八章吴祖建等2011《生物信息学分析实践》第五章•蛋白质序列结构信息–蛋白质序列的基本性质分析–结构域分析及motif搜索–蛋白质二级结构–蛋白质三级结构蛋白质序列分析一、蛋白质序列的基本性质分析•理化性质分析•疏水性分析•跨膜区分析•信号肽预测•Coil区分析•亚细胞定位蛋白质序列分析蛋白质理化性质分析•Protparam工具计算以下物理化学性质:•相对分子质量理论pI值•氨基酸组成原子组成•消光系数半衰期•不稳定系数脂肪系数•总平均亲水性蛋白质序列分析主要选项/参数序列在线提交形式:•如果分析SWISS-PORT和TrEMBL数据库中序列–直接填写Swiss-Prot/TrEMBLAC号(accessionnumber)•如果分析新序列:–直接在搜索框中粘贴氨基酸序列蛋白质序列分析输入Swiss-Prot/TrEMBLAC号打开protein.txt,将一条蛋白质序列粘贴在搜索框中•输入Swiss-Prot/TrEMBLAC号—分不同的功能域肽段输出结果功能域用户自定义区段蛋白质序列分析点击不同功能域或是以直接粘贴氨基酸序列的方式得到以下结果蛋白质序列分析氨基酸数目相对分子质量理论pI值氨基酸组成原子组成分子式总原子数消光系数半衰期不稳定系数脂肪系数总平均亲水性蛋白质序列分析•ProtScale工具•氨基酸标度–表示氨基酸在某种实验状态下相对其他氨基酸在某些性质的差异,如疏水性、亲水性等•收集50多个文献中提供的氨基酸标度•默认值为Hphob.Kyte&Doolittle,做疏水性分析蛋白质疏水性分析蛋白质序列分析20种氨基酸的疏水K-D标度氨基酸K-D标度氨基酸K-D标度Ile(I)4.5Trp(W)-0.9Val(V)4.2Tyr(Y)-1.3Leu(L)3.8Pro(P)-1.6Phe(F)2.8His(H)-3.2Cys(C)2.5Asn(N)-3.5Met(M)1.9Asp(D)-3.5Ala(A)1.8Gln(Q)-3.5Gly(G)-0.4Glu(E)-3.5Thr(T)-0.7Lys(K)-3.9Ser(S)-0.8Arg(R)-4.5主要选项/参数序列在线提交形式:•如果分析SWISS-PORT和TrEMBL数据库中序列–直接填写Swiss-Prot/TrEMBLAC号(accessionnumber)•如果分析新序列:–直接在搜索框中粘贴氨基酸序列蛋白质序列分析输入Swiss-Prot/TrEMBLAC号氨基酸标度打开protein.txt,将一条蛋白质序列粘贴在搜索框中计算窗口(7-11)相对权重值权重值变化趋势输出结果•输入Swiss-Prot/TrEMBLAC号—分不同的功能域肽段蛋白质序列分析功能域用户自定义区段•点击不同功能域或直接粘贴氨基酸序列的方式得到以下结果•蛋白质序列疏水区域分布预测图蛋白质序列分析图形结果文本结果序列参数每个位置的得分跨膜区分析•膜蛋白不溶于水,分离纯化困难,不容易生长晶体,很难确定其结构•膜蛋白跨膜区可能作为膜受体,也可能是定位在膜上的锚定蛋白或离子通道蛋白•预测跨膜螺旋主要基于已知的跨膜螺旋信息,应用统计模型或神经网络方法•使用单一的预测软件准确性不太高,综合不同的软件预测结果并结合疏水性图,可以获得较好的预测,对于跨膜螺旋和膜向性预测准确率达80%~95%蛋白质序列分析跨膜区在线分析工具蛋白质序列分析名称网址说明TMHMM判定是否是膜蛋白Tmpred预测跨膜片断TMP用多序列比对方法预测跨膜区跨膜蛋白数据库Tmbase1.来源于Swiss-Prot数据库,提供如跨膜结构区的数量、位置及其侧翼序列等信息。2.数据库下载地址:跨膜区实例分析蛋白质序列分析•使用TMHMMserver2.0对水稻瘤矮病毒(RGDV)外层衣壳P8蛋白进行跨膜区分析。•TMHMM基于隐马尔可夫模型预测,综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,可对跨膜区及膜内外区进行整体预测。•TMHMM在区分可溶性蛋白和膜蛋白方面尤为见长,常用于判定一个蛋白是否为膜蛋白。18贴入RGDVp8.txt蛋白质序列191.P8蛋白的1~405位氨基酸位于细胞膜表面2.406~425位氨基酸形成一个典型的跨膜螺旋区信号肽预测•蛋白质合成后要运送到细胞中不同的部位,有的蛋白质要通过内质网膜进入内质网腔内,最终成为分泌蛋白。•分泌蛋白的N端都有一段约15~35个氨基酸的疏水性肽段,其功能是引导蛋白质多肽链穿过内质网膜进入腔内,称为信号肽(signalpeptide)。•按照氨基酸组成及其位置特征,可将信号肽分为4大类:1.分泌信号肽2.脂蛋白信号肽3.Pilin-like信号肽4.细菌素和细菌素信号肽蛋白质序列分析•信号肽主要由三个domain组成:N-region、H-regin和C-region.•N-region为正电荷区域,至少含有一个精氨酸(R)或赖氨酸(K).•H-region为疏水核,一般长为12~14个氨基酸.•C-region包含信号肽酶(SPase)的剪切位点,在剪切位点的-1位和-3位上多为中性的丙氨酸,该区域也称为富含丙氨酸区域.NHCN端C端蛋白质序列分析信号肽预测在线分析工具蛋白质序列分析名称网址说明ChloroP预测植物中叶绿体转运肽LipoP预测革兰氏菌中的信号肽酶I、II的剪切位点NetNES预测富含亮氨酸的核输出信号SecretomeP预测真核生物中非经典类型的和无导肽的分泌蛋白SignalP预测革兰氏阳性菌(G+)、预测革兰氏阴性菌(G-)、真核生物信号肽MITOPROT预测线粒体、叶绿体信号肽PlasMit线粒体转运肽水稻条文病毒NSVc2蛋白信号肽预测蛋白质序列分析•SignalP3.0Server主页•NSVc2序列•输出结果:–Cscore:剪切位点分值–Sscore:信号肽分值–Yscore:综合剪切位点分值•综合两种算法,NSVc2含有信号肽序列,为MHFKSYFIYTTIFNMAWG,说明NSVc2蛋白可能在跨膜运输中起信号识别作用•剪切位点位于第18~19位氨基酸,表明成熟肽始于第18位氨基酸Coil区分析•卷曲螺旋(coiledcoil)是蛋白质中由2~7条α螺旋链缠绕成麻花状结构的总称。•卷曲螺旋是控制蛋白质寡聚化的元件,含有卷曲螺旋结构的蛋白质主要是一些转录因子、骨架蛋白、动力蛋白、膜蛋白、酶等,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。•七肽重复区(heptadrepeat,HR)是典型的卷曲螺旋结构类型之一,由多个七肽单元连接而成的重复序列,每个重复序列中的7个氨基酸残基依次用a-b-c-d-e-f-g表示。蛋白质序列分析•a、d位多为非极性疏水氨基酸,位于卷曲螺旋结构的内侧;e、g多为极性带电氨基酸,与a、d位残基相互作用形成疏水核心的外侧。•a、d、e、g位置上的氨基酸对于整个卷曲螺旋结构的稳定性及特异性具有重要作用。•COILSServer:•根据卷曲螺旋蛋白结构数据库和包含球状蛋白序列的PDB次级数据库,可计算出目的序列形成卷曲螺旋的概率。•使用COILSServer对RGDVP2蛋白卷曲螺旋预测分析。蛋白质序列分析•已有文献研究表明,RDV的P2蛋白含有一个N端的疏水肽、两个七肽重复区和一个跨膜区。•RGDVP2蛋白与RDVP2蛋白在病毒粒体中位置相同、大小相似,具有高度保守的氨基酸序列和相似的一级结构,表明两者可能具有相似的结构。•使用COILSServer分析RGDVP2是否由七肽重复区。•COILSServer网页•MTK:根据肌球蛋白、原肌球蛋白和角蛋白得到的打分矩阵•MTIDK:由肌球蛋白、原肌球蛋白、中间纤维类蛋白、桥立蛋白和角蛋白得到的打分矩阵蛋白质序列分析COILS_20424_6595.txt亚细胞定位•亚细胞定位与蛋白质的功能存在着密切的联系•通过氨基酸组成进行亚细胞定位主要基于如下原理:1.不同的细胞器多具不同的理化环境,根据蛋白质的结构及表面理化特征选择性容纳蛋白2.蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成蛋白质序列分析•亚细胞定位预测步骤:–抽取一个高质量的亚细胞定位数据集并分为训练集和测试集–从选取的蛋白质数据中抽取出特征信息–选择合适的算法预测–用测试数据集对预测结果进行评价蛋白质序列分析常用的亚细胞定位在线工具蛋白质序列分析名称网址TargetP://psort.nibb.ac.jpSubLoc://://166.111.24.5/webtools/GNBSL/index.htm•使用TargetP对RSVNSVc2蛋白进行亚细胞定位•TargetP是预测真核蛋白亚细胞定位软件,主要基于叶绿体转运肽(chloroplasttransitpeptide,cTP)、线粒体导肽(mitochondrialtargetingpeptide,mTP)及分泌通路信号肽(secretorypathwaysignalpeptide,SP)的N端序列进行预测•预测结果:蛋白NSvc2的分泌途径为“-”型,即定位到其他细胞器。蛋白质序列分析二、蛋白质结构域及motif搜索•结构域分析•Motif搜索蛋白质序列分析结构域分析•结构域(structuredomain)是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。•结构域通常由25~300个氨基酸组成,不同蛋白质结构域数目或同一蛋白质结构域相似度差异较大蛋白质序列分析•常见的结构域主要有5种:–全平行结构域–反平行结构域–α+β结构域–α/β结构域–其他折叠类型•结构域是蛋白质的功能、结构和进化单元,结构域分析对于蛋白质结构的分类和预测有着重要作用。蛋白质序列分析结构域分析工具及数据库蛋白质序列分析工具网址说明InterProScan蛋白质结构域和功能位点分析SMART蛋白质结构域分析数据库网址说明Pfam
本文标题:蛋白质序列分析
链接地址:https://www.777doc.com/doc-4947008 .html