您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 蛋白质的序列分析及结构预测
蛋白质的序列分析及结构预测DNAsequenceProteinsequenceProteinstructureProteinfunction一、蛋白质数据库介绍二、蛋白质序列分析三、蛋白质结构预测四、应用分子设计一、蛋白质数据库介绍蛋白质的结构主要分为四级,一级结构、二级结构、三级结构以及四级结构。依据这种结构层次,将蛋白质数据库分为:1.蛋白质序列数据库:如PIR、SWISS-PROT、NCBI,这些数据库的数据主要以蛋白质的序列为主,并赋予相应的注释;2.蛋白质模体及结构域数据库:如PROSITE、Pfam,这些数据库主要收集了蛋白质的保守结构域和功能域的特征序列;3.蛋白质结构数据库:如PDB等,这些数据库主要以蛋白质的结构测量数据为主;4.蛋白质分类数据库:如SCOP、CATH、FSSP等,这其中有以序列比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据库之分。蛋白质数据库特征:•这些数据库种类有差别,但内部是相互联系的.•每个数据库都有指针指向其他数据库,而且数据库之间的序列以及相应的结构是共享的,同一种蛋白质依次会出现在不同的数据库.•这样的数据沟通有助于更深层地挖掘蛋白质的内在生物信息,这些数据库是融序列信息的索取、处理、存储、输出于一身的。1.蛋白质序列数据库(1)PIR(proteininformationresource,PIR)和PSD(proteinsequencedatabase,PSD)是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。PIR-PSD的序列来自于将GenBank/EMBL/DDBJ三大数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。(2)SWISS-PROT/TrEMBL数据库数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰位点、特殊位点和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、序列变异体等信息。2.模体以及结构域数据库模体数据库(1)PROSITE蛋白质家族及结构域数据库()•PROSITE数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型,并能依据这些特征属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族,即使在蛋白质序列相似性很低的情况下,也可以通过搜索隐含的功能结构模体(motif)来鉴定,因此是有效的序列分析数据库。•PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、金属离子结合位点、二硫键、小分子或者蛋白质结合区域等,此外PROSITE还包括由多序列比对构建的序列表谱(profile),能更敏感地发现序列中的信息。PROSITE同时数据库提供了序列分析工具:①ScanProsite是用于搜索所提交的序列数据是否包含PROSITE数据库中的序列模式或者SWISS-PROT数据库中已提交的序列模式;②MotifScan用于查找未知序列中所有可能的已知结构组件,数据库包括PROSITE序列表谱、PROSITE模式、Pfam收集的隐马尔可夫模式(HMM)。(2)PRINTSFingerprintDatabase这个数据库包含1500个蛋白质指纹图谱,编码9136个单一模体。(3)BLOCKS()BLOCKS是通过一些高度保守的蛋白质区域比对出来的无空位的片段。模体数据库蛋白质结构域数据库(1)蛋白质家族序列比对以及隐马尔可夫模式数据库Pfam(proteinfamiliesdatabaseofalignmentsandHMMs)Pfam是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网址是:。(2)蛋白质结构域数据库ProDom(3)SMARTSMART是一个简单的结构研究工具,可对可转移的遗传因子进行鉴定和注解,以及分析结构域结构,可以检测出500多个参与信号传导、胞外和染色体相关蛋白质的结构域家族,对这些结构域又在系统进化树分布、功能分类、三级结构和重要的功能残基方面做了注解。蛋白质结构数据库PDB(proteindatabank,PDB)包括了蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子结构数据,主要是蛋白质结构数据,这些数据来源于几乎全世界所有从事生物大分子结构研究的研究机构,并由RCSB维护和注释。4.蛋白质结构分类数据库(1)CATH数据库(2)SCOP蛋白质结构分类数据库(structuralclassificationofproteindatabase,SCOP)scop.mrclmb.cam.ac.uk/scop/index.html二、蛋白质的序列分析1.蛋白质序列信息的获取2.蛋白质序列分析1.蛋白质序列信息的获取(1)直接测序(2)翻译编码的DNA序列ORFFinder(3)在数据库中搜索•运用ID号、入口号、条目号等搜索。•运用关键词搜索•其他方式搜索。如可以通过引用序列的文献、序列的作者、序列提交的日期等进行搜索。(1)直接测序e.g.ProteinSequencingandIdentificationbyTandemMassSpectrometry,即用串联质谱仪测序1.蛋白质序列信息的获取串联质谱及其作用•两个或更多的质谱连接在一起,称为串联质谱。•最简单的串联质谱(MS|MS)由两个质谱串联而成,其中第一个质量分析器(MS1)将离子预分离或加能量修饰,由第二级质量分析器(MS2)分析结果。串联质谱仪的组合方式:(1)磁分析器-静电分析器-磁分析器(2)静电分析器-磁分析器-静电分析器(3)三重四极滤质器质谱仪(4)混合式串联质谱仪,如MA-ESA-Q-Q。实现串联质谱有空间串联和时间串联两种方式。优点:•可以避免底物分子产生的干扰,大大降低背景噪音。•其次,可使分子离子通过与反应气的碰撞来产生断裂。•因此能提供更多的结构信息,所以串联质谱特别适合于复杂组分体系且干扰严重的样品中低含量组分分析测定,具有比GC-MS和LC-MS等一级质谱更高的选择性和灵敏度。MassesofAminoAcidResiduesProteinbackboneH...-HN-CH-CO-NH-CH-CO-NH-CH-CO-…OHRi-1RiRi+1AAresiduei-1AAresidueiAAresiduei+1N-terminusC-terminusBreakingProteinintoPeptidesandPeptidesintoFragmentIons•Proteases,e.g.trypsin(胰蛋白酶),breakproteinintopeptides.•ATandemMassSpectrometer(串联式质谱仪)furtherbreaksthepeptidesdownintofragmentionsandmeasuresthemassofeachpiece.GeneralforsequencingBreakingProteinintoPeptidesandPeptidesintoFragmentIons•MassSpectrometeracceleratesthefragmentedions;heavierionsaccelerateslowerthanlighterones.•MassSpectrometermeasuremass/chargeratioofanion.GeneralforsequencingPeptideFragmentation•Peptidestendtofragmentalongthebackbone.•FragmentscanalsolooseneutralchemicalgroupslikeNH3andH2O.H...-HN-CH-CO...NH-CH-CO-NH-CH-CO-…OHRi-1RiRi+1H+PrefixFragmentSuffixFragmentCollisionInducedDissociationN-andC-terminalPeptidesTerminalpeptidesandiontypesPeptideMass(D)57+97+147+114=415PeptideMass(D)57+97+147+114–18=397withoutN-andC-terminalPeptides4154863011545771185332429N-andC-terminalPeptides4154863011545771185332429PeptideFragmentationy3b2y2y1b3a2a3HONH3+||R1OR2OR3OR4||||||||||H--N---C---C---N---C---C---N---C---C---N---C--COOH|||||||HHHHHHHb2-H2Oy3-H2Ob3-NH3y2-NH3MassSpectraGVDLKmass057Da=‘G’99Da=‘V’LKDVG•Thepeaksinthemassspectrum:–Prefix–Fragmentswithneutrallosses(-H2O,-NH3)–Noiseandmissingpeaks.andSuffixFragments.DH2OProteinIdentificationwithMS/MSGVDLKmass0Intensitymass0MS/MSPeptideIdentification:TandemMass-SpectrometryBreakingProteinsintoPeptidespeptidesMPSER……GTDIMRPAKID……HPLCToMS/MSMPSERGTDIMRPAKID......proteinMassSpectrometryMatrix-AssistedLaserDesorption/Ionization(MALDI)基质辅助激光解吸质谱基质辅助激光解吸飞行时间质谱仪MALDI-TOF-MS•MALDI-TOF-MS是近年来发展起来的一种软电离新型有机质谱。近年来已成为检测和鉴定多肽、蛋白质、多糖、核苷酸、糖蛋白、高聚物以及多种合成聚合物的强有力工具。•原理:当用一定强度的激光照射样品与基质形成的共结晶薄膜,基质从激光中吸收能量,基质-样品之间发生电荷转移使得样品分子电离,电离的样品在电场作用下加速飞过飞行管道,根据到达检测器的飞行时间不同而被检测,即测定离子的质量电荷之比与离子的飞行时间成正比来检测离子。•MALDI-TOF-MS的中心技术就是依据样品的质荷比(m/z)的不同来进行检测,并测得样品分子的分子量。TandemMassSpectrometryRT:0.01-80.025101520253035404550556065707580Time(min)0102030405060708090100RelativeAbundance138919911409214916151621141121471611199516551593138721551435198720012177144516611937220517792135201713132207130723291
本文标题:蛋白质的序列分析及结构预测
链接地址:https://www.777doc.com/doc-2436716 .html