您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 实验四蛋白质序列、结构的获取和显示
复旦大学实验四:蛋白质序列、结构的获取和显示杜娟dujuannx@126.com基因与蛋白质组学数据分析实验项目四:蛋白质序列、结构的获取和显示一、实验目的和要求:•掌握蛋白质序列数据库Uniprot的查询方法及格式特点•掌握蛋白质结构数据库PDB的及格式特点•掌握蛋白质结构显示软件Pymol的使用2•UniProt:UniversalProteinResource收录蛋白质序列目录最广泛、功能注释最全面的数据库;•包含三个子库:–UniProtKB(UniProtKnowledgebase)–UniRef(UniProtReferenceClusters)–UniParc(UniprotArchive)一UniProt数据库31.简介2.数据来源4EuropeanBioinformaticsInstitute(EMBL-EBI)SIBSwissInstituteofBioinformaticsProteinInformationResource(PIR)Swiss-ProtandTrEMBLProteinSequenceDatabase(PIR-PSD)5UniProt的网址:数据查询Uniprot检索号,包括6个字符串,可由大写字母A~Z和数字0~9组合而成。也可以用关键词检索检索演示例1:查询草履虫细胞周期蛋白依赖的蛋白激酶(CDK2)的结构数据(1)登陆Uniprot网站(2)在搜索栏选中“Proteinknowledgebase(UniProtKB)”,在文本框中输入“ParameciumtetraureliaCDK2”,单击SiteSearch按钮,出现结果。8910111213与其他数据库的链接144.UniProt数据格式•IDQ9XYV1_PARTEUnreviewed;301AA.•ACQ9XYV1;•DT01-NOV-1999,integratedintoUniProtKB/TrEMBL.•DT01-NOV-1999,sequenceversion1.•DT21-MAR-2012,entryversion71.•DESubName:Full=Cyclin-dependentproteinkinaseCdk2;•GNName=CDK2;•OSParameciumtetraurelia.•OCEukaryota;Alveolata;Ciliophora;Intramacronucleata;•OCOligohymenophorea;Peniculida;Parameciidae;Paramecium.•OXNCBI_TaxID=5888;头部区15序列名称序列编号序列来源的物种名序列来源的物种学名和分类学位物种分类号序列简单说明引文区•RN[1]•RPNUCLEOTIDESEQUENCE.•RCSTRAIN=51S;•RXMEDLINE=99448661;PubMed=10519216;•RXDOI=10.1111/j.1550-7408.1999.tb06065.x;•RAZhangH.,BergerJ.D.;•RTAnovelmemberofthecyclin-dependentkinasefamilyinParamecium•RTtetraurelia.;•RLJ.Eukaryot.Microbiol.46:482-491(1999).评论区•CC-----------------------------------------------------------------------•CCCopyrightedbytheUniProtConsortium,see•CCDistributedundertheCreativeCommonsAttribution-NoDerivsLicense•CC---------------------------------------------------------------------16相关文献编号或递交序列的注册信息序列注释信息交叉引用数据库区•DREMBL;AF126147;AAD34354.1;-;Genomic_DNA.•DRHSSP;P24941;1OIQ.•DRProteinModelPortal;Q9XYV1;-.•DRGO;GO:0005524;F:ATPbinding;IEA:UniProtKB-KW.•DRGO;GO:0004674;F:proteinserine/threoninekinaseactivity;IEA:InterPro.•DRInterPro;IPR011009;Kinase-like_dom.•DRInterPro;IPR000719;Prot_kinase_cat_dom.•DRInterPro;IPR017441;Protein_kinase_ATP_BS.•DRInterPro;IPR002290;Ser/Thr_dual-sp_kinase_dom.•DRInterPro;IPR008271;Ser/Thr_kinase_AS.•DRPfam;PF00069;Pkinase;1.•DRSMART;SM00220;S_TKc;1.•DRSUPFAM;SSF56112;Kinase_like;1.•DRPROSITE;PS00107;PROTEIN_KINASE_ATP;1.•DRPROSITE;PS50011;PROTEIN_KINASE_DOM;1.•DRPROSITE;PS00108;PROTEIN_KINASE_ST;1.17序列区•KWATP-binding;Cyclin;Kinase;Nucleotide-binding;Transferase.•SQSEQUENCE301AA;34675MW;E839F1A5EA0D5CB5CRC64;•MDLAQSEERYQKLEKIGEGTYGLVYKARDNQTGDIVALKKIRMDHEDEGVPSTAIREISL•LKEVQHPNIVPLKDVVYDESRLYLIFDFVDLDLKKYMESVPQLDRMQVKKFINQMIQALN•YCHQNRVIHRDLKPQNILVDIKQQNTQIADFGLARAFGLPLKTYTHEVITLWYRAPEILL•GQRQYSTPVDIWSLGCIFAEMAQKRPLFCGDSEIDQLFKIFKIMGTPKESTWPGVSTLPD•FKSTFPRWPTPTNPAATLGKDITNLCPLGLDLLSKMITYDPYARITAEEALKHAYFDELN•N•//•18与序列相关的关键词氨基酸统计数DNA代码氨基酸代码1920FASTA文件格式tr|Q9XYV1|Q9XYV1_PARTECyclin-dependentproteinkinaseCdk2OS=ParameciumtetraureliaGN=CDK2PE=4SV=1ID号名称,基本性质简要说明211.在Uniprot中查询拟南芥的光敏色素phyE编码蛋白的详细信息,阅读序列格式的解释,列出共包含哪几个部分?标出头部区主要字段的含义。2.在Uniprot中查询(1)拟南芥油菜素内酯受体gibberellinreceptorGID1C、(2)水稻独角金内酯水解酶strigolactonehydrolaseD14的蛋白质序列,这两个蛋白包含多少个氨基酸?写出它们所对应的mRNA检索号(类似于这样的格式N*_*****)、GeneID号。作业二蛋白质结构数据库•PDBProteinDataBank,美国Brookhaven国家实验室管理生物大分子三维空间结构原子坐标数据库•NCBISTRUCTURE:MMDB(MolecularModellingDataBase),包含了从PDB获取的实验确定的生物高聚物结构分子模型数据库。PDB数据库(proteindatabank)1.简介美国Brookhaven实验室1971年建立的大分子结构数据库PDB蛋白质晶体结构资料数据库(ProteinDataBank)。PDB数据库的维护由结构生物信息学研究合作组织(ResearchCollaborationforStructuralBioinformatics,RCSB)负责。2.数据来源通过实验(X射线晶体衍射,核磁共振,电子显微镜方法等)测定的生物大分子的三维结构。主要是蛋白质的三维结构,还包括核酸、糖类、蛋白质与核酸复合物的三维结构。3.数据统计截止2013年11月,PDB数据库已含有95644个结构数据,其中约92.5%是蛋白质的结构。4.数据查询PDB中的记录有唯一的PDB-ID,包括4个字符串,可由大写字母A~Z和数字0~9组合而成。PDB和它的镜像站点提供每个PDB记录的查询,可按一些专门的查询项目(如提交数据、作者姓名、结构表达)进行检索。检索演示例1:查询人类泪液载脂蛋白的结构数据(1)登陆PDB网站(2)在上方的搜索栏选中“Everything”,在文本框中输入“HUMANTEARLIPOCALIN”,单击SiteSearch按钮,出现结果。第一步:输入关键字“HUMANTEARLIPOCALIN”也可输入ID号第二步:选择人类泪液载脂蛋白1XKI数据查看:(3)分别单击标签3Dview,Sequence,Annotations,Seq.Similarity,3DSimilarity,Literature,Biol.&Chem.,Methods,Geometry观察数据信息。(4)回到Summary标签,在右侧的BiologicalAssembly区域可以观察蛋白的三维结构。(5)单击右侧目录中的DownloadFiles下载不同格式和内容的文件;或下载FASTA序列文件;也可下载PDB文件(1XKI.pdb)。第三步:观察数据信息1XKI第四步:1XKI结构展示图下载PDB结构文件5.数据结构PDB中对于每一个结构记录,包含名称、参考文献、序列、一级结构、二级结构和原子坐标等信息。每条记录有两种序列信息,一种是显式序列信息(explicitsequence),一种是隐式序列信息(implicitsequence)。在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息;PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。PDB文本文件,用写字板打开标题部分分子类别—转运蛋白该文件的公布日期该化合物的pdb代码该化合物的来源结构测定者名字REMARK是此pdb文件的参考书目、最大分辨率、注解等一级结构杂因子二级结构连接注释晶胞特征及坐标变换连通性部分坐标部分1-6“ATOM或HETATM”7-11原子序列号13-16原子名称18-20残基名22链标识符23-26残基序列号31-38X坐标39-46Y坐标47-54Z坐标55-60位置61-66温度因子79-80原子带的电荷77-78元素符号三结构显示软件-PyMOL简介指所有的对象,3ODU指刚才打开的文件,(sele)是选择的对象按钮A:代表对这个对象的各种action,S:显示这个对象的某种样式,H:隐藏某种样式,L:显示某种label,C:显示的颜色点击all中的H,选择everything,隐藏所有点击3ODU中的S,选择cartoon,以cartoon形式显示蛋白质点击3ODU中的C,选择byss,以二级结构分配颜色,选择点击右下角的S,窗口上面出现蛋白质氨基酸序列,找到1164位ITD,是配体点击选择ITD,此时sele中就包含ITD这个残基,点击(sele)行的A,选择renameselection,窗口中出现更改sele为ID
本文标题:实验四蛋白质序列、结构的获取和显示
链接地址:https://www.777doc.com/doc-6998023 .html