您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 复习2-2015-526
生物信息数据库一、引言生物分子数据高速增长分子生物学及相关领域研究人员迅速获得最新实验数据建立生物分子数据库生物信息数据库几个明显的特征:(1)数据库的更新速度不断加快数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加(4)数据库网络化(5)面向应用(6)先进的软硬件配置一个数据库记录(entry)一般由两部分组成:1.原始序列数据(sequencedata)2.描述这些数据生物学信息的注释(annotation)注释中包含的信息与相应的序列数据同样重要和有应用价值。数据的完整性和注释工作量:1.序列数据广,序列注释不够完整2.库数据面窄,序列注释全面数据库的动态更新:1.不断增加2.不断修正分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库、以及由上述3类数据库和文献资料为基础构建的二次数据库。基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。v生物信息数据库一级数据库v数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库v对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。生物信息数据库染色体核酸蛋白质基因组作图序列测定结构测定基因组图谱DNA序列蛋白质序列蛋白质结构基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库•NCBINationalCenterforBiotechnologyInformation(US)•EBIEuropeanBioinformaticsInstitute(EU)•HGMPHumanGenomeMappingProjectResourceCentre(UK)•ExPASyExpertofProteinAnalysisSystem(Switzerland)•CMBICentreofMolecularandBiomolecule(TheNetherlands)•ANGISNationalGenomeInformationService(Australia)•NIGNationalInstituteofGenetics(Japan)•BICNationalBioinformaticsCentre(Singapore)国际著名的生物信息中心一级数据库简介1、核酸序列数据库国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL(2)美国生物技术信息中心的GenBank(3)日本遗传研究所的DDBJ三大主要核酸序列数据库由美国国立生物技术信息中心(NCBI)维护的一级核酸序列数据库由欧洲分子生物学实验室与1982年创建,并由欧洲生物信息中心(EBI)负责维护DDBJ(DNADatabaseofJapan)创建于1986年,由日本国家遗传学研究所负责管理相互合作,每天交换更新核苷酸序列数据•三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。•这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。•美国的核酸数据库GenBank从1979年开始建设,1982年正式运行〖Banson,D.A.etal.(1998)NucleicAcidsRes.26,17〗•欧洲分子生物学实验室的EMBL数据库也于1982年开始服务•日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。2、基因组数据库来源于人类基因组计划及各种模式生物基因组计划1977年,最早获得的生物基因组全序列是噬菌体(53kb)1995年,第一个自由生物体流感嗜血菌(H.inf)被完全测被完全测序部分生物基因组计划网址老鼠(Mouse)小鼠(Rat)狗(Dog)牛(Cow)猪(Pig)羊(Sheep)鸡(Chicken)://ratmap.gen.gu.se://locus.jouy.inra.fr/cgibin/bovmap/intro2.pl://dirk.invermay.cri.nz斑马鱼(Zebrafish)线虫(C.elegans)果蝇(Drosophila)蚊子(Mosquito)拟南芥(Arabidopsis)棉花(Cotton)玉米(Maize)水稻(Rice)大豆(Soya)树(Trees)://:8000/main.html(美国、加拿大)1990年,JohnHopkins大学建立,后由加拿大儿童医院生物信息中心管理.数据内容:基因单位、PCR位点、细胞遗传标记、EST、contig、重复片段、基因组图谱与其它分子生物信息网络资源(EMBL、GenBank…)的链接AceDB线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献…3、蛋白质序列数据库SWISS-PROT1.瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护(1986年);2.在EMBL和GenBank数据库上均建立了镜像站点;3.数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释;4.数据记录包括两部分:序列注释(结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰、突变体等)5.数据存在滞后性数据库的建立SWISSPROT的网址:的网址:()是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据SWISS-PROT有三个明显的特点:(1)注释在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括:(A)蛋白质的功能描述;(B)翻译后修饰;(C)域和功能位点,如钙结合区域、ATP结合位点等;(D)蛋白质的二级结构;(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;(F)与其它蛋白质的相似性;(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。(2)最小冗余•尽量将相关的数据归并,降低数据库的冗余程度。•如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。(3)与其它数据库的连接•对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。•现有的交叉索引有:到EMBL核酸序列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。TrEMBL()是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROTTrEMBL)包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。(2)REM-TrEMBL(REMainingTrEMBL)包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。进入网站,后在搜索栏里键入关键词,点击“GO”图标在搜索结果里找需要的信息即可PIR(proteininformationresource)1.由美国NCBI翻译自GenBank的DNA序列(1984年);2.在EMBL和GenBank数据库上均建立了镜像站点;3.数据依据注释的质量分为4类。网址:数据库的分类情况(Release51.03)分类名称(Name)PIR1PIR2PIR3PIR4说明(Comment)已分类、已注释(Classifiedandannotated)已注释(Annotated)未核实(Unverified)未翻译(Unencodedoruntranslated)记录数(Numberofentries)13572693687508196PIR(ProteinInformationResource)§目的:帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。§它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。§所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。三个子数据库输入蛋白质代码1zni后search4、蛋白质结构数据库PDB(proteindatabank)1.目前最主要的蛋白质分子结构数据库;2.1970年代建立,美国Brookhaven国家实验室维护管理;3.1988年,由美国RCSB(researchcollaboratoryforstructuralbiology)管理;4.以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等;5.PDBsum数据库:PDB注释信息综合数据库,具有检索、分析、可视化的功能。PDB的网址:(美国)PDBsum的网址:
本文标题:复习2-2015-526
链接地址:https://www.777doc.com/doc-2541142 .html