您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物信息学数据库课件
生物信息学数据库生物信息学数据库一:重要生物信息中心简介二:重要生物信息数据库生物数据库序列数据库flatfile格式三:数据库检索工具简介Entrez,SRS一、生物信息数据库引言生物分子数据高速增长分子生物学及相关领域研究人员迅速获得最新实验数据建立生物分子数据库生物分子数据库应满足5个方面的主要需求(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性生物分子数据库几个明显的特征:(1)数据库的更新速度不断加快数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加(4)数据库网络化(5)面向应用(6)先进的软硬件配置生物分子数据库一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的二、重要生物信息中心BioinformaticsCentresNCBINationalCenterforBiotechnologyInformation(US)(EU)://(UK)(Switzerland)(Japan)(Germany)美国国家生物技术信息中心PubMed()是NCBI维护的生物学、医学文献引用数据库,提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。EMBL欧洲分子生物学实验室欧洲分子生物学网络组织(EMBnet)EuropeanMolecularBiologyNetworkEMBnet为国际著名生物信息学组织,为世界各国提供生物信息资源,并合作进行生物信息的研究、开发、应用和人才培训。://日本核酸数据库瑞士蛋白质分析专家系统://://://://://://三、重要生物信息数据库序列数据库(EMBL,GENBANK,SWISSPROT,PIR)结构数据库(PDB)基因组数据库(GDB,ACeDB)其它(EPD、TRANSTAC)生物数据库的种类DBCatDBCat是生物信息数据库的目录数据库,它收集了500多个生物信息学数据库的信息,并根据它们的应用领域进行了分类–DNA–RNA–蛋白质–基因组–图谱–蛋白质结构–文献著作等基本类型,()://ftp.infobiogen.fr/pub/db/dbcat数据库目录(一)Dbcat统计的生物信息数据库的数目分类数据库数目分类数据库数目DNA87RNA29蛋白质94基因组58基因图谱29蛋白质结构18文献43其他153Currenttotal:511序列数据库核酸序列数据库(EMBL、GenBank)常用蛋白质序列数据库(Swissprot,PIR)结构数据库蛋白质结构数据库(PDB)蛋白质分类数据库(SCOP,CATH)基因组数据库GDBACeDB二次数据库序列数据库主要核酸序列数据库:EMBL、GenBank,DDBJ主要蛋白质序列数据库:Swissprot,PIR核酸序列数据库国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL(2)美国生物技术信息中心的GenBank(3)日本遗传研究所的DDBJ核酸序列数据库三个数据库中的数据基本一致,仅在数据格式上有所差别。对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。美国的核酸数据库GenBank〖Banson,D.A.etal.(1998)NucleicAcidsRes.26,1-7〗从1979年开始建设,1982年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务;日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务InformationOverload从那个时候以来,DNA序列的数据已经从80年代初期的百余条序列,几十万碱基上升至现在的100x109碱基!这就是说,在短短的约23年间,数据量增长了近百万倍。蛋白质数据库数据库说明网址链接PDB蛋白质三维结构蛋白质序列数据库蛋白质序列数据库非冗余蛋白质序列核酸序列数据库的翻译数据库核酸序列数据库蛋白质数据库PROSITE蛋白质功能位点从序列模建结构http//三维结构图示蛋白质二级结构参数已知空间结构的蛋白质家族蛋白质分类数据库蛋白质家族和结构域蛋白质数据库种类和特点名称维护单位注释冗余度数据量更新PIRNCBI、JIPID、MIPS部分完善较大较大较慢SwissProtEBI、SIB完善小不大较慢NRL3DNCBI完善小小较慢TrEMBLEBI、SIB不完善大大快GenPeptNCBI不完善大大快NRDBEBI一般小大较快OWLHGMP一般小大较慢•目的:帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。•它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。•所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。1、PIR(ProteinInformationResource)除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。三个子数据库2、SWISS-PROTSWISS-PROT()是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据SWISS-PROT有三个明显的特点:(1)注释在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括:(A)蛋白质的功能描述;(B)翻译后修饰;(C)域和功能位点,如钙结合区域、ATP结合位点等;(D)蛋白质的二级结构;(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;(F)与其它蛋白质的相似性;(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。(2)最小冗余•尽量将相关的数据归并,降低数据库的冗余程度。•如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。(3)与其它数据库的连接对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。现有的交叉索引有:到EMBL核酸序列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。TrEMBL()是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROTTrEMBL)包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。(2)REM-TrEMBL(REMainingTrEMBL)包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。3、TrEMBL4、PROSITE•PROSITE()是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。•PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。•PROSITE还包括根据多序列比对而构建的序列统计特征
本文标题:生物信息学数据库课件
链接地址:https://www.777doc.com/doc-5214439 .html