您好,欢迎访问三七文档
生物信息学数据库数据库介绍与数据检索1生物信息学与功能基因组学面对堆积如山的生物学数据3/131主要内容•一、分子生物学数据库简介•二、NCBI(Entrez)简介•子数据库,数据格式,数据检索,工具软件4/131•思考题:根据自己的知识和经验,你认为网上应该会有哪些分子生物学的数据库?数据库中应该存放哪些数据?应该提供什么类型的数据处理服务。•以下是一些关键词:•DNA,RNA,Protein,Genome,物种,文献,疾病,结构,蛋白质家族,Gene,染色体。。。5/131一、分子生物学数据库分子生物学数据库各自按照一定的目标收集和整理实验数据,并提供相关的数据查询、数据处理的服务,并大多提供网络服务。建立生物分子数据库生物分子数据高速增长(HGP)分子生物学及其相关领域研究人员需要迅速获得最新实验数据6/131生物数据分类•生物信息数据库种类繁多,就目前来看,大体可以分为四个大类:•1.基因组数据库;•2.核酸和蛋白质一级结构序列数据库;•3.生物大分子(主要是蛋白质)三维空间结构数据库;•4.根据以上三类数据库和文献资料为基础构建的二次数据库。也称专门数据库、专业数据库或专用数据库。一次数据库7/131生物分子信息生物分子结构数据生物分子功能数据最基本直观复杂核酸序列数据生物分子数据类型蛋白质序列数据8/131生物学数据库统计•《NucleicAcidsResearch》杂志每年的第一期中详细介绍最新版本的各种数据库。•••1核酸序列数据库•2.RNA序列数据库•3.蛋白质序列数据库•4.结构数据库•5.基因组数据库(非脊椎动物)•6.代谢酶相关产物•7.人类和其他脊椎动物基因组•8.人类基因和疾病•9.其他数据和其他基因表达数据库•10.蛋白组资源•11.其他分子生物学数据库•12.细胞器官数据库•13.植物数据库•14.免疫学数据库10/131核酸序列数据库•国际上著名的一级核酸数据库•(1)美国生物技术信息中心的GenBank••(2)欧洲分子生物学实验室的EMBL••(3)日本遗传研究所的DDBJ•数据相同•GenBank数据库每天与欧洲分子生物学实验室的核酸序列数据库(EuropeanMolecularBiologyLaboratoryNucleotideSequenceDatabase,EMBL)和日本的DNA数据库(DNADataBankofJapanDDBJ)进行数据交换,以保证数据库内容在全世界范围的同步性。12/131特殊类型核酸序列数据库:•非编码RNA数据库(ncRNA);•表达序列标签数据库(dbEST);•序列标签位点数据库(dbSTS);•miRBase;•tRNAdb等。13/131基因组相关数据库:•人类基因组数据库(HGD);•基因组序列数据库(GSDB);•基因组在线数据库(GOLD)等。14/131核酸三维结构数据库:•核苷酸三维结构数据库(NDB);•普纳大学核酸结构数据库(BNASDB)等。15/131基因表达数据库:•基因表达库(GEO);•斯坦福微阵列数据库(SMD);•ArrayExpress;•CGED;•GXD;•BodyMap等。16/131人类基因突变及疾病相关数据库:•人类基因变异数据库(HMGD)、人类遗传双等位基因序列数据库(HGBASE)、人类孟德尔遗传在线(OMIM)、国际单体型计划(HapMap)、人类单核苷酸多态性数据库(dbSNP)、肿瘤基因数据库(TGDB)、疾病关联数据库(GAD)、癌症基因数据库(CGAP)、人类表观遗传数据库(HEP)、人类DNA甲基化与癌症数据库(MethylCancer)等。17/131蛋白质序列数据库•随着分子生物学的发展,人们获得了越来越多关于蛋白质序列、结构和功能的信息。世界各国的生物学家和计算机科学家合作利用这些信息构建了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据库)、信号传导及蛋白质-蛋白质相互作用相关数据库、DNA和蛋白质相互作用数据库等蛋白质相关数据库。18/131常用的蛋白质序列数据库:•PIR•MIPS•Swiss-Prot•UniProt19/131蛋白质功能、结构域和蛋白质家族有关的数据库:•PROSITE•InterPro•Pfam•ProDom•SMART等20/131蛋白质三维结构相关数据库:•PDB•BioMagResBank•SWISS-MODELRepository•ModBase•CATH•SCOP•ReLiBase•TOPS•SWISS-3DIMAGE•BioImage等21/131蛋白质二维凝胶电泳数据库:•WORLD-2DPAGE•Phoretixlinks22/131信号传导及蛋白质-蛋白质相互作用相关数据库:•DIP•INTERACT•ProNet•KEGG•CANSITE•SPAD•CSNDB等23/131•DNA和蛋白质相互作用数据库:DPInteract•蛋白质翻译后修饰相关数据库:O-GlycBase、PhosphoBase、RES蛋白质等蛋白质24/131UniProt-通用蛋白质资源库•()是存储和链接其他蛋白质数据库的资源库,并且是蛋白质序列和具有综合功能注释目录的中心资源库。使用UniprotKB可以检索准确、可靠的蛋白综合信息。使用UniRef可以减少冗余,加速序列相似性搜索。使用UniParc可以检索存档序列和它们来源的数据库。25/131(蛋白数据库)26/131MIPS数据库•慕尼黑蛋白质序列信息中心(MIPS)(),它的重点工作是基因组生物信息学,特别注重基因组信息系统分析,包括应用生物信息学方法注释基因组、表达分析和蛋白质组学方面研究。MIPS支持和维护一系列基因组数据库以及系统,可以提供细菌、真菌和植物基因组比较分析服务。在该站点提供基因组分析工具、数据库检索系统、表达分析、蛋白相互作用等网络服务。27/131其他重要的蛋白质序列数据库:•PRINTS•Pfam29/131PRINTS•PRINTS()是蛋白基序指纹图综合数据库,每个指纹图都是使用数据扫描程序ADSP或VISTAS序列分析软件包反复优化后定义的。数据库中有两种类型指纹图,根据指纹图的复杂性分为简单和复合指纹图:简单指纹图基本上是单一的基序,而复合指纹图包含多个基序。30/131Pfam•蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称作域(domain)。在不同的蛋白质中不同的域以不同的组合出现,导致在自然界发现多种多样组成成分的蛋白质。识别出现在蛋白质中的域可以了解蛋白质的功能。•Pfam数据库()是一个大的蛋白质域家族集合,每个家族是用多序列比对和隐马模型(HMMs)分析结果的代表。31/131(结构数据库)32/131简介•ENSEMBL旨在开发一种能够对真核生物基因组进行自动诠释(automaticannotation)并加以维护的软件。该计划由英国Sanger研究所Wellcome基金会及欧洲分子生物学实验室(EMBL)所属分部欧洲生物信息学研究所(EBI)共同协作运营。•该计划开放所有源信息,所有由该计划所产生的数据及软件都可以免费及自由地从网络上获取并使用。•该计划所开发并使用的大部分软件是用Perl语言编写的,并基于BiopPerl的基础框架。其他基因组计划亦可轻易使用Perl语言的应用程序接口(Applicationprogramminginterface,API)。34/131生物过程molecularfunction分子功能cellularcomponent细胞组分。35/131NationalCenterforBiotechnologyInformation(NCBI)二、NCBI子数据库,数据格式,数据检索,工具软件。36/131NCBI•美国国家生物技术信息中心(NationalCenterforBiotechnologyInformation,NCBI)•NCBI成立于1988年,其主要工作是开发以GenBank为代表的数据库,进行计算生物学研究,开发用于分析基因组数据的软件工具,发布生物医学信息。•Entrez是NCBI著名的用于提取序列信息的工具,它将科学文献、DNA和蛋白质序列数据库、蛋白质三维结构数据、种群研究数据以及全基因组组装数据整合成一个高度集成的系统。类似于EBI的SRS,是一个查询、提取和显示系统。37/131首页38/131学习利用NCBI•=handbook39/131sitemap【旧版本】40/131第一个子数据库GenBank介绍简介•GenBank®istheNIH(美国国立卫生研究院)geneticsequencedatabase,anannotatedcollectionofallpubliclyavailableDNAsequences(NucleicAcidsResearch,2011Jan;39(Databaseissue):D32-7).Thereareapproximately126,551,501,141basesin135,440,924sequencerecordsinthetraditionalGenBankdivisionsand191,401,393,188basesin62,715,288sequencerecordsintheWGSdivisionasofApril2011.•ThecompletereleasenotesforthecurrentversionofGenBankareavailableontheNCBIftpsite.Anewreleaseismadeeverytwomonths.GenBankispartoftheInternationalNucleotideSequenceDatabaseCollaboration,whichcomprisestheDNADataBankofJapan(DDBJ),theEuropeanMolecularBiologyLaboratory(EMBL),andGenBankatNCBI.Thesethreeorganizationsexchangedataonadailybasis.42/131GenBank简介•GenBank是一个综合数据库,该数据库中包含了已经公开的30万余种不同物种生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目。•由美国国家医学图书馆的国家生物技术信息中心构建、维护和管理。
本文标题:生物数据库
链接地址:https://www.777doc.com/doc-4604079 .html