您好,欢迎访问三七文档
生物信息数据库1生物信息数据库产生背景上个世纪60年代以来,随着核酸序列测定、蛋白质序列测定以及基因克隆和PCR技术的不断发展与完善,全世界各研究机构获得了大量的生物信息原始数据。面对这些以指数方式增长的数据资源,传统的研究方式已经来不及迅速消化,因此有必要采用有效的方法将它们进行适当的储存、管理和维护,以便进一步分析、处理和利用,这就需要建立数据库即生物信息数据库[1]。生物信息数据库是一切生物信息学工作的基础。2生物信息数据库的特点2.1数据库种类的多样性。生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库,蛋白质序列数据库,蛋白质、核酸、多糖的三维结构数据库,基因组数据库,文献数据库和其他各类达数百种。2.2数据库的更新和增长快。数据库的更新周期越来越短,有些数据库每天更新。数据的规模以指数形式增长。2.3数据库的复杂性增加、层次加深。许多数据库具有相关的内容和信息,数据库之间相互引用,如PDB就与文献库、酶学数据库、蛋白质二级数据库、蛋白质结构分类数据库、蛋白折叠库等十几种数据库交叉索引。2.4数据库使用高度计算机化和网络化。越来越多的生物信息学数据库与因特网联结,从而为分子生物学家利用这些信息资源提供了前所未有的机遇[2]。2.5面向应用。首先各个数据库除了提供数据之外,还提供许多分析工具,如核酸数据库提供的序列搜索、基因识别程序等。此外,还在原始数据库的基础上开发了许多面向特殊应用的二级数据库,如蛋白质二级结构数据库等[3]。3生物信息数据库的分类生物信息数据库种类繁多,归纳起来,大体可以分为5个大类:核酸序列数据库、基因组数据库、蛋白质序列数据库、生物大分子(主要是蛋白质)结构数据库以及以这4类数据库和文献资料为基础构建的二次数据库。其中主要类型是序列数据库[4]。来自基因组作图的基因组数据库、来自序列测定的序列数据库以及来自X-衍射和核磁共振结构测定的结构数据库是分子生物信息学的基本数据资源,通常称为基本数据库或初始数据库,也称一次数据库。根据生命科学不同研究领域的实际需要,在一次数据库、实验数据和理论分析的基础上进行整理、归纳和注释,构建具有特殊生物学意义和专门用途的数据库即二次数据库,也称专门数据库、专业数据库或专用数据库[2,3,5]。3.1核酸序列数据库EMBL、GenBank和DDBJ是国际上三大主要核酸序列数据库。EMBL是德国海德堡市的欧洲分子生物学实验室(EuropeanMolecularBiologyLaboratory)1980年创建的,其名称也由此而来。美国国家健康研究院(NationalInstiturteofHealth,简称NIH)也于1982年委托洛斯阿拉莫斯(LosAlamos)国家实验室建立GenBank,后移交给美国国立卫生研究院国家生物技术中心(NationalCenterforBio-technologyInformation—NCBI)。DDBJ是日本静冈市的日本国立遗传学研究所于1986年创建的日本DNA数据库(DNADatabaseofJapan—DDBJ)。1988年,EMBL、GenBank与DDBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。根据协议,这三个数据库分别收集所在区域的有关实验室和测序机构所发布的核酸序列信息,并共享收集到的数据,每天交换各自数据库新建立的序列记录,以保证这三个数据库序列信息的完整性[2]。3.2基因组数据库基因组数据库的主体是模式生物基因组数据库,其中最主要的是由世界各国的人类基因组研究中心、测序中心构建的各种人类基因组数据库。小鼠、河豚鱼、拟南芥、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式生物基因组数据库或基因组信息资源都可以在网上找到[2]。3.3蛋白质序列数据库PIR和SWISS-PROT是创建最早、使用最为广泛的两个蛋白质数据库。1984年,“蛋白质信息资源”(ProteinInformationResource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。SWISS-PROT由瑞士日内瓦大学生化系A.Bairoch于1986年创建,目前由瑞士生物信息学研究所(SwissInstituteofBioinformatics,简称SIB)和欧洲生物信息学研究所(EBI)共同维护和管理。其他主要的蛋白质序列数据库还有NRl3D、TrEMBL、GenPep、NRDB和OWL等[2]。3.4生物大分子结构数据库PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)三维结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。它是由美国纽约Brookhaven国家实验室于1971年创建的。蛋白质结构分类数据库,是三维结构数据库的重要组成部分。蛋白质结构分类可以包括不同层次,如折叠类型、拓扑结构、家族、超家族、结构域、二级结构、超二级结构等。已经上网的蛋白质分类数据库很多,主要有SCOP和CATH[2]。3.5生物信息二次数据库随着基因组研究的不断深入,越来越多基因的结构和功能得到阐明,已有大量的公共数据库系统可供研究者使用。但在针对特定物种的生物信息学分类和分析方面仍有待进一步开发,这些公共数据库在内容、数据综合和检索途径上不一定能满足实际研究的需要,因此以基因组、序列和结构数据库为基础,结合文献资料,研究开发更具特色、更便于使用的二次数据库,或专用数据库信息系统,已经成了生物信息学研究的一个重要方面[2,6]。3.5.1基因组二次数据库网上有各类基因组二次数据库,法国巴斯德研究所构建的大肠杆菌基因组数据库就是基因组二次数据库的一个实例。其他的此类数据库还有德国生物工程研究所开发的真核生物基因调控转录因子数据库TransFac、真核生物启动子数据库EPD(EukaryoticPromoterDatabase)、克隆载体数据库Vector,密码子使用表数据库CUTG[2]、禾本科比较基因组数据库Gramene[7,8]、棉花微卫星标记数据库CMD[9]。3.5.2蛋白质二次数据库PROSITE(ProteinSitesandPatternsDatabase)数据库是第一个蛋白质序列二次数据库,90年代初期开始构建,现由瑞士生物信息学研究所SIB维护。蛋白质功能位点序列片段数据库PRINTS,同源蛋白家族数据库Pfam,同源蛋白结构域数据库Blocks等也属此类数据库[2]。另外,以具有特殊功能的蛋白为基础构建的二次数据库有免疫球蛋白数据库Kabat,蛋白激酶数据库PKinase等。以三维结构原子坐标为基础构建的数据库为结构分子生物学研究提供了有效的工具,如蛋白质二级结构构象参数数据库DSSP,已知空间结构的蛋白质家族数据FSSP,已知空间结构的蛋白质及其同源蛋白数据库HSSP等[2]。3.5.3文献数据库及软件目录数据库Internet上有许多生物软件目录和档案库,其中最主要的站点是美国印地安那大学的IUBio生物学软件档案和欧洲生物信息研究所EBI维护的Biocatalog软件目录[10]。3.5.4生物信息数据库集成系统生物信息数据库设计中出现了向整合发展的新潮流,如将多种图谱、数据整合到一个数据库中,在数据库中还提供众多的通向其他网络数据库的途径,以实现多功能、复合、开放的新型数据库系统。集成化还包括将数据库与数据分析软件整合,在新型的数据库系统中提供丰富的数据分析软件,为研究者分析利用数据提供方便[2]。SRS序列检索系统(SequenceRetrievalSystem)是EBI/EMBL在服务器上开发的功能十分强大的序列数据库检索系统,能够检索45个核酸和蛋白质序列数据库、三维结构库、基因数据库及其他生物信息学数据库[11]。NCBI提供的Entrez是另一个基于多种数据库可进行交叉检索的集成系统,2003年10月进行了改版,可同时进行多个数据库的跨库检索,也可根据需求选择一个或若干数据库以及数据库内的信息进行有机的链接,服务方式灵活多样,充分满足不同用户的需求[11,12]。3.5.5二次数据库的开发张荣志[6]等开发了棉花分子生物学数据库,搭建数据库的环境为利用Linux操作系统建立Web站点,选用Apache服务器和MySQL数据库,主要采用PHP实现动态数据交换。该生物学数据库系统包括用户登录系统、数据库查询系统和数据库管理系统。4生物信息数据库的利用4.1运用数据库搜索及序列比较利用生物信息学数据库对于许多新得到的序列,我们并不知道其相应的生物功能。生物学研究人员能够通过搜索序列数据库找到与新序列同源的已知序列,并根据同源性推测新序列的生物功能。搜索同源序列在一定程度上就是通过相似比较寻找相似序列的[5]。4.2运用数据挖掘技术利用生物信息学数据库数据挖掘是一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术,它能开采出潜在的知识,找出最有价值的信息,指导商业行为或辅助科学研究。目前,序列分析、基因表达、同源性研究、蛋白质结构预测以及药物设计等领域都为数据挖掘提供了广阔的研究空间,也显示出了数据挖掘在这些方面的发展潜力[5]。5生物信息数据库发展状况5.1国际发展状况2000年以前,生物信息学研究处于起步阶段,发展较为缓慢,自进入2000年以后,生物信息学数据库研究进入了快速发展阶段。研究结果主要发表在NucleicAcidsResearch、Bioinformatics、BMCBioinformatics等期刊上[13]。生物信息学数据库的研制开发主要集中在发达的欧美国家,如美国、英国、法国等。而巴西、希腊、南非等国家创建和维护的数据库很少。另一方面,无论哪一个国家,其研发的数据库并未占绝对优势。生物信息学数据库的更新频率与当前生物信息的增长极不相称,尚不能及时满足广大科研人员对生物信息的需求,有待进一步加快数据库的更新频率[4]。5.2国内发展状况北京大学生物信息中心PKUCB于1997年建立EMBnet的中国节点,同时它也是亚太生物信息网APBionet的中国节点,现在可提供92个数据库的检索与利用,这对我国的生物信息学的发展起着非常重要的作用。北京大学物理化学研究所于1996年建立了国内第一家生物信息学网络服务器。中国科学院上海生命科学研究院生物信息中心网站维护我国的核酸序列公共数据库[10]。但是与发达国家仍存在较大差距,我们应加快生物信息学数据库引进的力度,同时研制开发更多的数据库,加速国内信息网络建设,提供快捷、方便的数据库、软件和在线服务,促进我国生物信息学的发展[4]。参考文献[1]简兴,苗永美.生物信息数据库简介及在农业上的应用[J].农业网络信息,2004,(04):27~29.[2]万跃华,何立民.网上生物信息学数据库资源[J].情报学报,2002,(04):497~512.[3]孙啸,陆祖宏,谢建明.生物信息学基础[M].北京:清华大学出版社,2005.[4]胡德华,张洁,方平.生物信息学数据库调查分析及其利用研究[J].生物信息学,2005,(01):22~25.[5]姜鑫.生物信息学数据库及其利用方法[J].现代情报,2005,(06):185~187.[6]张荣志,王省芬,马峙英,etal.基于Linux+Apache+MySQL+PHP的棉花分子生物学数据库系统构建[J].棉花学报,2008,20(5).[7]LiangC,JaiswalP,HebbardC,etal.Gramene:agrowingplantcomparativegenomicsresource.[J].NucleicAcidsRes,2008,36(Databaseissue):D947~D953.[8]WareDH,JaiswalP,NiJ,etal.Gramene,atoolforgrassgenomics.[J].PlantPhysiol,2002,130(4):1606~1613.[9]BlendaA,SchefflerJ,SchefflerB,etal.CMD:aCo
本文标题:生物信息数据库
链接地址:https://www.777doc.com/doc-2199629 .html