您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 第六章NCBI数据模型
第六章NCBI数据模型前言数据模型什么是数据模型生物学家大都熟悉用动物模型来研究人体疾病。尽管人体疾病有可能在动物中找不到完全相同的形式,但某种动物疾病和人体疾病有相当多的类似性质使我们可以从动物疾病中获得的数据来推断人体的疾病过程。通过将肌肉想象成弹簧和水压活塞的组合,将骨骼想象成杠杆臂,可以得到描述肌肉骨骼运动的数学模型。这样的模型可以对更多复杂的生物系统进行有意义的预测和检验。显然,如果模型与描述的实际现象可以更加接近或精致,则它对所模拟的自然现象的预测和理解就更有意义。八年前,NCBI介绍了一种新的序列相关信息模型。这种新模型使基于Entrez系统的完整数据库GenBank的建立以及相应的软件得到快速的发展。该模型具有如下优点:它能轻而易举的从已公布的说明的DNA序列映射到编码蛋白,到基因的染色体设计,到三维蛋白质的结构(见第5章)。该模型的优点对生物学家使用Entrez有很大的帮助。但是很少有生物学家了解该模型的基础。当基因信息变得越来越丰富,越来越复杂的情况下,出现了很多符合GenBank数据,且模型本身更好理解的实际数据模型。这一章不深入讨论细节,只介绍一些实用的索引及NCBI模型所起的作用。模型的一些例子GenBank数据是以DNA为中心角度的数据报告(见第2章),也就是以CDS特征为代表的一段编码蛋白质的DNA序列。限定符/translation=MLLYY描述了将CDS特征翻译成的氨基酸顺序。其它的DNA特征(例如mat-肽)有时被GenBank数据应用来描述未命名蛋白质(部分由/translation描述)的切分产物,但这不是一种令人满意的解决方法。相反,大多数蛋白质序列数据库以蛋白质为中心角度,这样可能完全失掉其与编码基因之间的联系,或者只是间接的用序列号表示其联系(这并不提供准确的对基因突变分析有重要作用的密码子--氨基酸对应关系)。NCBI数据模型直接构造了包含DNA和蛋白质序列的模型。翻译的过程是由两种序列间的关系决定而不是由一种对另一种的解释确定。和蛋白质相关的注解(例如肽切分产物)是由蛋白质序列特征直接注释。这样,用BLAST或其他序列搜索工具去分析由CDS特征得到蛋白质序列就变容易了,尽管返回基因时可能会丢失精确的中间联系。一组DNA序列和由它翻译的蛋白质被称为核酸—蛋白质组,它是NCBI为使用这些数据的中间数据。GenBank数据格式只是人类可读的一种特殊数据形式。它失去了有联系的序列集合,而倒退回比较熟悉的那种序列(以DNA为中心的视角)。Entrez的目标是更直接的反映数据的低层结构。由BLAST实现的从GenBank到蛋白质序列的翻译实际上是从蛋白质—核酸组得到蛋白质序列。PartA:LOCUSRNKOR11757bpDNAROD25-MA-1995DEFINITIONRattusnorvegicuskappaopioidreceptorgene,exon1and2.ACCESSIONU17993NIDg727256KEYWORDS.SEGMENT1of3…LOCUSRNKOR2658bpDNAROD25-MA-1995DEFINITIONRattusnorvegicuskappaopioidreceptorgene,exon3.ACCESSIONU17994NIDg727257KEYWORDS.SEGMENT2of3…LOCUSRNKOR34048bpDNAROD25-MA-1995DEFINITIONRattusnorvegicuskappaopioidreceptorgene,exon4andcompletecds.ACCESSIONU17995NIDg727258KEYWORDS.SEGMENT3of3PartB:LOCUSRNKOR6463bpDNAROD25-MA-1995DEFINITIONRattusnorvegicuskappaopioidreceptorgene.ACCESSIONZZ123456NIDg2182225KEYWORDS.SOURCENorwayrat.ORGANISMRattusnorvegicusEukauyotae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;Eutheria;Rodentia;Sciurognathi;Myomorpha;Muridae;Murinae;Rattus.REFERENCE1(base1to1757)AUTHORSYakovlev,A.G.,Krueger,K.E.andFaden,A.I.TITLEStructureandexpressionofaratkappaopioidreceptorgeneJOURNALJ.Biol.Chem.270,641-6424(1995)MEDLINE95204422PUBMED7896774REFERENCE2(bases1to1757)AUTHORSYakovlev,A.G.TITLEDirectSubmissionJOURNALSubmitted(02-DEC_1994)AlexanderG.Yakovlev,GeorgetownUniversitySchoolofMedicine,Neurology,3900ReservoirRd.,Washington,DC20007,USAFEATURESLocation/QualifiersSource1..1757/organism=”Rattusnorvegicus”/strain=”Sprague-Dawley”/sex=”maile”CONTIGjoin(U17993:1..1757,gap(200),U17994:1..658,gap(),U17995:1..4048)图6.1A:从GenBank中一条记录的部分。GenBank格式仅仅指出了记录是有顺序的序列的一部分;它不提供关于其他部分是什么或它们之间如何联系的。完整的该记录见=2182225&form=6&db=n&Dopt=gB:新的CON中片段代表,新的GenBank格式的延续,容许片段记录之间建立联系,CONTIG行可以包含单个序列,已知长度的间隔,未知长度的间隔。尽管这种格式中没有特征及序列,但每个组成成分仍以传统格式表达。GenBank格式也隐藏了一些DNA序列的多序列性。例如一般意义上,一个基因的三个外显子是有顺序的,或是被侧面的非编码区或DNA内含子密集包围着,而内含子的整个长度是没有被测序的。这时候在GenBank的数据中会有三条记录,每一个对应一个外显子。没有一个特征能清楚地代表该编码区完整的序列顺序(三个外显子是有一定的顺序并被一定长度的未翻译的DNA序列隔断)。在GenBank格式中,这时会有SEGMENT行指出第一个记录是SEGMENT1of3、第二个记录是SEGMENT2of3、第三个记录是SEGMENT3of3,但这仅告诉使用者这是一些没有确定顺序的片段(图6.1A)。从整个GenBank角度来看,使用一种被称为LOCUS的算法将无序片段正确定位,组合在一起的片段使用相同的起始字母,以不同的数字结尾,例如RNKOR1,RNKOR2,RNKOR3。显然当LOCUS名字中包含其它与该序列不相关的干扰时,这种复杂的安排会遇到问题。况且还没有一个序列记录包含了全部的片段,也没有任何方法可以描述片段之间的距离。因为在EMBI序列数据库中根本没有分割片段的信息,所以任何从这种形式派生出来的记录都缺乏一些基本的信息。NCBI数据模型定义了一种直接代表片段的格式,被成为“片段序列”。其包含的元素不是A,G,C,T,而是由怎样从其它序列构造的方法组成。所以以上面的例子为例,片段序列将包含:RNKOR1-200bp间隔-RNKOR2-未知长度的间隔-RNKOR3。该片段序列和其他记录一样有自己的名称(RNKOR)、序列号、特征、位点和注解。通常我们将这种形式的存储方式称为包含RNKOR1、RNKOR2、RNKOR3、所有中间联系和特征的序列RNKOR片段集。当GenBank以核酸-蛋白质组形式发行时,片段集被分成多条记录,片段集就消失了。然而从Entrez图的视角看片段集,片段集象一条线将它的组分连接在一起。DDBJ/EMBL/GenBank最近同意了一种方法用于代表构造结构,它将被放在新的CON分割中(图6.1B)。不同于GenBank格式,NCBI片段序列不要求片段间有间隙,事实上片段可以重叠。这使得片段序列适合用于代表诸如细菌基因的长序列,这恰恰就是Entrez基因分离细菌基因和其它诸如酵母等全染色体基因中所做的。NCBI软件工具包(Ostell,1996:见本章末尾的内部资源)包含了搜集数据的功能,包括序列和特征,自动将小的个体片段重新映射到全染色体上。这为图象视角、GenBank结构视角、FASTA视角或对离散数据进行全染色体分析提供了可能。这种根据命令在大范围区域内组装片段的能力已经在细菌基因中有所应用。在越来越大的区域进行拼接或者许多不同组拼接时组装命令将越来越重要,而且这种基于大规模单片段基础上处理的思想是完全不现实的。ASN.1处理方法NCBI数据模型经常被提到或和“NCBIASN.1”或“ASN.1数据模型”混淆。AbstractSyntaxNotation1(ASN.1)是国际标准组织(ISO)的标准之一,是为描述结构数据和保障允许各计算机和各种软件之间交换结构和内容可靠翻译数据。说一个数据模型是用ASN.1写的就象一个计算机程序是用C或FORTRAN写的,指明了语言而不是指程序本身。从特殊的以DNA为中心的视角来看,熟悉的GenBank格式实际是的给人读的,而ASN.1是为计算机读的,并且有复杂的数据关系的描述。从这个简单的形式看,我们创造了一系列的人可读的格式如Entrez,GenBank和BLAST数据库。没有这些一般意义上的格式的存在,Entrez(见第5章)中相邻或连接关系的存在是不可能的。这一章是关于NCBI数据的结构和内容以及它作为生物药学数据库和工具的作用。关于这个任务和格式的ASN.1选择参见Ostell,1995。定义方式我们已经对NCBI数据模型所定义的序列举了几个例子,可以看出NCBI数据类型相比GenBank更加丰富、描述更加清晰。该模型的重点是它的细节问题,我们在下面将它进行展开。在这里我们简单地介绍一下该模型大致的理论和基本原理。将数据输入计算机的目的有两个:重现和发现。重现是基本的能够找回它原来的本身。尽管这很重要,但如果能比找回本身得到更多的信息,也就是说能从信息中得到发现,这当然是更有价值的。从识别数据库中完全不相关的两条数据中发现它们之间的关系,或者对数据进行新角度的分析计算,科学家能从中得到发现。强调NCBI数据模型就是为了促进这种发现,从而定义了能描述信息间的联系和适合计算的数据模型。对这种模型的第二个考虑是稳定性。NCBI是美国国家机构而不是由个人赞助的,因此成员对支持生物信息的努力有长远的考虑。NCBI提供了大规模的能支持科学研究几十年的信息系统。就所有关于生物药学方面的人士所知,在近几十年内,可能会有许多概念性和技术上的革命,所以NCBI必须适应这些新的观点,适应对软件和数据新的要求。所以我们尽量选用基本观察或数据点的主要数据元素,不考虑解释的核心和这些元素的命名(这些都很可能会发生变化)。综合考虑上述原因,NCBI有四个核心元素:文献出处,DNA序列,蛋白质序列和三维结构。另外两个项目(分类和基因图)更具解释性,但是不管怎样,它们和组织和联系方面一样重要所以NCBI在这个领域内建立了一个相当大的基础。出版物出版物是科学研究的核心。科学信息从这里进行检查、评价、传播和永久的记录。出版物可以说是活的连接实际中不同结构或内容域的数据库的桥梁(例如某序列数据库中的一条记录和基因库中的某条记录可能出自同一篇文章)。
本文标题:第六章NCBI数据模型
链接地址:https://www.777doc.com/doc-2157893 .html