您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物信息学数据库答案[1]
生物信息学(bioinformatics):是一门交叉学科,它包含了生物信息的获取,处理,存储,分发,分析和解释等在内的所以方面,它综合运用数学,计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。目的:揭示基因组信息结构的复杂性及遗传语言的根本规律,解释生命的遗传语言。方法:主要有创建一切适用于基因组信息分析的新方法,改进现有的理论分析方法,发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具等。应用:生物信息的存储与获取,序列比对,测序与拼接,基因预测,生物进化与系统发育分析,蛋白质结构预测,RNA结构预测,分子设计与药物设计,代谢网络分析,基因芯片,DNA计算等。1.1.3生物信息学的研究内容1、序列比对(Alignment)。2、结构比对。基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一。4、计算机辅助基因识别(仅指蛋白质编码基因)。5、非编码区分析和DNA语言研究,是最重要的课题之一。6、分子进化和比较基因组学,是最重要的课题之一。7、序列重叠群(Contigs)装配。8、遗传密码的起源。9、基于结构的药物设计。10、其他。如基因表达浦分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域。这里不再赘述。3、开放式阅读框(ORF):是基因的起始密码子开始到终止密码子为止的一个连续编码的序列。5、中心法则:包括DNA的自我复制,转录形成RNA并翻译成蛋白质,RNA的自我复制和逆转录的过程。6序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。6、算法分析:评价一个算法的优劣,通过时间复杂度和空间复杂度来确定。7、数据库管理系统:(databasemanagementsystem,DBMS)对DB进行管理的系统工程,提供DB的建立、查询、更新以及各种数据控制能。8、数据库:统一管理的相关数据的集合。9、搜索软件:对内容进行筛选,从中选择出符合用户的检索要求的内容同时进行分级排序,将结果显示出来。10、人类基因组计划(HGP):是对人类24条染色体上的3X109个碱基对(basepair,bp)序列进行测定,完成图谱绘制、测序、基因识别,及信息系统的建立。一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型;利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。3一级数据库(一次数据库):基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。一般说来,一级数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。二级数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号()表示一个新文件的开始,其他无特殊要求。4.genbank序列格式:是GenBank数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。)5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P941、GenBank:是美国国家生物技术信息中心管理的核酸序列数据库,汇集并注释了所有公开的核酸序列。2、ORF:一组连续的含有三联密码子的能够被翻译成为多肽链的DNA序列。它由起始密码子开始,到终止密码子结束。3、CDS:是编码一段蛋白产物的序列。4、BLAST:是一个基于局部比对的序列相似性搜索工具。5、EST:(表达序列标签)就是cDNA的一个片段,即一个基因编码序列的一小段。6、PDB:(蛋白质结构数据库)是美国国家实验室创建并管理的收录生物大分子晶体结构的数据库。7、Homology:(同源性)8、Similarity:(相似性)9、Orthologous:(直向同源、垂直同源)描述在不同物种中来自于共同祖先的基因。Orthologous基因可能有相同的功能,也可能没有。10、Entrez:是NCBI网站的数据库查询系统,它集成了文献数据库、核酸序列数据库、结构数据库、基因图谱数据库,是有效利用NCBI数据库资源的工具。11、EMBL:是欧洲分子生物学实验室创建的核酸序列数据库。12、DDBJ:日本国立遗传研究所创建的核酸序列数据库。13、SCOP:英国医学研究委员会的分子生物学实验室创建的收录蛋白质结构域的数据库。7.查询序列(querysequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P9814.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。17.系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。37.PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoringmatrix)探测远缘相关的蛋白。38.RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。39.PDB(ProteinDataBank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。40.GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。42.TrEMBL:是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。43.MMDB(MolecularModelingDatabase):是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。44.SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(superfamily)、家族(family)、单个PDB蛋白结构记录。45.PROSITE:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。46.GeneOntology协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。47.表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。48.比较基因组学:是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。49.简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。二、选择题(20分)1、GenBank数据库的网址是(B)A.:、PDB蛋白质数据库结构文件中上标的表示S2+方法是(D)A:S^2+BS=2+C:S2+D:S==2+==3、生物学文献数据库中可免费使用的是(C)A:OVIDB:CBIC:PUBD:BIOSISPreviews4、GBFF的数据格式中结尾标识是(A)A://B:!C:*D:5、NCBI数据库中查询使用的是(D)。A:GoogleB:BaiDUC:YahooD:EntreZ6、遗传密码特点(D)A:密码无标点。B:密码简并性。C:密码通用性。D:三者都是。7.生物信息学主要是利用哪种工具实现对生命科学研究中生物信息的存储、检索和分析的科学(B)A.人造卫星B.计算机C.手机D.以上均是E.以上均不是8.人类基因组中真正编码蛋白质的区域仅占DNA序列的(B)。A.1~2%B.3~5%C.5~10%D.10~20%9.序列文件常用的三种格式是(A)。A:NBRF/PIR、FASTA和GDE.B:PIR、FASTA和GDEC:NBRF、FASTA和GDE.D:NBRF/PIR、FASTA和GBFF10.国际上最大的公共蛋白质序列数据库是(C)A.PIRB.MIPSC.PSDD.JIPID三、填空题(20分)1、三大数据库:核酸序列数据库、蛋白质序列数据库、结构数据库世界三大核酸序列数据库:GenBank、EMBL-Bank、DDBJ蛋白质序列数据库:Swiss-Prot、TrEMBL、UniProt蛋白质结构数据库:PDB、SCOP、CATH2、GenBank提供的服务:提供了Entrez浏览器、提供PubMed服务、免费检索条生物医学文献、提供了BLAST序列类似性检索。3、进化树的四种构建方法:距离法(包括除权配对法和邻位相连法)独立元素法)包括简约法和似然法)4、Blast的方法及适用范围:核酸blastn(nucleotideBLAST)、蛋白质blastp(proteinBLAST)、blastx(translatedBLAST)、tblastn(translatedBLAST)、tblastx(tr
本文标题:生物信息学数据库答案[1]
链接地址:https://www.777doc.com/doc-5961478 .html