您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物信息学实验指导书
生物信息学实验指导书福建农林大学生命科学学院实验一:Pubmed[实验目的]掌握Genbank中文献数据库Pubmed的使用及其检索方法[实验原理]1.PubMedPubMed是NCBIEntrez数据库查询系统中的一个,提供免费的Medline、PreMed-line与其他相关数据库检索服务,并连接到部分期刊出版商网站,从中可获取期刊全文。PubMed提供了强大的技术支持,使用户可以非常容易地进行检索。用户可以在检索文本框中输入任意一个或多个符合自己检索要求的文字,如普通文字、关键词、医学主题词、作者姓名、杂志名称、特定时间等,按回车键或“Go”按钮,即可进行相关检索。1.1主题检索在检索框中输入一到多个单词,如键入:vitaminccommoncold,按回车键或“Go”按钮,PubMed通过自动词语匹配功能将有意义的词组合在一起检索,并将不规范的词语转换成医学主题词表(MeSH)词表中的规范用词。如输入vitaminc,系统会将检索要求转换成“AscorbicAcid[MeSHTerms]ORvitaminc[TextWord]”进行检索。如果输入的检索词包括逻辑运算符AND、OR、NOT,这些运算符必须要大写,例如:vitamincORzinc。按回车键后,PubMed将显示检索结果,同时检索框中仍然保留刚才输入的检索式。可以通过在检索框中添加或删除检索词来修改当前的检索式。1.2作者姓名检索按照姓加上名缩写的格式键入,中间无标点符号,如:“SmithJA”、“CrawfordSC”,系统会自动在作者字段内进行检索。如果只键入作者的姓,PubMed将在所有字段中进行检索而不仅在作者字段中检索,除非作者的姓在MeSH转换表中检索到,如:“Yang”将以“YinYang[MeSH]ORYang[TextWord]”形式检索。如希望限定在作者字段检索,可用双引号将作者名引起来,再加作者字段标识符[au],如:“SmithJ”[au]。1.3刊名检索可以在检索框中键入杂志全名,如:molecularbiologyofthecell,系统的“自动词语匹配”功能会自动将其转换成(“molbiolcell”[JournalName])进行检索;也可以直接键入Medline的期刊标准缩写形式如:molbiolcell,或者是键入刊物的ISSN(国际标准出版物代码)如:1059-1524进行检索。需要注意的是,如果杂志名称恰好是MeSH词表中的词,如:G3eneTherapy,Science,Cell等,PubMed会首先将这些词转换成MeSH词表中的主题词进行检索。此外,如果杂志名是一个单词,如“Scanning'’,系统将会在所有的字段中进行检索。以上两种情况下,需要将检索请求进行标准化处理,即在杂志名后面加杂志名称字段标识符[ta]。还需要注意的是,在早年的文献中,没有ISSN号。如果杂志全名中包括括弧或方括号,键入时应该予以取消,例如杂志名为:JHandSurg[Am],检索时应转成:JHandsurgAm。1.4词组检索输入多个单词时,PubMed查询词组索引,将其自动组合成符合逻辑的词组。但是有的组合词在PubMed的索引中找不到,如brca1,PubMed不会把它当作一个检索词,而是拆开进行检索。出现这种情况时,可将词组用双引号括起来,强迫PubMed将之作为一个词组整体进行检索。当词组用双引号括起来进行检索时,PubMed会关闭词语匹配和自动扩展检索功能。1.5截词检索可利用系统的截词功能获取更多的相关文献,这与检索Medline光盘时截词符的用法是相同的。截词符“*”可代表多个字符,将*加在检索词后可以表示对所有以该词开头的词进行检索,例如:bacter*,可以检出bacter、bacteria、bactrerium等词。PubMed一次昀多可以检索出150个词形变异词。如果多于150个变异词,PubMed将显示提示信息。需注意的是,截词符*空格以后的词不在检索范围内,例如infection呋包括infections,但不包括infectioncontrol等词语。另外,截词检索时,系统的自动词语匹配功能和MeSH自动扩展功能将不再被执行,例如:heartattack*将不映射到MeSH词Myocardiallnfarction,也不包括更多其他特殊词,如:MycleardialStunning;Shock;Cardiogenic。1.6其他限制性检索除上述几例外,检索词可以利用其他PubMed检索字段标识符进行限定。字段标识符及含义见下表。表检索字段标识符及说明如需要对检索条件作进一步的限制说明,如限制为近两年内发表的文献,或限制为日文文献等,可点击检索文本框下“Limits”超链接,出现检索功能栏,在其中选择特定的限制条件进行检索。[实验仪器]计算机、宽带网络[实验步骤]上机操作实践[思考题]Findreferencesaboutshinglesandfacialparalysis.--DisplaytherecordsintheformatthatshowstheabstractandtheMeSHheadings.HowdoesPubMedmaptheterm,shingles?实验二:DNAdatabases[实验目的]了解各种类型的DNA序列数据库,特别是GenBank,DDBJ和EMBL的数据记录特点及记录条目的含义。[实验原理]1GenBank数据库Genbank数据库()包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心NCBI建立和维护的。它的数据直接来源于测序工作者提交的序列、由测序中心提交的大量EST序列和其他测序数据以及与其他数据机构协作交换数据而来。GenBank每天都会与欧洲分子生物学实验室(EMBL)的数据库和日本的DNA数据库(DD-BJ)交换数据,使这三个数据库的数据同步。图2-1GenBank主页GenBank库里的数据来源于约130000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)。每条GenBank数据记录包含了对序列的简要描述、它的科学命名、物种分类名称、参考文献、序列特征表以及序列本身。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类以及EST数据、基因组测序数据、高通量基因组序列数据等16类,其中EST数据等又被分成若干个文件。完整的GenBank数据库包括序列文件、索引文件以及其他有关文件。索引文件是根据数据库中作者、参考文献等字段建立的,用于数据库查询。GenBank曾以CD-ROM光盘的形式分发,价格比较便宜。随着数据库容量的增长,一套昀新版的GenBank需要数十张光盘存放,不仅生产成本很高,也不便于使用。现在,光盘分发的方式已经停止,可以通过网络下载GenBank数据库。随着国际互联网的发展,目前检索GenBank的昀佳方式是通过万维网进行。在NCBI网站上可以轻松地检索GenBank数据库。GenBank中昀常用的是序列文件。序列文件的基本单位是序列条目,包括核苷酸碱基排列顺序和注释两部分。目前,许多生物信息资源中心通过计算机网络提供该数据库文件。下面,我们介绍序列文件的结构。序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。我们选择“SARS”检索结果中一条名为“SARScoronavirusBJ01”的序列为例,该序列为中国军事医学科学院微生物与流行病学研究所和中国科学院北京基因组研究所联合提交的SARS冠状病毒全基因组序列。如图2-2所示,序列条目的关键字包括序列名称(LOCUS)、序列简单说明(DEFINITI0N)、序列编号(ACCESSION)、核酸标识符(NID)、与序列相关的关键词(KEYWORDS)、序列来源的物种名(SOURCE)、相关文献编号,或递交序列的注册信息(REFERENCE)、特性表(FEATURES)、碱基种类统计数(BASECOUNT)及序列(ORIGIN)。新版的核酸序列数据库将引入新的关键词SV(序列版本号),用“编号.版本号”表示,并取代关键词NID。(1)LOCUS(序列名称)是该序列条目的标记,或者说标识符,历史上曾用这个名称来表示本记录描述的基因座,提交者和数据库工作人员花费了无数的时间来设计这一名称。这一成分开始于一个英文字母,总长度不能超过10个字符。第二个字符以后可以是数字或字母,所有字符均要大写。LOCUS名称在以前是昀为有用的,那时大多数DNA序列记录只表示一个基因座,这样在GenBank中寻找一个可以用少数几个字母和数字来代表生物体的独特的名字是很容易的事。经典的例子包括HUMHBB:人B一珠蛋白基因座,或SV40:猿猴病毒(拷贝之一,因为存在许多拷贝)。为了可用起见,LOCUS名称在数据库中必须是惟一的。因为几乎所有有意义的命名符都被使用过了,所以今天LOCUS名称已不再是一个有用的成分。但仍有许多软件包依赖于一个独一无二的LOCUS名称,所以数据库还不能将其彻底去掉。可行的办法是代之以一个独一无二的词,昀简单的是用一个保证不会重复的检索号码,像例子中的“AY278488”那样,以满足对LOCUS名称的要求。该字段还包括其他相关内容,如序列长度、类型、种属来源以及录入日期等。图2-2编号AY278488的记录(2)DEFINITION(序列简单说明)在GenBank记录中用以总结记录的生物意义。这一行将出现在NCBI的FASTA文件中,这样任何人进行BLAST相似性搜索时都会看到这些信息。生成这一行时要非常小心,因为许多记录生成工作可以部分地自动进行。所以数据库工作人员要检查这一行以保证信息的一致性和有效性。但是,用一行文字来说明生物背景并不总是可行的,对此不同的数据库采用了各自的解决方法。其中有一些共识,并且每个数据库也都了解其他数据库的解决方法,并尽力与之一致。(3)Accession(序列编号)具有惟一性和永久性,如本例中代码AY278488用来表示上述SARS冠状病毒的序列,在文献中引用这个序列时,应该以此编号为准。(4)KEYW0RDS(与序列相关的关键词)字段由该序列的提交者提供,包括该序列的基因产物以及其他相关信息。关键词是一个历史遗留产物,以前在很多情况下被误用了。给一个记录加上关键词通常并不十分有效,因为过去有许多序列提交者选用了不在受控词表中的词,并且在整个数据库中用法也不一致。因此,NCBI不鼓励使用关键词。像本例一样,目前很多序列提交者都不提交任何关键词。(5)SOURCE(序列来源的物种名)字段说明该序列是从什么生物体、什么组织得到的,如本例中冠状病毒(Coronavirus)。次关键字ORGANISM(种属)指出该生物体的分类学地位,如本例冠状病毒科(coronav.ridae)等。(6)REFERENcE(相关文献编号,或递交序列的注册信息)字段说明该序列中的相关文献,包括AUTH()RS(相关文献作者,或递交序列的作者),TITLE(相关文献题目)及JOURNAL(相关文献刊物杂志名,或递交序列的作者单位)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。(7)FEATURES(序列特性表起始)具有特定的格式,用来详细描述序列特性。特性表中带有“/db—xref/”标志的字符可以连接到其他数据库,如本例中的分类数据库(t
本文标题:生物信息学实验指导书
链接地址:https://www.777doc.com/doc-5245172 .html