您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 第三章数据库查询与搜索2
第三章数据库查询与数据库搜索2目录§3.1引言§3.2数据库查询§3.3数据库搜索§3.4向数据库提交序列3§3.1引言4一、数据库查询与数据库搜索的基本概念数据库查询(retrieve):也称数据库检索,是指对序列、结构以及各种二次数据库中的注释信息进行关键词的匹配查找。数据库搜索(search):是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。5区别:1手段不同查询手段:主要是通过关键词或词组(Text-baseddatabasesearching)搜索手段:主要是通过序列(Sequence-baseddatabasesearching)2目的不同查询目的:获得感兴趣的序列或结构基本信息。搜索目的:从获得的数据库序列推测未知序列的信息与功能6§3.2数据库查询7一、文献数据库检索方法1中文文献主要三个中文献数据库(清华同方、重庆维普、万方)8中国期刊网(CNKI)标准检索9专业检索快速检索10112外文文献1)扬大图书馆也有多个外文献数据库(WOS、ElsevierScience、CellPress、Springer-link、Medline、Nature等)12WOS数据库13检索结果14Elsevier数据库15利用好两个外文搜索引擎Google::谷歌学术搜索17搜索结果18文章所在出版社19PDF文件已打开可直接保存。20Yahoosearch21查询系统Entrez(NCBI,GenBank)SequenceRetrievalSystem(SRS)-----EMBLIntegrateddatabaseretrievalsystem(DBGET)二、生物分子数据库查询如何获得感兴趣的基因或蛋白的详细信息?22NCBI主页三、Entrez查询系统Entrez查询系统:是美国国家生物信息中心(NCBI)开发管理的、国际上最为著名的生物信息数据库查询系统。该系统通过“交叉引用”(cross-references)的方法将各类信息包括DNA序列、蛋白质序列、蛋白质结构信息(如结构域和三维结构)、基因组和基因图谱及著名的PubMed文献信息等有机地整合在一起。1简介网址:个数据库可同时检索25Entrez主页26Entrez既可以进行全数据库查询,又可从某一类数据库开始,然后再从所得查询结果中获得相关的其它数据库的链接。这种方式称为交叉引用.数据库之间联系的类型有两种:相近性和硬连接相近性,又称为“邻域”,它联系着一个数据库之内的记录。它又分为:序列相近性,结构相近性和文献相近性。Entrez特点27硬连接:硬连接用于联系不同数据库中的条目,只要这些条目之间存在逻辑联系,就存在硬连接。作者文章基因或蛋白数据库结构数据库28查询要点之一:两个基本检索窗口下拉菜单窗口:选择查询子库关键词输入窗口:用于输入查询关键词或词组菜单窗口关键词输入窗口2查询策略29查询要点之二:关键词的书写规则1逻辑运算符的运用:AND(与),NOT(非),OR(或)多个关键词可以用逻辑运算符连接。如:SODand(riceorwheat)JohnandAmerican[affiliation]and2009[PDAT]302相邻或短语检索(adjacencysearchingandphasesearching):如检索词:16SRNA1)默认状态下检索结果同16SANDRNA2)若作为一个短语检索,则应加双引号“”,即“16SRNA”313检索词范围限定:利用[]设置检索入口,缩小检索范围格式:XXX[限定词]Entrez系统所用的部分常用限定字段及相应的GenBank参数说明32举例:human[orgn]AND50:60[slen]AND2004[MDAT]33344数字检索词的范围限定格式检索范围的上限与下限用冒号‘:’分开,格式:XX:YY[限定词]如3000:4000[SLEN],表示序列长度在3000到4000之间。分子量,时间,序列长度等。355使用作者检索格式:lastnamefirstname[限定词]如JohnsonD[AUTH]文献,序列,结构等366模糊检索就是用不完整的字词加“*”进行检索格式:XX*[限定词]如:bac*[orgn]37查询要点之三:辅助选项的巧妙使用38Limits不同的子库对应不同的Limits选项。NucleotideStructure39高级检索(Advanced)402000/01/01之后有关玉米的SOD的核序列4142查询要点之四:利用子库之间的交叉引用进行信息查询43查询要点之五:全库查询2008.3.5443查询结果保存与下载1)免费申请一个myNCBI2)将查询结果保存至myNCBI3)每一次查询结果都要定义一个文件名3.1保存结果在myNCBI45MyNCBI中已保存的检索结果463.2利用sendto保存结果利用sendto保存检索结果可有三种方式:1)保存为文件(file)2)保存到剪贴板(Clipboard)3)保存到MyNCBI(collections)结果文件又根据检索数据的不同可保存为若干类型的文件。4748结构数据库结果存为文件的类型仅2种。49文献数据库检索结果的保存页面Bibliography文献50四、SRS查询系统SRS,是SequenceRetrievalSystem的缩写。由欧洲分子生物信息学实验室开发管理,是目前欧洲各国主要生物信息中心必备的数据库查询系统。特点:•是一个开放的数据库查询系统,即不同的SRS查询系统可根据需要安装不同的数据库。1简介•与Entrez差不多,既可查询序列数据库,也可以检索Medline文献数据库512SRS系统使用方法三种查询方法:Quicksearch,standardqueryform,extendedqueryform选择查询数据库选择查询方式点击Search获得查询结果数据库检索基本路线52(1)快速查询(QuickSearch)53(2)标准查询(StandardSearch)A、选择数据库54AND(&);OR(|);NOT(!)B、输入检索条件(在QueryForm中)55(3)扩展查询(StandardSearch)56(4)全库检索后,利用Refine在初次检索结果中进行二次查询。57DBGET是日本京都大学化学研究所开发的。五、DBGET检索工具数据库查询界面59KEGG,KyotoEncyclopediaofGenesandGenomes.Thegenomeisablueprintoflife,encodedintheDNAsequenceconsistingorfourletters,A,C,G,andT.ThankstothecontinuoustechnologydevelopmentssincetheHumanGenomeProjectinthe1990s,thegenomesequencesofhumansandmanyotherorganismscannowbedeterminedrapidlyandcost-effectively.However,itisnotreadilypossibletounderstandbiologicalimplicationsoflivingsystems,suchasorganismbehaviorsanddiseases,fromthegenomesequenceinformationalone.Tocopewiththisproblem,KanehisaLaboratorieshasdevelopedbioinformaticstechnologiestotranslatesequenceinformationintowiringdiagraminformation(molecularinteraction/reactionnetworkinformation)ofthelivingsystem.Thishasfacilitatedbiologicalinterpretationandenabledintegration,especiallywithinformationaboutdiseases,drugs,andenvironmentalcompounds.ThedictionaryforthistranslationiscalledKEGG60硫代谢途径示意图616263§3.3数据库搜索64在分子生物学研究中,对于新测定的核酸序列或氨基酸序列,如何获得其基本信息,研究其相关功能?要解决这些问题最简单的方法就是和其它已知序列进行比较,根据其相似性推断其功能。这种方法在生物信息学中称为序列比对(SequenceAlignment)寻找相似序列有哪些方法呢?Blast、FastA等搜索工具65符号含义说明GGGuanineAAAdenineTTThymineCCCytosineRGorAPurineYTorCPyrimidineMAorCAminoKGorTKetoSGorCStronginteraction(3Hbonds)WAorTWeakinteraction(2Hbonds)HAorCorTNot-GBGorTorCnot-AVGorCorAnot-T(not-U)DGorAorTnot-CNGorAorTorCAny遗传密码表66氨基酸字母表67相似性(Similarity):是指序列比对过程中用来描述序列与目标序列之间相同DNA碱基或氨基酸残基序列所占比例的高低。是一个可定量指标。同源性(Homology):指从一些数据中推断出的两个基因或蛋白质序列具有共同祖先的结论,属于质的判断。二者区别与联系三层含义:序列相似,氨基酸残基特性相似,结构相似1用相似性来判断同源性,但具有相似性不一定具有同源性。2相似性高的序列不一定是同源性序列,判断同源性还需要实验证实。一、基本概念68局部相似性:是指序列比对过程中仅考虑部分序列区域的相似性。整体相似性:是指序列比对过程中从全长序列出发考虑序列整体的相似性。蛋白质功能位点往往由较短的序列片段组成,这些序列往往具有较高的保守性。局部比对比整体比对具有更高的灵敏度,其结果也更具生物学意义。实际应用中整体比对获得的结果往往不能反映实际的生物学意义。691、打分矩阵(WeightMatrices)1)核酸打分矩阵等价矩阵表BLAST矩阵二、序列比对的得分系统702)氨基酸打分矩阵712、空位罚分体系目的:空位的引入是为了补偿插入和缺失对序列相似性的影响,但不能太多。缺点:空位罚分体系目前尚缺乏理论依据,而更多地带有主观色彩。7个配对11个配对罚分方法有两种:固定罚分和仿射罚分[Wx=g+r(x-1)]72三、BLAST搜索是NCBI开发的目前最常使用的数据库搜索工具,它是BasicLocalAlignmentSearchTool(基本局部相似性比对搜索工具)的缩写。基本过程:首先找出检测序列和目标序列之间相似程度最高的片段,并作为内核向两边延伸,以找出尽可能长的相似性序列片段。特点:1)运行速度快2)使用最为广泛73五种基本的Blast搜索方式74Blast主页75BLAST基本搜索过程粘贴序列或选择文本设置参数占击:BLAST点击:FORMAT获得检测序列的搜索结果76搜索实例(ABA82129,SOD,蛋白序列)第一步:选择合适的搜索方
本文标题:第三章数据库查询与搜索2
链接地址:https://www.777doc.com/doc-2121323 .html