您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第三章核酸数据库的应用
第三章核酸数据库的应用数据库涉及到的内容主要包括两大部分:数据库组织和数据库开发工具。就核酸数据库而言,前者有NCBI、EBI以及日本生物信息学服务器等;后者包括序列相似性搜索基本工具Entrez,BLAST和FASTA。核酸数据库的应用包括两个主要方面,即数据库查询(databasequery)和数据库搜索(databasesearch)。数据库查询和数据库搜索是分子生物信息学中两个常用序语。数据库查询是指对序列、结构以及各种二级数据库中的注释信息进行关键词匹配查找。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。第一节常用的核酸数据库一、GenBank-NCBI核酸序列数据库1、GenBank核酸序列数据库的检索GenBank数据库的简单查询是在NCBI首页上的Search中直接查询检索窗口利用著者进行查询时,输入格式应为作者的姓加上名的缩写。如:Thomas点击点击也可以用序列登记号(accessionnumber)进行一般查询,如:AF477385点击高级检索是通过NCBI的Entrez检索系统实现。Entrez是NCBI的数据库检索查询系统的核心。利用Entrez系统,可以检索GenBank和其他数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集,以及有Pubmed获得Medline的生物医学文献数据。Entrez提供方便实用的检索服务,所有操作都可以在网络浏览器上完成。利用Entrez界面提供的限制条件(Limit键)、索引(Index键)、检索历史(History键)和剪贴板(Clipboard键)等功能实现复杂的检索查询工作。进入NCBI的Entrez主页,用户可以选择组成Entrez系统的五个数据库之一作为查询起点。如以Nucleotide开始。选择Nucleotide即进入EntrezNucleotidesearch界面,点击Limits进入限定检索界面。如上图。完成各限制条件后,点击Go即进行检索。2、NCBI中的GenBank数据的格式LOCUSDEFINITION序列名称基因定义ACCESSION序列编号序列接受号或登记号VERSION序列版本号DATE序列提交、创建和更新日期DISCRIPTION序列简要描述KEYWORDS与序列相关的关键词SOURCE序列的来源种属ORGANISM序列的来源分类REFERENCE参考文献编号或递交序列信息REMARK参考文献评述MEDLINE参考文献交叉索引或递交序列在Medline中的存取号TITLEAUTHER参考文献作者或递交序列作者TITLE参考文献题目JOURNAL参考文献出处FEATURES序列特征表起始COMMENT序列注释信息BASECOUNT序列起始标志ORIGEN序列数据·LOCUSTG29EDGP839bpDNAlinearINV18-APR-1998DEFINITIONToxoplasmagondiiDNAencodinga29kDGRA.ACCESSIONY13863VERSIONY13863.1GI:2231107KEYWORDS29kDaprotein;densegranuleprotein;p29gene.SOURCEToxoplasmagondiiORGANISMToxoplasmagondiiEukaryota;Alveolata;Apicomplexa;Coccidia;Eimeriida;Sarcocystidae;Toxoplasma.REFERENCE1(bases1to839)AUTHORSFischer,H.G.,Stachelhaus,S.,Sahm,M.,etal.TITLEGRA7,JOURNALMol.Biochem.Parasitol.91(2),251-262(1998)PUBMED95665181:Y13863.ReportsToxoplasmagondii...[gi:2231107]REFERENCE2(bases1to839)AUTHORSFischer,H.G.TITLEDirectSubmissionJOURNALSubmitted(16-JUN-997)FischerH.G.,InstituteforMedicalMicrobiologyandVirology,Heinrich-Heine-UniversitaetDuesseldorf,Universitaetsstr.1,D-40225Duesseldorf40225GERMANYFEATURESLocation/QualifiersCDS79..789Entrez用途检索大分子生物学数据获取GenBank,EMBL等数据库的核酸序列;获取Swiss-prot,PIR,PRF,PDB等蛋白质序列;从核酸序列翻译到蛋白质的序列;获取基因和染色体图谱;蛋白质三维结构数据及大分子模式(MMDB)等其他生物信息数据库检索。PubMed书目文献数据。Entrez生命科学搜索引擎Entrez跨库检索检索字段限制分子类型选择基因位置限定序列片段限定数据更新日期限定功能栏核酸序列检索序列存取号基因定义数据库标识符代码物种来源参考文献特性专业评论碱基数原序列复制后,可到BLAST中进行相似性对比二、EMBL-欧洲核酸数据库EMBL数据库共有Genomes、Simplesequenceretrieval和SRS(序列提取系统)三种检索方式。1、Genomes提供已完成测序的基因组数据,用户可以通过生物分类名称以分层点击浏览的方式获取相关信息,通过相关链接,用户可获得大量已完成测序的基因组数据。网址为:、Simplesequenceretrieval:直接输入序列接受号检索核酸序列。网址:、SRS(序列提取系统):是目前生物信息界应用最为广泛的数据库系统。网址:检索序列时只需用鼠标点击“Search”,在输入框中输入拟检索的信息即可。SRS的详细信息参见:三、DDBJ-日本DNA数据库包括Getentry、SRS、Afgate&TAIS、Homology等几种方法。前四种用于检索DDBJ数据库中原始数据,Homology采用FASTA/BLAST检索对用户提供的序列或片段做同源性分析。1、Getentry:通过登录号检索DDBJ核酸数据库,最多可同时输入10个号码进行检索,各号码之间用空格或“,”分隔,连续号码可用“-”表示。还可用Locusname、Genename、Productname、P-ID、Clonenumber和Patent号等检索。2、SRS:有快速检索和高级检索两种途径。快速检索可同时选择多个数据库进行检索,并且它只对来自“ID”、“Molecule”、“Discription”、“AccNumber”、“Keywords”、“Source”“Organism”、“Authors”、“Title”及“Comment”等10个默认字段的信息进行检索。3、Afgate&TAIS:比较简单的关键词检索途径,在检索框内输入检索策略,点击startsearch按钮即可完成。第二节常用的RNA数据库及软件一、Transterm---mRNA序列和翻译调控元件数据库1、Transterm数据库简介Transterm数据库由新西兰Otago大学生物化学系构建并维护,是一个mRNA序列和翻译调控元件数据库。Transterm设计的目的是研究mRNA的构成以及翻译过程中的调控信号。Transterm中收录的mRNA序列包括多种功能成分,既可以对一种物种进行分析,也可以借此进行信息查询。每一个从GenBank内提取的mRNA被分成以下部分:功能成分,起始编码区,终止编码区,即5’-UTR、3’-UTR和翻译信号的侧翼序列。网址:、Transterm数据检索Transterm提供每一物种密码子使用表格,还提供描述mRNA中已知的基序或特征的模式的总结。通过Transterm来源于GenBank的编码区可被分割为5’侧翼、起始区、全编码区、终止区、3’侧翼。在Transterm的界面使用与数据库文件和有关数据库相关联的图表,可以搜索所有或部分数据库内容,找寻任一条符合条件的模式或用户自定义的模式。二、RDP-11-------核糖体数据库由Maidak等人创建,提供一切与核糖体有关的数据、程序及相关服务计算机程序,包括rRNA在线数据分析、进化分类系统树、rRNA相似序列的排列、序列注释、rRNA二级结构图以及各种相似序列比较分析和显示软件。网址:、简介2、RDP-Ⅱ数据库提供的分析工具(1)ProbeMatch:分析特异探针在数据库中出现的频率(2)SequenceMatch:通过nearestneighbors算法确定与用户序列最相近的RDP-Ⅱ序列。(3)SequenceAlign:对使用者的数据进行排列,找到与使用者序列最相近的RDP-Ⅱ序列。(4)SimilarityMatrix:计算RDP-Ⅱ和/或使用者序列的相似性/不相似性矩阵。(5)ChimeraCheck:检查用户序列是否为嵌合型。(6)AlignmentSlices:从RDP-Ⅱ全排列数据库中抽取兴趣部分,与相邻序列精简压缩为一个序列,突出邻近序列的差异性.(7)SequenceSelection:从动态展示的等级分类中选取序列,选出的序列可被下载并进行RDP-Ⅱ其他软件分析。(8)T-RFLP:以ABI测序系统格式使用数据,建立一个相似性矩阵。(9)TAPT-RFLP:在RDP数据库中进行“T-RFLP实验”,利于设计与分析。(10)(Sub)Trees:一种Javaapplet,可以用来展示、操纵种属进化系统树,产生新分支,或选取序列进行其他的RDP-Ⅱ分析。(11)PCA(principalComponentanalysis):对那些较大的序列系统进行图象化处理,PCA可通过网页上的“SopplementaryMateriallinks”找到。三、RNA二级结构预测借助计算机生物学可以很好地利用已知的RNA序列进行二级结构预测乃至三级结构建模。目前较成熟并实现自动化的软件主要在二级结构预测的水平上。1、ViennaRNA软件包综合了两种算法来预测RNA二级结构:一种是最小自由能的动态规划算法,另一种是McCaskill的分割函数算法。除RNA折叠外,还可计算给定二级结构的RNA能量、RNA比热及采用字符串联配或编辑计算二级结构间距离,还为反折叠提供一种算法,搜索给定二级结构的RNA序列。2、MFOLDZuker的主页含众多RNA结构站点的超链接,作为RNA相关网站的导航站点。该站点可以下载最新mfold软件,也可以将序列提交给Zuker的mfold服务器完成。其中RNAstructure是Zuker预测RNA二级结构的Windows9X/WindowsNT版本,可以免费下载。3、RNAdraw其主页详细介绍了程序的安装、原理、使用和前景。大多数RNA二级结构预测均可在大型计算机上完成,一般实验室不具备这些条件。4、RNA世界可能是最全面的RNA站点,其超链接包括各种数据库站点、网络工具、序列、二级结构以及相关软件。可以很方便地根据PDB(proteindatabank)代码或者NDB(nucleicaciddatabase)代码来查找所需要RNA的结构信息,同时提供包括研究方法、参考文献、可视化图象软件及相关数据库等信息。5、其他核酸数据库HIVData
本文标题:第三章核酸数据库的应用
链接地址:https://www.777doc.com/doc-4582179 .html