您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 第三章-GenBank数据库检索及其应用(2013)
GenBank数据库检索及其应用——Entrez检索功能分子生物学数据库的应用•可以分为两个主要方面–数据库查询(databasequery)–数据库搜索(databasesearch)。数据库查询•定义:是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。•如:在蛋白质序列数据库SwissProt中输入关键词insulin(胰岛素),即可找出该数据库所有胰岛素或与胰岛素有关的序列条目(Entry)数据库检索•它和互联网上通过搜索引擎(Searchengine)查找需要的信息是一个概念。•是数据库查询的一种数据库搜索•定义:在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。•通过数据库搜索,可以在序列数据库中找出与该检测序列(querysequence)具有一定相似性的序列。数据库查询、检索和搜索•在生物信息学中,数据库搜索是专门针对核酸和蛋白质序列数据库而言,搜索的对象,不是数据库的注释信息,而是序列信息•数据库查询和数据库搜索在生物信息学中是两个完全不同的概念,所要解决的问题、所采用的方法和得到的结果均不相同NCBI网站简介数据库是由美国国立生物技术信息中心(NCBI)维护的一级核酸序列数据库。GenBank数据库的数据来源有三种:1、直接来源于测序工作者提交的序列;2、与其它数据机构协作交换的数据;3、美国专利局提供的专利数据。简介GenBank数据库检索界面1、基本检索界面GenBank数据库基本检索界面GenBank数据库基本检索界面GenBank数据库基本检索界面GenBank数据库基本检索界面Nucleotide数据库分为三个子数据库:•EST:表达序列标记数据库•GSS:基因组测序序列数据库•CoreNucleotide:包含所有未被以上两个子数据库收录的核苷酸序列简介GenBank数据库检索界面1、基本检索界面2、跨库检索界面GenBank数据库跨库检索界面跨库检索界面跨库检索界面简介GenBank数据库检索界面基本检索功能(一)字段限制检索GenBank数据库基本检索功能“ras”GenBank数据库基本检索功能“ras”检索限定词:1、基因名称的检索限定词:[GENE]or[GENENAME]2、生物体名称的检索限定词:[ORGN]or[ORGANISM]3、作者姓名的检索限定词:[AUTH]or[AUTHOR]GenBank数据库基本检索功能“ras”[GENE]GenBank数据库基本检索功能“ras”[GENE]简介GenBank数据库检索界面基本检索功能(一)字段限制检索(二)特殊标志符检索特殊标志符的格式(核酸序列):1、序列辨认号(GI):一串阿拉伯数字e.g.:266458390GenBank数据库基本检索功能GI:266458390特殊标志符的格式(核酸序列):2、GenBank/EMBL/DDBJ序列接受号:(1)1个字母+5个阿拉伯数字e.g.:U12345(2)2个字母+6个阿拉伯数字e.g.:AY123456,Af1234561、序列辨认号(GI):一串阿拉伯数字e.g.:266458390GenBank数据库基本检索功能AF044895(1)mRNA记录(NM_*):e.g.:NM_000492(2)基因组的DNA重叠群(NT_*):e.g.:NT_000347(3)完整的基因组或染色体(NC_*):e.g.:NC_000907(4)基因组的局部区域(NG_*):e.g.:NG_000019(5)从人类基因组注释、加工得到的序列模型(XM,XP,orXR_*):e.g.:XM_000483特殊标志符的格式(核酸序列):3、RefSeq(ReferenceSequence)序列接受号:GenBank数据库基本检索功能NM_021284特殊标志符的格式(核酸序列):4、PDB序列接受号:1个阿拉伯数字+3个字母e.g.:1TUP序列接受号的检索限定词为[ACCN]or[ACCESSION]简介GenBank数据库检索界面基本检索功能(一)字段限制检索(二)特殊标志符检索(三)序列长度检索GenBank数据库基本检索功能1510[SLEN]GenBank数据库基本检索功能简介GenBank数据库检索界面基本检索功能(一)字段限制检索(二)特殊标志符检索(四)范围检索(三)序列长度检索范围检索:中间用冒号连接1、序列接受号范围检索:AF114696:AF114714[ACCN]2、序列长度范围检索:3000:4000[SLEN]3、日期范围检索:2005/01:2006/09/26[MDAT]or[PDAT]简介GenBank数据库检索界面基本检索功能限制检索功能GenBank数据库限制检索功能GenBank数据库限制检索功能GenBank数据库限制检索功能数据发布日期GenBank数据库限制检索功能数据发布日期GenBank数据库限制检索功能数据修改日期GenBank数据库限制检索功能数据修改日期GenBank数据库限制检索功能检索字段GenBank数据库限制检索功能检索字段GenBank数据库限制检索功能“ras”GenBank数据库限制检索功能GenBank数据库限制检索功能“ras”GenBank数据库限制检索功能序列片段的显示GenBank数据库限制检索功能序列片段的显示GenBank数据库限制检索功能数据来源GenBank数据库限制检索功能数据来源GenBank数据库限制检索功能分子类型GenBank数据库限制检索功能分子类型GenBank数据库限制检索功能基因定位GenBank数据库限制检索功能基因定位GenBank数据库限制检索功能排除某种类型的序列简介GenBank数据库检索界面基本检索功能限制检索功能高级检索功能GenBank数据库高级检索功能GenBank数据库高级检索功能hepatitisbGenBank数据库高级检索功能乙型肝炎索引GenBank数据库高级检索功能GenBank数据库高级检索功能GenBank数据库高级检索功能序列特性关键词索引GenBank数据库高级检索功能GenBank数据库高级检索功能GenBank数据库高级检索功能GenBank数据库高级检索功能GenBank数据库高级检索功能(“sts”[Featurekey])AND“ras”[gene])简介GenBank数据库检索界面基本检索功能限制检索功能高级检索功能检索结果的显示GenBank数据库检索结果的显示GenBank数据库检索结果的显示GenBank数据库检索结果的显示GenBank数据库检索结果的显示序列特性表GenBank记录中特性表中的主要关键词:关键词解释关键词解释misc_feature生物学特性无法用特性表关键词描述的序列promoter转录起始区misc_difference序列特性无法用特性表关键词描述的序列CAAT_signal真核启动子上游的CAAT盒,与RNA结合相关conflict同一序列在不同的研究中在位点或区域上有差异TATA_signal真核启动子的TATA盒unsure序列不能确定的区域-35_signal原核启动子中的-35框old_sequence该序列对以前的版本做过修订-10_signal原核启动子的Pribow盒variation包含稳定突变的序列GC_signal真核启动子的GC盒modified_base修饰过的核苷酸RBS核糖体结合位点gene已识别为基因或已命名的序列区域polyA_signalRNA转录本的剪切识别位点misc_signal无法用信号特性关键词描述的信号序列enhancer增强子关键词解释关键词解释attenuator与转录终止有关的序列CDS蛋白质编码序列terminator转录终止序列sig_peptide编码信号肽的序列rep_origin双链DNA复制起始区transit_peptide转运蛋白编码序列misc_RNA无法用RNA关键词描述的转录物或RNA产物mat_peptide编码成熟肽的序列prim_transcript初始转录本intron内含子precursor_RNA前体RNApolyA_siteRNA转录本的多聚腺苷酸化位点mRNA信使RNArRNA核糖体RNA5’clip前体转录本中被剪切掉的5’端序列tRNA转运RNA3’clip前体转录本中被剪切掉的3’端序列scRNA小细胞质RNA5’UTR5’非翻译区snRNA小核RNA3’UTRexon3’非翻译区外显子snoRNA加工和修饰rRNA的小核RNA关键词解释关键词解释immunoglobulin_relatedrepeat_unit单个的重复元件C_region免疫相关蛋白上的不变区LTR长末端重复序列D_segment免疫球蛋白重链的可变区,T细胞受体β链Satellite卫星重复序列J_segment免疫球蛋白重链、轻链以及T细胞α、β、γ的结合链misc_binding无法描述的核酸序列结合位点N_region插入重排免疫球蛋白片段间的核苷酸primer_bind复制、转录的引物结合位点S_region免疫球蛋白重链的开关区protein_bind蛋白质结合区V_region编码免疫球蛋白的可变区N末端的序列STS测序标签位点V_segment编码免疫球蛋白的可变区的序列misc_recomb无法用重组特性关键词描述的重组事件repeat_region基因组中所包含的重复序列iDNA通过重组所消除的DNA关键词解释关键词解释misc_structure无法用结构关键词描述的核酸序列高级结构或构型stem_loop发夹结构D_loop线粒体中DNA中的取代环GenBank记录中特性表中的限定词:限定词含义限定词含义/allele=给定基因的等位基因/codon_start=相对于序列第一个碱基,编码序列密码子的偏移量/bound_moiety=嵌合范围/country=DNA样本的来源国/cell_type=获得序列的细胞类型/db_xref=其他数据库信息的交叉索引号/citation=已被引用的参考文献数/direction=DNA复制方向/clone_lib=获得序列的克隆文库/environmental_sample=序列直接从环境材料中获得而没有指明来源物种限定词含义限定词含义/exception=指明DNA序列未按通常的生物学规律翻译,如RNA编辑/PCR_conditi-ons=描述PCR的反应条件/frequency=在种群中发生变异的频率/pop_variant=获得序列的群体变异种名称/germline如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于未重排DNA/product=序列编码产物的名称/insertion_seq=序列来源于某种插入元件/anticodon=tRNA反义密码子的位置及它所编码的氨基酸/isolate=序列来源的生物个体/cell_line=获得序列的细胞系/lab_host=为扩增序列来源物种所用的实验室宿主/chromosome=获得序列的染色体/macronuclear指明DNA来源于染色体分化的大核期/clone=获得序列的克隆子/note=评论及附加信息/codon=指出与参考密码子不同的密码子/organelle=获得序列的细胞器/EC_number=序列产物的酶学编号限定词含义限定词含义/cons_splice=区分内含子剪切位点和“5‘-GT.AG-3'”剪切位点/map=相关特性在基因图谱上的
本文标题:第三章-GenBank数据库检索及其应用(2013)
链接地址:https://www.777doc.com/doc-1370118 .html