您好,欢迎访问三七文档
背景随着后基因组(post-genomics)时代的来临,基因组学的研究重心开始从阐明所有遗传信息转移到在整体分子水平对功能进行研究。这种转变的一个重要标志是产生了功能基因组学(functionalgenomics)。任务功能基因组学的主要任务之一是进行基因组功能注释(Genomeannotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用等。意义快速有效的基因注释对进一步识别基因,研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,预测和发现蛋白质功能,揭示生命的起源和进化等具有重要的意义。(GeneAnnotationDatabase)基因注释数据库产生的原因一、研究人员已经掌握了大量的全基因组数据,同时关于基因、基因产物以及生物学通路的数据也越来越多,解释生物学实验的结果,尤其从基因组角度,需要系统的方法。二、在基因组范围内描述蛋白质功能十分复杂,最好的工具就是计算机程序,提供结构化的标准的生物学模型,以便计算机程序进行分析,成为从整体水平系统研究基因及其产物的一项基本需求。基因本体数据库是GO组织(GeneOntologyConsortium)在2000年构建的一个结构化的标准生物学模型,旨在建立基因及其产物知识的标准词汇体系,涵盖了基因的细胞组分(cellularcomponent)、分子功能(molecularfunction)、生物学过程(biologicalprocess)。GO数据库最初收录的基因信息来源于3个模式生物数据库:果蝇、酵母和小鼠,随后相继收录了更多数据,其中包括国际上主要的植物,动物和微生物基因组数据库。GO术语在多个合作数据库中的统一使用,促进了各类数据库对基因描述的一致性。从整体上来看GO注释系统是一个有向无环图(DirectedAcyclicGraphs),包含三个分支,即:生物学过程,分子功能和细胞组分。8注释系统中每一个结点(Node)都是基因或蛋白的一种描述,结点之间保持严格的关系,即“isa”或“partof”。(细胞质)(细胞器)(线粒体)(细胞器膜)9isa·isa→isapartof·partof→partof10partof·isa→partof与isa·partof→partof11由参与合作的数据库来完成的,它们使用GO的定义方法,对它们所包含的基因产物进行注释注释需要反映在正常情况下此基因产物的功能,生物过程,定位等注释必须提供支持这种基因产物和GO术语之间联系的证据12检索和浏览GO注释数据13GO浏览:GO语义可以归为三个独立的部分:biological_process、cellular_component、molecular_function。语义之间有类似树的组织结构,点击每行前面的□+便展开包含于该项的所有语义,同时□+变为□-,再次点击□-,展开的项目收缩回原状。每一条语义单独地占据一行,14191.用关键词检索GO数据库先进入AmiGO的首页。在GO数据库中,每条记录都有一个数据标识号GO:XXXXXX和对应的术语。因此检索时需要知道待查基因的数字标识号或术语,将它们直接输入框中检索即可。如果检索的基因或蛋白质存在别名,可在检索框下勾“geneorproteins”,并在检索框中输入别名检索;“exactmatch”表示是否完全匹配,可供选择。检索goterm212223检索基因或蛋白以检索神经源性分化因子6(NEUROD6)为例。在检索框中输入“NEUROD6”并勾选“geneandproteins”和“exactmatch”,运行后所得基因产物检索结果如图所示。此图显示了该基因产物的基本信息,包括类型、物种、别名来源和序列此图显示了该基因产物的术语关联(TermAssociations)图,图中记录名称“Term”是GO记录的名字,“Ontology”是该基因产物的特性,如要查看其分子功能,可点击其中的一条记录“nervoussystemdevelopment”。人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》此图上部先对神经源性分化因子6的相关信息做简单描述,中间术语系谱(TermLineage)成阶梯状分布,记录了GO数据库中全部分子功能所处的位置和关系。下方“ExternalReference”提供了与外部相关数据的链接。点击上图右上方的可视化视图(GraphicalView)就更清晰地显示了分子功能记录之间构成的复杂网状结构,既有上下隶属关系,也存在平行关系。2.用序列检索GO数据库对于未知基因名的序列,可以用序列直接检索GO数据库。点击AmiGO首页上方的“BLAST”。界面风格类似于其他数据库BLAST搜索的网页,在检索框中铁如氨基酸或核酸序列,网页能自动识别并相应地做BLASTP或BLASTX和数据库中的序列比对。这里以检索RPIA基因的序列为例,如图所示。mltlpfdesvvmpesqmcrkfarqcedqkqikkpesfpkqvvlrgksikrapgeetekee人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》1.简介京都基因与基因组百科全书(KyotoEncyclopediaofGenesandGenomes,KEGG)是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。KEGG提供的整合代谢途径查询十分出色,包括碳水化合物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,还对催化各步反应的酶进行了全面的注解,包含其氨基酸序列的链接等。此外,KEGG还提供基于Java的图形工具访问基因组图谱、比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具。因此,KEGG数据库是进行生物体内代谢分析、代谢网络分析等研究的强有力工具之一。人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》KEGG通常被看作是生物系统的计算机表示,它囊括了生物系统中的各个对象以对象之间的关系。在分子层面、细胞层面、组织层面都可以对数据库进行检索。每个数据库中的检索条目按照一定规律被赋予一个检索号,也就是ID。表中列出了KEGG的13个核心数据库的检索号。人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》物种特异的pathwayColorcodingThepathwaymapwithoutcoloringistheoriginalversionthatismanuallydrawnbyin-housesoftwarenamedKegSketch.Theotherpathwaymapswithcoloringareallcomputationallygeneratedasfollows.Referencepathway:thisistheoriginalversion;whiteboxesarehyperlinkedtoKO,ENZYME,andREACTIONentriesinmetabolicpathways;theyarehyperlinkedtoKOandGENESentriesinnon-metabolicpathways.Referencepathway(KO):blueboxesarehyperlinkedtoKOentriesthatareselectedfromtheoriginalversion.Referencepathway(EC):blueboxesarehyperlinkedtoENZYMEentriesthatareselectedfromtheoriginalversion.Referencepathway(Reaction):blueboxesarehyperlinkedtoREACTIONentriesthatareselectedfromtheoriginalversion.Organism-specificpathway:greenboxesarehyperlinkedtoGENESentriesbyconvertingKnumbers(KOidentifiers)togeneidentifiersinthereferencepathway,indicatingthepresenceofgenesinthegenomeandalsothecompletenessofthepathway.页面以表格的形式列出了该基因有关的详细信息,包括基因编号,基因的详细定义,所编码的酶的编号,基因所在通路,以及序列的编码信息。KEGGPATHWAY还存储了一些人类疾病通路数据,这些疾病通路被分为六个子类:癌症、免疫系统疾病、神经退行性疾病、循环系统疾病、代谢障碍、传染病循环系统疾病。KEGGDRUG数据库也在不断的完善,其中的药物数据几乎涵盖了日本的所有非处方药和美国的大部分处方药品。DRUG是一个以存储结构为基础的数据库,每条记录都包含唯一的化学结构以及该药物的标准名称,以及药物的药效、靶点信息、类别信息等。药物的靶点通过KEGGPATHWAY查询,药物的分类信息是KEGGBRITE数据库的一部分,通过药物的标准名称可以找到该药物的商品名,还可以找到药物销售的标签信息。此外,DRUG还包括一些天然的药物和中药的信息,有些药物被日本药典所收录。(GeneSetEnrichmentAnalysis)一组基因直接注释的结果是得到大量的功能结点。这些功能具有概念上的交叠现象,导致分析结果冗余,不利于进一步的精细分析,所以研究人员希望对得到的功能结点加以过滤和筛选,以便获得更有意义的功能信息。富集分析方法通常是分析一组基因在某个功能结点上是否过出现(over-presentation)。这个原理可以由单个基因的注释分析发展到大基因集合的成组分析。由于分析的结论是基于一组相关的基因,而不是根据单个基因,所以富集分析方法增加了研究的可靠性,同时也能够识别出与生物现象最相关的生物过程。1、富集分析算法富集分析中常用的统计方法有累计超几何分布、Fisher精确检验等、Z值法等。累计超几何分布:Fisher精确检验:2、常用富集分析软件这里以目前应用较为广泛的DAVID为例对基因集进行具体分析。DAVID是一个综合工具,不但提供基因富集分析,还提供基因间ID的转换、基因功能的分类等工具。人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》3、富集分析应用软件DAVIDDAVID:TheDatabaseforAnnotation,VisualizationandIntegratedDiscovery功能注释基因功能分类•ID转换•相似基因查找1.直接从EXCEL里粘贴或从文件导入2.选择所粘贴或基因标识的类型3.Genelist或background,即,所提交的是感兴趣的基因还是整张芯片的基因4.提交如果出现这个提示框,说明没有匹配上的基因比较多。Option1:照常提交,但它只计算匹配上的Option2:先用ConversionTool转换再提交可根据基因的匹配情况进行选择基因的匹配情况列表信息及编辑(选定,重命名,删除,组合及显示基因列表)Background一般系统会自动选好,如果没选好,可以去DAVID自带的Background里查找设置,或自行上传选择所要做的分析列表可循环利用于后面的所有分析,无需重复上传概述,是否找到按照ID来源的概述,点击图标集体转换每个ID的详细列表,点击图标单独转换转好之后点击提交之后在这里会出来新转换的l
本文标题:基因注释与功能分类
链接地址:https://www.777doc.com/doc-3622603 .html