您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 酒店餐饮 > 基因表达谱芯片的数据挖掘
书书书中国生物工程杂志 ChinaBiotechnology,2009,29(10):87~91檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪殏殏殏殏综 述基因表达谱芯片的数据挖掘尤元海 张建中(中国疾病预防控制中心传染病预防控制所传染病诊断室)摘要 随着基因芯片技术的迅速发展,表达谱芯片分析及aCGH等方法已被广泛应用于生命科学各个研究领域,由此产生的数据也呈指数级增长。如何从海量数据中获取有生物学意义的结果成为摆在生物学工作者面前的难题。对表达谱芯片数据挖掘方法进行了综述。介绍了基本分析思路,当前重点分析方向,如GO分析、pathway与调控网络分析、聚类分析等计算法则和相关几款易用的分析软件。并介绍了几种科学自由计算软件在表达谱生物信息学分析中的应用。藉此为从事芯片分析的研究人员提供参考。关键词 基因芯片 表达谱分析 数据挖掘中图分类号 Q819收稿日期:20090514 修回日期:20090817科技部社会公益项目(2004DIB2J065)通讯作者,电子信箱:zhangjianzhong@icdc.cn 基因芯片是近二十年分子生物学领域发展起来的革命性技术之一,以其高通量快速并行的特点加快了生命科学研究的步伐。近几年随着表达谱芯片技术的日趋成熟,大量研究结果产生了海量的生物学数据,怎样从这些纷繁的基因表达数据中读懂其中蕴含的生物学意义成为摆在生物学工作者面前的一个新的难题。近几年芯片数据挖掘的一些新方法新思路在一定程度上降低了这项工作的复杂性,要很好地理解数据,不仅要明确研究目的和背景,掌握一些具有多种功能的生物统计分析软件也是必不可少的。目前针对基因表达谱芯片数据分析开发的在线和离线程序有几十种之多,对数据分析方法的报道也有很多,主要集中在数据前处理和聚类分析、判别分析方法方面,侧重于原理的介绍,而大多数从事芯片研究人员面对的一系列问题是:数据分析从何入手,哪些分析是必要的,有哪些易用的开源的程序可供使用,怎样能够快速选择并掌握合适的分析手段。本文拟针对以上问题就目前常用的表达谱芯片数据分析方法及各自特点作一综述,并结合相关研究心得介绍几款易用的软件,希望能够为芯片分析工作提供参考。1 表达谱数据分析思路 尽管不同类型商业芯片的设计和检测方法有所不同,但所得结果的形式都大体相同,即为一定数量的差异基因列表,这些差异基因即为与实验处理因素相关的基因,基因数量往往有成百上千个。合理的芯片分析策略一般在实验前需要明确,一种思路是从总体上宏观地概括抽取信息,如不同样本间、不同时间点间全部差异基因的GO分析,从GO分类结果找到实验涉及的显著功能类别;将差异基因映射到通路,根据基因在通路中的位置及表达水平的变化算出受影响显著的通路;聚类分析找出共表达模块,从而预测未知的基因功能等。对于时间序列数据还可以构建新的调控网络。另一种思路是根据研究背景及文献挖掘结果选取感兴趣的部分深入分析在本次实验中的表达及功能变化,这样会更容易得到比宏观分析具有更重要意义的结果。对于表达谱数据分析通常没有一种通用的方法或软件适合于所有数据,就所得结果的可读性来讲一些商业软件展示界面更美观、功能更齐全,但往往需要较高的版权费用。如Genespring,PathwayArchitect,PathwayAssist。每种软件都有其各自的优势特点,所以分析之前要对各类软件加以了解,根据需要选择合适的软件,或者选择几种软件交互使用。无中国生物工程杂志ChinaBiotechnologyVol.29No.102009论用哪种方法,都应该紧密结合研究背景分析数据而不是仅仅基于纯数学的分析。2 表达谱数据的GO(GeneOntology)分析 早期基因芯片差异基因分析面临的主要问题是如何与已知的生物学知识相结合以及从哪里获取这些生物学知识。人们首先想到的是结合生物学通路信息,但通路数据库如KEGG、SWISSPROT所包含信息非常分散,缺乏系统的组织结构化。本体学概念的引入为基因功能数据挖据提供了新的思路,一套本体实际上是一套词汇表,一套基因本体(GeneOntology,GO)也就是一套与基因有关的树状的词汇表[1]。GO数据库目前主要由GO研究所维护,是一个用于生物功能注释术语分类的开放资源。由于近年来分子生物学的快速发展,有关基因功能注释的信息也在飞速增长,为了便于管理查询和进行基因功能的分析,GO数据库综合了包括生物学进程、分子功能、细胞组分三个类别的基因本体术语分类,对不同信息源的信息进行整合、统一和标准化,以DAG(定向非循环表)结构组织起来,每个父节点下包含若干子节点,子节点可以作为下一层级的父节点进一步展开,分支延伸越远,展开越详细,匹配的GO条目就越具体。在这个层级结构中,一个生物学注释可以由一个基因集合表示,层级结构中不同的等级水平的条目具有不同数量的基因集合。在GO数据库及其系列分析程序问世之前,差异基因的功能分析是非常繁复费时的工作,研究者需要花费数月时间检索大量以往的相关文献来分析与基因相关的功能,GO分析不仅可以使这一工作在数分钟内完成,而且结果也更加准确可信,大大降低了假阳性的发生。目前已有多种免费GO分析工具可用,如AmiGO(http://amigo.geneontology.org),既可以搜索某个基因相关的GO术语,也可以检索某个术语相关的全部基因。其它的还包括Gostat,Gominer,Ontoexpress,DAVID,Fatigo等[2~5]。差异基因GO分析的关键是用统计学方法进行基因富集,分析这些基因参与了何种生物学功能、生物进程以及亚细胞定位,目前常用的基因富集法是基于超几何分布,用Fisher精确检验或卡方检验完成的。Fisher精确概率检验适于小样本量的计算(小于5),对于大样本计算(大于5)卡方检验更为快速准确。算法详见参考文献[6]。下面以OntoExpress为例说明基因富集算法。OntoExpress[6]是一个图形界面操作方便结果美观易读的分析软件,以差异基因列表及表达值作为inputfile,以所用芯片上的全部基因作为referencefile,找出差异基因相关的GO分类,用卡方检验计算P值,检验差异基因中与某功能条目F有关的基因是否显著,也就是判断GO分布数据是否符合随机分布的标准。GO分布结果可以分别以饼图和条图的形式展示,还可以p值大小排序,便于分析。一般取基因数大于3,校准p值(correctedpvalue)<0.05的条目作为显著性结果。P值的生物学意义决定于所提交的基因列表,例如,如果列表中均为上调基因而某功能条目显著,则认为此实验因素作用可能使这个功能激活;相反如果为下调基因并且某条目显著,则认为实验因素作用可能使这个功能抑制。3 Pathway分析与调控网络的推导3.1 pathway分析 传统的分子生物学研究侧重于生物体单一成分的研究,并未考虑到生物体内部成分间的相互作用和层次性关联,近些年系统生物学在探讨生物系统整体性质功能方面发挥出越来越重要的作用。系统生物学的宏观思路为分析生物体内部多个基因蛋白多层次的非线性相互作用及其复杂的动态网络的发展变化提供了强有力的支持[7]。系统生物学实际上基于生物通路方面的研究结果。目前较为全面的通路数据库包括KEGG,BIOCARTA等。Kegg(Kyotoencyclopediaofgenesandgenomes)[8]是由日本京都大学生物信息中心维护的开放的生物通路数据库。以新陈代谢通路为主。biocarta主要是信号转导通路,它的一个主要特点是研究者可以任意提交自行绘制的所涉及的通路,biocarta没有对其准确性作分析验证。GenMAPP提供了一定数量的生物学通路,并提供了便于分析的图形用户界面,研究者可根据需要绘制通路图。 芯片数据通路分析的第一步是差异基因的通路定位,一些商业软件如Genespring可以做到,基于EASE算法的开放在线程序DAVID也可以实现定位[9]。目前的通路分析方法还存在很多局限性,例如只注意到基因集合定位到了哪个通路而忽略了其在通路中的位置,如果一个通路由某个基因产物触发或被单个受体激活,并且特定的蛋白没有表达,这个通路就会受到严重影响甚至关闭;相反,如果多个基因与某个通路相关但都只出现在通路的下游,那么其表达水平的变化就可能不会对通路造成很大影响。另外,一些基因往往有多个功能分布于不同的通路发挥不同的作用,要得882009,29(10)尤元海等:基因表达谱芯片的数据挖掘到相对准确的结果还必须考虑通路的拓扑结构。目前很少有能将基因差异表达值变化应用于通路分析的方法,Pathwayexpress[10]提出了一种基于IF(impactfactor)的通路分析方法,IF值的计算基于两个模型③和④,综合了差异基因的标化的差异表达值、通路中基因的统计学显著性以及信号通路的拓扑学三方面内容。模型具体算法详见参考文献[10]。Pathwayexpress主要基于KEGG库,结果输出中自动把差异基因以不同颜色定位于通路中,红色为上调,蓝色为下调,这些定位着上调和下调基因的通路图可以在java控制台中找到绝对路径,在浏览器中打开或保存,也可以GML格式导出,然后直接导入cytoscape[11],用merge节点功能把多个相关pathway连接起来,显示互作网络,并分别以红蓝色显示显著性通路中上调下调的基因(节点),以及这些基因与其他基因间的相互作用(边),可以从不同视角观察其位置,不断放大就可以看到节点的基因名称。 PF(g)=△E(g)+ucUS8+βug·PF(u)Nds(u) ③ IF(Pi)=log(1Pi)+g∈Pi|PF(g)||△E|·Nde(Pi) ④ 其他的可视化工具还有pathwaystudio,genmapp,arrayxpath,osprey等。Biolayout也是一款分子作用网络展示工具,所不同的是结果为三维图形界面。[12]3.2 基因调控网络的推导 调控网络以单个基因为节点,以其相互作用为边,如果两节点间存在调控关系则边为有向的。无标度性是大多数生物网络的拓扑特性,其特点是多数节点拥有少量连接,而少数节点拥有大量连接,这些高连接节点即为决定网络整体性质的关键性的节点中枢。 非时间序列数据主要采用高斯图形模型和贝叶斯网络模型进行推导。高斯图形模型算法主要包括总体相关系数的计算、基因与基因间偏相关系数的计算和显著性假设检验。Schafer等[13]针对高斯模型中的假设的可靠性不足的问题改进了求解偏相关系数矩阵的方法,并引入了贝叶斯模型,从而提高了模型的可信度。这些模型的缺点是推导出的基因互作网络不具方向性,而调控网络一般都具有很强方向性,所以这种非方向性的网络很难给予准确的生物学解释。 时间序列数据主要应用动态贝叶斯概率模型,由Friedman[14]在2004年提出,用于分析调控网络结构已知、基因表达动力学参数未知的情况,结合了调控蛋白浓度变化与靶基因表达速率变化的关联关系来描述,但基因网络拓扑结构的确定也是一项繁复的工作。DREM(DynamicRegulatoryEventsMiner)是一款用于基因转录调控动力学建模分析的软件。输入时间序列表达谱数据和相关转录因子调控的基因,计算基于存在交互作用的已注释的数据,输出一个动态调控图,图中高亮显示出时间序列中的分叉,即为时间序列中存在调控作用关系的节点。由于目前对转录因子及其调控基因了解还比较少,所以这个软件的应用仍受制于TFreferencefile数据的有限性,尽管如此,DREM仍为此类自动化分析方法的发展提供了一个很好的模式[15]。 Pujana等[16]建立了一个用于鉴定乳腺癌相关基因的网络模型,以4个已知的编码乳腺癌肿瘤抑制因子的基因BRCA1、BRCA2、ATM、CHEK2为参照,结合不同物种的功能基因组和蛋白质组的共表达谱数据构建了一个包含118个基因、涉及866种功能的网络,这个集成的网络模型提出了一个把网络元件的可能性由低到高分类的分级系统,HMMR是
本文标题:基因表达谱芯片的数据挖掘
链接地址:https://www.777doc.com/doc-359803 .html