您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据结构与算法 > ChIP-Seq技术在转录因子结合位点分析的应用
ChIP-Seq技术在转录因子结合位点分析的应用摘要:染色质免疫沉淀(Chromatinimmunoprecipitaion,ChIP)技术是用来研究细胞内特定基因组区域特定位点与结合蛋白相互作用的技术。将ChIP与第二代高通量测序技术相结合的染色质免疫沉淀测序(chromatinimmunoprecipitationfollowedbysequencing,ChIP-Seq)技术能在短时间内获得大量研究数据,高效地在全基因组范围内检测与组蛋白、转录因子等相互作用的DNA区段,在细胞的基因表达调控网络研究中发挥重要作用。本文简要介绍了ChIP-Seq技术的基本原理、实验设计和后续数据分析,以及ChIP-Seq技术在研究转录因子结合位点中的。关键词:ChIP-Seq;转录因子;引言染色质是真核生物基因组DNA主要存在形式,为了阐明真核生物基因表达调控机制,对于蛋白质与DNA在染色质环境下的相互作用的研究是基本途径。转录因子是参与基因表达调控的一类重要的细胞核蛋白质,基因的转录调控是生物基因表达调控层次中最关键的一层,转录因子通过特异性结合调控区域的DNA序列来调控基因转录过程。转录因子由基础转录因子和调控性转录因子两类组成,其中基础转录因子在转录起始位点附近的启动子区,与RNA聚合酶相互作用实现基因的转录;而调控性转录因子一般与位置多样的增强子序列结合,再通过形成增强体在组织发育、细胞分化等基因表达水平调控中发挥极其重要的作用[1]。ChIP-Seq是近年来新兴的将ChIP与新一代测序技术相结合,在全基因s组范围内分析转录因子结合位点(transcriptionfactorbindingsites,TFBS)、组蛋白修饰(histonemodification)、核小体定位(nucleosomepositioning)和DNA甲基化(DNAmethylation)的高通量方法[2-4]。其中ChIP是全基因组范围内识别DNA与蛋白质体内相互作用的标准方法[5],最初用于组蛋白修饰研究[6],后来用于转录因子[7]。同时,新一代测序技术的迅猛发展也将基因组学水平的研究带入了一个新的阶段,使得许多基于全基因组的研究成为可能。相对于传统的基于芯片的ChIP-chip(chromatinimmunoprecipitationcombinedwithDNAtilingarrays),ChIP-seq提供了一种高分辨率、低噪音、高覆盖率的研究蛋白质-DNA相互作用的手段[8],可以应用到任何基因组序列已知的物种,可以研究任何一种DNA相关蛋白与其靶定DNA之间的相互作用,并能确切得到每一个片段的序列信息.随着测序成本的降低,ChIP-seq逐步成为研究基因调控和表观遗传机制的一种常用手段。此外,为了达到更好的检测效果和更为完整的信息,近年来,将ChIP-Seq和ChIP-chip两者融合的研究具有很好的应用前景[9,10]。转录因子在器官发生过程中起至关重要的作用,在全基因组水平将转录因子定位于靶基因DNA是认识转录调控网络的有效方法之一,了解基因转录调控的关键是识别蛋白质与DNA的相互作用。ChIP-Seq技术能够揭示转录因子的结合位点和确定直接的靶基因序列,可在体内分析特定启动子的分子调控机制,因此被广泛应用于转录调控机制的研究。本文主要就这一技术在转录因子结合位点研究中的基本原理、实验设计和数据分析等技术层面、以及实际应用层面进行讨论。1ChIP-seq基本原理及实验设计1.1ChIP技术蛋白质与DNA相互识别是基因转录调控的关键,也是启动基因转录的前提。ChIP是在全基因组范围内检测DNA与蛋白质体内相互作用的标准方法[11],该技术由Orlando等[12]于1997年创立,最初用于组蛋白修饰的研究,后来广泛应用到转录因子作用位点的研究中[13]。ChIP的基本原理为:活细胞采用甲醛交联后裂解,染色体分离成为一定大小的片段,然后用特异性抗体免疫沉淀目标蛋白与DNA交联的复合物,对特定靶蛋白与DNA片段进行富集[8]。采用低pH值反交联,DNA与蛋白质之间的Schiff键(-C=N-)水解,释放DNA片段。通过对目标片段的纯化与检测,获得DNA与蛋白质相互作用的序列信息。N-ChIP[14]和X-ChIP[15]是最常见的2种ChIP实验技术,前者用来研究DNA与高结合力蛋白的相互作用,采用核酸酶消化染色质,适用于组蛋白及其异构体的研究;X-ChIP主要用来研究DNA与低结合力蛋白的相互作用,采用甲醛或紫外线进行DNA和蛋白交联,然后,采用超声波将染色质断裂为小片段,适用于多数非组蛋白的蛋白质类的研究。由于生物芯片具有快速、高效、高并行性、高通量、微型化和自动化等特点,高密度生物芯片与ChIP的结合极大地方便了DNA与蛋白质相互作用的研究。1.2ChIP-Seq技术ChIP-Seq是将ChIP与新一代测序技术相结合,能够高通量地得到每一个片段精确的序列信息,其实验原理是:在生理状态下,把细胞内的DNA与蛋白质交联后裂解细胞,分离染色体,通过超声或酶处理将染色质随机切割,利用抗原抗体的特异性识别反应,将与目的蛋白质相结合的DNA片段和目的蛋白质沉淀下来,再通过反交联(ReverseCrosslink)释放结合蛋白的DNA片段。此步骤获得全基因组范围内与组蛋白或转录因子等DNA结合蛋白相互作用的DNA区段信息,这些DNA区段信息的长度大约为200bp.用新一代的测序技术测序获得36~100bp的DNA片段的序列,最后这些DNA片段将会被比对到对应的参考基因组上(图1)[16]。图1ChIP-Seq实验原理图同ChIP-Seq技术与ChIP-chip比较起来,它最大的优点在于能够精确定量分析。该技术具有许多的优点:(1)能实现真正的全基因组分析;(2)结合分辨率可精确到10~30bp;(3)所需样本量小;(4)避免了杂交等影响因素,具有更高的敏感性等。现在,分析ChIP-Seq的测序平台主要有454、Solexa、IIIumina、SOLiD和HeliScope,其中IIIumina测序是最常使用的测序方法。ChIP-Seq技术读取的序列越来越多,而成本也在不断下降。通常第二代高通量测序方法产生的是段序列,段序列在序列拼接和序列映射时会产生很多麻烦,但是在ChIP-Seq实验中,段序列具有很大价值,因为序列的结合位点通常都比较短。2ChIP-Seq数据分析ChIP-Seq的难点是测序后的生物信息学分析,DNA打碎方法、染色质开放程度的不均一性、PCR扩增偏向性、基因组的重复程度以及测序和序列比对过程中的错误都会引入系统误差造成假阳性,尽可能剔除假阳性并揭示出数据背后的机制是需要分子生物学与计算生物学工作者协同努力。对ChIP-Seq数据的处理主要分为四个部分:数据预处理、序列比对、峰值检测和模体分析。2.1ChIP-seq数据格式及预处理目前,IIIumina公司测序仪产出的测序数据基本都是FASTQ格式,即一种含有测序质量的FASTA文件[17]。FASTQ格式以测序读段为单位存储,每条读段占四行,第一行开头为“@”后接读段标识,第二行为测序出的碱基序列,第三行开头为“+”后接读段ID,因读段ID一般与第一行相同,所以有时可以省略以节省空间。第四行为测序质量,一般用字符表示,长度与第二行相同,对应于相应位置碱基的测序质量。由于测序仪器会得到较低质量的数据,为了去除一些低质量的数据需要进行预处理。此外,原始数据也可以从基因表达综合数据库GEO(GeneExpressionOmnibus)中下载得到。GEO是NCBI下的一个的基因表达的大型数据库,其最大功能是用来储存和检索公开的高通量基因表达和基因组杂交数据。当文章在科学文献上发表后,其中所产生的高通量实验数据就将放在公有领域上,供其他研究者免费下载,使得实验数据中的海量信息能够被多次分析与进一步挖掘。与此同时,部分文章会将数据传送到序列存档库SRA(SequenceReadArchive)。SRA数据库的数据集包含数据的上传时间,标题,物种,实验类型,文章引用,实验设计,下载地址,数据大小等信息。2.2序列比对由于单核苷酸多态性的存在,在短序列比对[18]时候必须要允许1-3个匹配错误,比对的时候对于不能唯一的比对到基因组的序列,可以去掉或允许多重比对,通常,多重比对带来较高的敏感度,因为它允许我们检测较低的覆盖度的区域。目前有多种序列比对工具,但是Bowtie[19]是其中最快的而内存应用效率很高的佼佼者(表1),它采用一种称作Burrow-Wheeler变换(BWT)的压缩算法对参考基因组序列进行索引,使用大约2.2GB(2.9GB用于双末端测序)的内存,就可完成人类基因组的序列比对。每小时可以比对超过25,000,000段长度为35bp的DNA序列。Bowtie还可以同时启动多个线程来加快速度,这对于多核CPU来说尤为重要。尽管大部分软件都允许在比对中插入间隙,但是对于ChIP-Seq实验来说,寻找单核苷酸多态性或者插入与缺失并不是重点。唯一序列占整体序列数量的百分比是分析人员需要重点考虑的问题。表1序列比对环节中的一些常用软件软件用途软件主要特点序列比对ELAND[20]Illumina默认软件;比对过程中不允许碱基的空缺,且比对序列长度受限。BWA[21]基于BWT(Burrows-Wheelertransform)算法;运算快速高效,比对过程中允许适度插入与缺失。MAQ[22]比对过程中不允许碱基的空缺,但能考虑到每个碱基的质量指数。SOAP[23]比对过程中允许少量碱基的空缺和错配。Bowtie基于BWT算法;速度超快,且具备高存储效率。无论从哪个方面来看,Bowtie都很合适,因此本流程采用Bowtie完成序列的比对这项工作。经过比对之后,原始的测序读段将带有其在基因组中的位置信息,或者说,该测序读段被回贴到了基因组中。2.3峰值检测峰值检测是ChIP-Seq数据分析的一个关键步骤,很多后续分析都取决于峰值检测的结果。峰值检测是根据峰富集区域来预测DNA结合蛋白在基因组上结合的区域。不同的DNA结合蛋白在基因组上的分布模式是不同的,具体体现于ChIP-Seq峰形的不同,如转录因子的峰型为尖锐状,即信号高度集中。峰值检测是一种用于鉴别读段数特别集中的区域的手段,表2列举了ChIP-Seq数据分析过程峰检测环节中常用到的软件。在峰值检测的过程中,需要综合考虑灵敏度和特异度之间的平衡,因为增加灵敏度将降低特异度,增加特异度将降低灵敏度。只有针对不同的DNA结合蛋白选择合适的峰值检测算法和数据标准化方法,才能取得灵敏度和特异度之间的最佳平衡。表2峰值检测环节中的一些常用软件软件用途软件主要特点峰值检测MACS[24]能自动将数据调整成动态泊松分布;且峰值检测过程可以不依赖对照组数据,自动进行数据拟合。PeakSeq[25]峰值检测过程中能兼顾基因组区域结构特点;通过计算FDR来确定峰富集区域。ZINBA[26]峰值检测过程中能兼顾基因组区域结构特点;可以分析尖锐状峰型和连绵状峰型两类ChIP-Seq数据。2.4模体分析模体就是DNA、蛋白质等生物大分子中的保守序列。每种转录因子都具有不同的模体特征。本文分析比较了3种不同分析平台DMINDA,MEME和CisGenome。DMINDA是一种Webserver软件[27],可以使用云计算,即将数据提交到网页服务器进行分析处理,也具有相应的客户端程序,主要运行在Windows系统下,具有处理数据快,模体分析单一性强等特点。数据经过序列比对和峰值检测之后,在经过进一步处理之后,就可以使用DMINDA进行模体分析。模体分析DMINDA软件使用步骤与结果显示如图2所示。图2(A)DMINDA主页面,选择模体分析;(B)上传数据,设置参数,提交即可开始运算;(C)显示模体分析结果MEME[28]也是一个综合性强并且应用广泛的一个WebServer软件,同样也是可以在线处理数据和客户端处理数据(主要运行于Uinix)。MEME
本文标题:ChIP-Seq技术在转录因子结合位点分析的应用
链接地址:https://www.777doc.com/doc-2905665 .html