您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > RNA高通量组学研究
RNA高通量组学研究田巍,BGItianwei@genomics.org.cn转录组表达谱表达谱二代小RNA测序分析降解组分析转录组表达谱表达谱二代小RNA测序分析降解组分析Ref-seqDenovo-seqmRNA分析流程mRNA分析基因结构优化可变剪接分析融合基因分析预测新转录本SNP分析表达量分析基因结构优化首先,将reads比对到基因组,提取基因组中被uniquemappingreads覆盖的次数大于或等于某阈值(默认为2)且位置连续的区域作为转录活性区(TranscriptionActiveRegion,TAR,图中蓝色方块区域);然后通过paired-endreads(图中紫色线条)将不同的TAR连接形成潜在的genemodel;最后,通过比较潜在genemodel与现有基因注释的差别,对基因的5'端和3'端进行延长(图中表现的仅是基因3'端发生延长的情况)。可变剪切分析可变剪接使一个基因产生多个mRNA转录本,不同mRNA可能翻译成不同蛋白。因此,通过可变剪接一个基因可能产生多个蛋白,极大地增加了蛋白多样性(Black,2003;Stamm,2005;Lareau,2004)。虽然已知可变剪接在真核生物中普遍存在,但我们可能仍低估了可变剪接的比例,最近,基于高通量测序的可变剪接研究在人(Pan,2008;Wang,2008;Sultan,2008)、小鼠(Tang,2009;Mortazavi,2008)、拟南芥(Filichkin)中发现了很多新的可变剪接事件。融合基因分析*Redtexthighlightsfirst36-merofthe100-merreads可变剪切/融合基因软件•Tophat:TopHat是基于Bowtie的将RNA-Seq数据mapping到参考基因组上,从而鉴定可变剪切(exon-exonsplicejunctions)。需要其它软件为:Bowtie、TopHat、Cufflinks、samtools预测新转录本GenomicintergenicregionReadsclusterPairedReadsdistributionPaired-End(PE)Reads现有数据库中对转录本的注释可能还不全面,通过高通量测序我们能检测到新的转录本(Mortazavi,2008)。我们首先从潜在genemodel中挑选出长度大于150bp且平均覆盖度大于2的genemodel,再从中找出位于基因间区域(一个基因3'端下游200bp到下一个基因5'端上游200bp之间的区域)的潜在genemodel作为候选的新转录本。SNP分析ThispositioninChr1isaclearSNPrelativetoreferenceHumanGenome.InourAdiposesampleitlookslikeheterozygousSNP(21Cand21T),butinColonthisappearstobehomozygous(all30readsareC).TheseRNAsamplescomefromtwodifferentindividuals.转录组表达谱表达谱二代小RNA测序分析降解组分析统计分析:a)测序质量评估b)测序饱和度分析c)随机性评估d)cleantag相关分析e)Read在参考基因组上的分布f)Read在参考基因上的分布表达量分析:a)基因覆盖度统计b)基因表达统计c)差异基因统计d)差异表达基因筛选e)差异基因表达模式聚类f)GO功能显著性富集分析g)pathway显著性富集分析h)蛋白互作网络分析测序原始数据*.fq格式序列IllunimaHiSeq™2000测序错误率与测序质量值简明对应关系Single-End&Paired-EndcDNAcDNARead1,90basesRead2,90basesReads,50basesInsertlengthSingle-End(SE)ReadsPaired-End(PE)Reads测序质量评估DGERNA-seq测序饱和度分析DGERNA-seq随机性评估•cDNAfragmentationisusuallystronglybiasedtowardsthe3′endsoftranscripts.•RNAfragmentationprovidesmoreevencoveragealongthegenebody,butisrelativelydepletedforboththe5′and3′endsNatureReviewsGenetics(2009)Cleantag相关分析拷贝数分布统计Cleantag比对统计Reads在参考基因组上的分布Reads在参考基因上的分布基因覆盖度统计统计分析:a)测序质量评估b)测序饱和度分析c)随机性评估d)cleantag相关分析e)Read在参考基因组上的分布f)Read在参考基因上的分布表达量分析:a)基因覆盖度统计b)基因表达统计c)差异基因统计d)差异表达基因筛选e)差异基因表达模式聚类f)GO功能显著性富集分析g)pathway显著性富集分析h)蛋白互作网络分析基因表达统计refDGERNA-seqTPM&&RPKMC:比上某个基因的Tag数N:该样品总CleanTag数C:numberofreadsthatareuniquelyalignedtogeneN:totalnumberofreadsthatareuniquelyalignedtoallgenesL:LengthofgeneReadsPerKbperMillionreadsTagPerMillion差异基因统计refDGERNA-seqP-value&&FDRFDR(FalseDiscoveryRate)差异表达基因筛选•以FDR≤0.01且倍数差异2倍以上来筛选差异表达基因。•考虑基因真实的表达量。•参考GO和Pathway分析结果。•考虑自己的实验需要,是否有特别关注的基因。•差异最大的前一百条。•以实验验证为准。差异基因表达模式聚类聚类软件•聚类:cluster•查看:JavaTreeviewGO功能显著性富集分析首先把所有差异表达基因向GeneOntology数据库的各个term映射,计算每个term的基因数目。然后应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著富集的GO条目,其计算公式为:GO功能显著性富集分析GO功能显著性富集分析Pathway显著性富集分析结果:各列的意义:信息分析GO分析常用软件/数据库•GO功能/聚类:Amigo::•GO注释:Blast2go:•GO聚类图:WEGO:显著性富集分析Pathway分析软件与网页•Pathway功能:KOBAS:•Pathway注释:blast2KO蛋白互作网络分析(cytoscap)转录组表达谱表达谱二代小RNA测序分析降解组分析1)完全配对(RNAinterference),导致特异性断裂,达到基因沉默的目的(由于RNA是单股的,若发现双股RNA会被当作外来病毒,RISC会立即将其切断)2)不完全配对(Translationalrepression),影响基因的转译过程,进而达到调控基因的目的。miRNA的作用机制如下:MiRNAtargetsite预测:通常预测miRNAtargetsite都使用Smith-Watermanalgorithm,该方法是利用不同的参数调整,找到最大吻合的核咁酸区域,而利用此演算法的方法有:Miranda,PicTar,Targetscan等等。MiRNA及miRNAtargetsite资料库:miRBase:此资料库拥有miRNA,miRNAtargetsites资料,其中targetsite资料包含预测及实验证实的,目前版本为V.17,物种包含人类、黑猩猩、恆河猴、大鼠、小鼠等等。TargetScan:此资料库拥有miRNAtargetsites资料,而其资料皆为实验证实的,物種包含人类、黑猩猩、恆河猴、大鼠、小鼠等…等。1.寻找已知miRNA并进行差异分析、聚类分析等2.寻找其他ncRNA,并分类为:rRNA、tRNA、siRNA、piRNA等3.预测新的miRNAmiRNA分析流程miRNA分析流程1.寻找已知miRNA并进行差异分析、聚类分析等2.寻找其他ncRNA,并分类为:rRNA、tRNA、siRNA、piRNA等3.寻找新的miRNAOutputmatch_hairpin.aln:mmu-mir-22ACCTGGCTGAGCCGCAGTAGTTCTTCAGTGGCAAGCTTTATGTCCTGACCCAGCTAAAGCTGCCAGTTGAAGAACTGTTGCCCTCTGCCCCTGGCmmu-mir-2295.((.(((.(((..((((((((((((((((((((.((((((.((.........))))))))))))).))))))))))))))).))).)))...)).structure-42.00******************AGTTCTTCAGTGGCAAGCTTTA*******************************************************mmu-miR-22*22********************************************************AAGCTGCCAGTTGAAGAACTGT*****************mmu-miR-2222..................AGTTCTTCAGTGGCAAGCTTT........................................................t000466721147..................AGTTCTTCAGTGGCAAGCTTTA.......................................................t00109912245..................AGTTCTTCAGTGGCAAGCTT.........................................................t00238402014..................AGTTCTTCAGTGGCAAGCT..........................................................t0032613199..................AGTTCTTCAGTGGCAAGC...........................................................t0045967185..................AGTTCTTCAGTGGCAAGCTTTAT......................................................t0544228231.......................................................AAAGCTGCCAGTTGAAGAAC....................t0528612201.....................................
本文标题:RNA高通量组学研究
链接地址:https://www.777doc.com/doc-6039652 .html