您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 转录组测序(RNA-Seq)--杨军
转录组测序(RNA-Seq)JunYangRNA-Seq的技术背景•RNA-Seq又称转录组高通量测序(transcriptomesequencing)或称为全转录组鸟枪法测序(WholeTranscriptomShotgunSequencingWTSS)•2005年以来,以Roche公司的454技术、Illumina公司的Solexa技术和ABI公司的SOLiD技术为标志的新一代测序技术诞生,之后HelicosBiosciences公司又推出单分子测序(Singlemoleculesequencing,SMS)技术。新一代测序又称作深度测序或高通量测序。•转录组是特定组织或细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA。•转录组(transcriptome)广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。蛋白质是行使细胞功能的主要承担者,蛋白质组是细胞功能和状态的最直接描述,转录组成为研究基因表达的主要手段,转录组是连接基因组遗传信息与生物功能的蛋白质组的必然纽带,转录水平的调控是目前研究最多的,也是生物体最重要的调控方式。转录组?转录本AlltranscriptsAllmRNAsTotalRNA样品检测•OD260/280:1.8~2.2;•RNA28S:18S≥1.0;RIN≥7;•样品总量不低于15ug;•样品浓度:totalRNA浓度不低于400ng/ul。1.样品RNA准备2.测序文库构建使用oligodT微珠纯化mRNAmRNA片段化处理反转录反应合成合成双链cDNA双链DNA末端修复及3’末端加‘A’使用特定的测序接头连接DNA片段两端高保真聚合酶扩增构建成功的测序文库3.DNA成簇(Cluster)扩增4.高通量测序(IlluminaGenomeAnalyzerIIx)5.数据分析原始数据读取与数据库比对并进行注释深层次数据分析实验流程标准信息分析流程生物信息分析基本信息分析•数据量产出:2Gbpersample•测序策略:HiSeq2000,PE91or101•插入片段大小:200bps•测序质量控制:Q20%80相关概念•高通量测序中,每测一个碱基会给出一个相应的质量值,这个质量值是衡量测序准确度的。Q20与Q30则表示质量值大于等于20或30的碱基所占百分比。•Q20值是指的测序过程碱基识别过程中,对所识别的碱基给出的错误概率。•质量值Q20,错误识别概率是1%,即正确率是99%;质量值Q30,错误识别概率是0.1%,即正确率是99.9%;质量值Q40,错误识别概率是0.01%,即正确率99.99%;Q“N”0的质量值,就是正确率有N个9的百分比。•N50即覆盖50%所有核苷酸的最大Unigene长度或覆盖50%所有核苷酸的最大序列重叠群长度。相关概念•高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据;有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig;多个contigs通过片段重叠,组成一个更长的scaffold;一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton;多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene。•Unigene是UniqueGene的英文缩写,意为广泛通用的基因数据库,通过电脑对相同基因座(Locus)的收集整理集合形成一个非冗余的基因数据库。相关数据库概念•NR是NCBI里的非冗余蛋白数据库,即NCBI的blastp程序中的NR数据库,我们可以用自己的query序列,blast搜索这个数据库,得到这些query序列的具有序列相似性的蛋白序列。•NT:NCBI的blast页面,选择nucleotideblast,数据库选others,也就是(nr/nt).•SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。•KEGG(KyotoEncyclopediaofGenesandGenomes,京都基因与基因组百科全书)是基因组破译方面的数据库。•COG是ClusterofOrthologousGroupsofproteins(蛋白相邻类的聚簇)的缩写,即直系同源基因数据库。COG是对基因产物进行直系同源分类的数据库,每个COG蛋白都被假定来自祖先蛋白,COG数据库是基于细菌、藻类、真核生物具有完整基因组的编码蛋白、系统进化关系进行构建的,我们将Unigene和COG数据库进行比对,预测Unigene可能的功能并对其做功能分类统计,从宏观上认识该物种的基因功能分布特征。•GO(geneontology)是基因本体联合会(GeneOnotologyConsortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准.相关概念•基因的编码区(Codingregion),亦称为“编码序列”(Codingsequence)或“CDS”(CodingDNASequence),是指mRNA序列中编码蛋白质的那部分序列。CDS也等同于ORF(openreadingframe)是编码蛋白质的序列,以ATG开始--终止密码子结束。环境转录组也可以这样做•使用RNA-seq手段对实验样本进行转录组分析,关注个体或者组织器官在不同环境条件下基因表达的动态变化,挖掘生物对逆境适应的分子机制。•方案设计思路建议:•(1)植物个体受到较多环境因素的影响,包括温度、干旱、涝害、光照、盐碱、污染物、虫害以及病原菌侵染等等,相应采取的应答策略也较为多样,可以通过激素信号分子和细胞表面受体调控相关基因的表达。建议设置多个关键处理时间点,研究植物个体短时间内和长时间内转录组动态变化趋势;揭示同一器官组织在不同环境胁迫下或不同器官组织在同一环境胁迫下基因的时空表达模式;•(2)动物器官组织样本主要来源畜牧动物、水产动物、昆虫、人以及模式动物小鼠和线虫,关注点为温度处理、光照处理、污染物处理、病原菌/虫感染、用药前后特异性表达基因,根据基因表达模式分析揭示器官组织响应环境胁迫过程的分子机制;•(3)对于微生物样本,主要通过环境转录组分析不同培养环境、次生代谢产物积累以及毒素产生差异基因表达,解析环境诱导活性物质生产的分子机理。环境转录组也可以这样做有参考基因组序列生物信息分析•基因结构优化•鉴定基因可变剪接•预测新转录本•SNP分析•基因融合鉴定有参考基因组序列信息分析流程无参考基因组生物信息分析•Unigene功能注释•Unigene的GO分类•Unigene代谢通路分析•预测编码蛋白框(CDS)•Unigene表达差异分析•Unigene在样品间的差异GO分类和Pathway富集性分析Denovoreads组装流程UnigeneGO分类UnigeneCOG功能分类基因表达差异分析N1:totaltagNumberinsampleAN2:totaltagNumberinsampleBX:GeneexpressionlevelinsampleAy:GeneexpressionlevelinsampleBReference:AudicS.etal.Thesignificanceofdigitalgeneexpressionprofiles.GenomeRes.19977(10):986-995Unigenepathway富集性分析Pathway富集性分析列表Thankyou!
本文标题:转录组测序(RNA-Seq)--杨军
链接地址:https://www.777doc.com/doc-5153548 .html