您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 诺禾致源lncRNA测序生物信息分析结题报告
地址:北京市海淀区学清路38号金码大厦B座21层 网址: 电话:010-8283 7567 Providing advanced genomic solutions. LongnoncodingRNA生物信息分析结题报告2013年9月RNA研究部rl@novogene.cn北京诺禾致源生物信息科技有限公司lncRNA生物信息分析结题报告一、建库测序流程1.TotalRNA样品检测2.文库构建3.库检4.上机测序二、生物信息分析流程三、项目结果说明1.原始序列数据2.测序数据质量评估2.1测序错误率分布检查2.2GC含量分布检查2.3测序数据过滤2.4数据产出情况汇总3.参考序列比对分析3.1Reads与参考基因组比对情况统计3.2.Reads在参考基因组不同区域的分布情况3.3.Reads在染色体上的密度分布情况3.4.Reads比对结果IGV可视化浏览4.基因表达分析4.1已知注释类型基因含量分布4.2已知基因表达水平分析5.RNA-seq整体质量评估5.1样品间相关性检查5.2样品间聚类及PCA分析5.3均一性分布检查6.转录本拼接6.1cufflinks拼接6.2scripture拼接7.候选lncRNA筛选7.1基本筛选7.2编码潜能筛选7.3重现性筛选8.候选lncRNA描述性统计8.1长度分布统计8.2外显子数目统计8.3已知和预测lncRNA统计9.lncRNA保守性分析9.1序列保守性分析9.2位点保守性分析10.lncRNA差异表达分析10.1lncRNA表达水平分析10.2lncRNA差异表达分析10.3差异表达lncRNA筛选11.lncRNA组织或表型特异性分析11.1lncRNA与mRNA表达聚类分析11.2组织或表型特异性分析12.lncRNA靶基因预测12.1cis作用靶基因预测12.2trans作用靶基因预测13.特异lncRNA靶基因功能富集分析13.1GO富集分析13.2KEGG富集分析14.特异lncRNA与mRNA网络互作分析四、参考文献北京诺禾致源生物信息科技有限公司一、建库测序流程从RNA样品到最终数据获得,样品检测、建库、测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。因此,获得高质量数据是保证生物信息分析正确、全面、可信的前提。为了从源头上保证测序数据的准确性、可靠性,诺禾致源对样品检测、建库、测序每一个生产步骤都严格把控,从根本上确保了高质量数据的产出。实验流程图如下:北京诺禾致源生物信息科技有限公司1TotalRNA样品检测诺禾致源对RNA样品的检测主要包括4种方法:(1)琼脂糖凝胶电泳分析RNA降解程度以及是否有污染(2)Nanodrop检测RNA的纯度(OD260/280比值)(3)Qubit对RNA浓度进行精确定量(4)Agilent2100精确检测RNA的完整性2文库构建RNA检测合格后,通过epicentreRibo-ZeroTM试剂盒去除rRNA。随后加入fragmentationbuffer将RNA打断成短片段,以短片段RNA为模板,用六碱基随机引物(randomhexamers)合成一链cDNA,然后加入缓冲液、dNTPs(dUTP、dATP、dGTP和dCTP)和DNApolymeraseI合成二链cDNA,随后利用AMPureXPbeads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPureXPbeads进行片段大小选择。之后用USER酶降解含有U的cDNA第一链,最后进行PCR富集得到链特异性cDNA文库。文库构建原理图如下:3库检文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/ul,随后使用Agilent2100对文库的insertsize进行检测,insertsize符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量(文库有效浓度>2nM),以保证文库质量。4上机测序库检合格后,把不同文库按照有效浓度及目标下机数据量的需求pooling后进行HiSeq/MiSeq测序。北京诺禾致源生物信息科技有限公司二、生物信息分析流程获得原始测序序列(SequencedReads)后,在有相关物种参考序列或参考基因组的情况下,通过如下流程进行生物信息分析:北京诺禾致源生物信息科技有限公司三、项目结果说明1 原始序列数据高通量测序(如illuminaHiSeqTM2000/MiSeq等测序平台)测序得到的原始图像数据文件经碱基识别(BaseCalling)分析转化为原始测序序列(SequencedReads),我们称之为RawData或RawReads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。FASTQ格式文件中每个read由四行描述,如下:@EAS139:136:FC706VJ:2:2104:15343:1973931:Y:18:ATCACGGCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT+@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF其中第一行以“@”开头,随后为illumina测序标识符(SequenceIdentifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为illumina测序标识符(选择性部分);第四行是对应序列的测序质量(Cocketal.)。illumina测序标识符详细信息如下:EAS139Uniqueinstrumentname136RunIDFC706VJFlowcellID2Flowcelllane2104Tilenumberwithintheflowcelllane15343'x'-coordinateoftheclusterwithinthetile197393'y'-coordinateoftheclusterwithinthetile1Memberofapair,1or2(paired-endormate-pairreadsonly)YYifthereadfailsfilter(readisbad),Notherwise180whennoneofthecontrolbitsareon,otherwiseitisanevennumberATCACGIndexsequence第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,illuminaHiSeqTM2000/MiSeq的碱基质量值用Qphred表示,则有下列关系:公式一: Qphred = -10log10(e)illuminaCasava1.8版本测序错误率与测序质量值简明对应关系如下:测序错误率测序质量值对应字符5%13.1%2050.1%30?0.01%40I北京诺禾致源生物信息科技有限公司2 测序数据质量评估2.1 测序错误率分布检查每个碱基测序错误率是通过测序Phred数值(Phredscore,Qphred)通过公式1转化得到,而Phred数值是在碱基识别(BaseCalling)过程中通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示:illuminaCasava1.8版本碱基识别与Phred分值之间的简明对应关系Phred分值不正确的碱基识别碱基正确识别率Q-sorce101/1090%Q10201/10099%Q20301/100099.9%Q30401/1000099.99%Q40测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。对于RNA-seq技术,测序错误率分布具有两个特点:(1)测序错误率会随着测序序列(SequencedReads)长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的,并且为illumina高通量测序平台都具有的特征。(2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合(Jiangetal.)。图2.1 测序错误率分布图横坐标为reads的碱基位置,纵坐标为单碱基错误率北京诺禾致源生物信息科技有限公司2.2 GC含量分布检查GC含量分布检查用于检测有无AT、GC分离现象,而这种现象可能是测序或者建库所带来的,并且会影响后续的定量分析。在illumina测序平台的转录组测序中,反转录成cDNA时所用的6bp的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性。而这种偏好性与测序的物种和实验室环境无关,但会影响转录组测序的均一化程度(Hansenetal.)。除此之外,理论上G和C碱基及A和T碱基含量每个测序循环上应分别相等,且整个测序过程稳定不变,呈水平线。对于DGE测序来说,由于随机引物扩增偏差等原因,常常会导致在测序得到的每个read前6-7个碱基有较大的波动,这种波动属于正常情况。图2.2 GC含量分布图横坐标为reads的碱基位置,纵坐标为单碱基所占的比例;不同颜色代表不同的碱基类型北京诺禾致源生物信息科技有限公司2.3 测序数据过滤测序得到的原始测序序列,里面含有带接头的、低质量的reads,为了保证信息分析质量,必须对rawreads进行过滤,得到cleanreads,后续分析都基于cleanreads。数据处理的步骤如下:(1)去除带接头(adapter)的reads;(2)去除N(N表示无法确定碱基信息)的比例大于10%的reads;(3)去除低质量reads。RNA-seq的接头(Adapter,OligonucleotidesequencesforTruSeqTMRNAandDNASamplePrepKits)信息:RNA5’Adapter(RA5),part#15013205:5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’RNA3’Adapter(RA3),part#15013207:5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(6位index)ATCTCGTATGCCGTCTTCTGCTTG-3’图2.3 原始数据过滤结果北京诺禾致源生物信息科技有限公司2.4 数据产出情况汇总表2.4 数据产出质量情况一览表SamplenameRawreadsCleanreadscleanbasesErrorrate(%)Q20(%)Q30(%)GCcontent(%)sample1_A_139176275378159853.78G0.0397.8592.5651.62sample1_A_239176275378159853.78G0.0496.5890.4752.34sample1_B_135876315346175933.46G0.0397.8692.6151.52sample1_B_235876315346175933.46G0.0496.5390.5152.00sample1_C_137973817364916663.65G0.0397.7892.3751.93sample1_C_237973817364916663.65G0.0496.2489.9252.60sample2_A_140470350388879963.89G0.0397.8992.5452.58sample2_A_240470350388879963.89G0.0496.5490.2953.39sample2_B_135590714343008403.43G0.0397.8492.5451.54sample2_B_235590714343008403.43G0.0496.5690.5752.09sample2_C_1433662074173
本文标题:诺禾致源lncRNA测序生物信息分析结题报告
链接地址:https://www.777doc.com/doc-3201550 .html