高通量建库测序数据拆分质控

姓名：王彬安时间：2017年06月15日高通量建库测序+数据拆分文库构建(~6hrs)cBotHiSeqxTenMiSeqCluster簇生成(~5hrs)HiSeqMiSeqSBS测序数据分析bcl2fastqDNA文库构建流程片段化DNA末端补平3’加A接头连接PCR高质量DNA文库结构文库构建的目的是在目的DNA片段两端都连接上想要的接头此单链部分与FlowCell表面上P7接头相同此单链部分与FlowCell表面上P5接头相同IndexSequencingPrimerHiSeq测序用到的引物MultiplexingRead1SequencingPrimer5'ACACTCTTTCCCTACACGACGCTCTTCCGATCTMultiplexingIndexReadSequencingPrimer5'GATCGGAAGAGCACACGTCTGAACTCCAGTCACMultiplexingRead2SequencingPrimer5'GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTFlowCell上的接头P7接头序列5’sttttttttttcaagcagaagacggcatacga3’OHOHs(T)10aatgatacggcgaccaccga3’P5接头序列SRFC这是SingleReadFC接头，因为找不到PairedEndFC接头，但是红色部分序列两种FC是相同的，只是修饰位点不同而已P5P7测序芯片(FlowCell)简介flowcell是有2个或8个泳道(Lane)的玻璃片，与一元硬币的厚度相当每个泳道(Lane)内的上下两个表面随机的布满了能够与文库两端接头分别互补配对的寡核苷酸(oligos,P7和P5接头)在flowcell上进行cluster簇生成仪器简介单条DNA模板约1000条DNA模板的拷贝cBotHiSeqSequencer35个循环的桥式PCRcBot工作流程DNA文库变性：使用NaOH将双链DNA文库变性为单链模板链杂交：将单链DNA模板杂交到FlowCell上第一链合成：以FlowCell表面上的oligos为引物，合成第一链桥式PCR：冲走单链DNA模板，以合成的第一链为模板进行35循环的桥式PCR线性化：将与P5接头连接的DNA链从FlowCell上去除阻断3’–OH：防止在后续测序过程中继续延伸DNA链杂交测序引物DNA模板杂交和一链合成接头序列5’-3’延伸含有P7和P5两种接头的FlowCell表面单链DNA分子与FlowCell表面的对应接头杂交以杂交的单链DNA为模板，FlowCell上的接头为引物，合成第一链新合成的链原始模板链双链DNA变性丢弃原始模板链变性模板链被冲洗走新合成的链留在FlowCell上桥式PCR扩增单链DNA与FlowCell表面对应接头杂交，形成“桥”以接头为引物进行扩增扩增完成，形成双链的“桥”桥式PCR扩增变性变性双链的“桥”得到与FlowCell相连的两条互补的单链DNA分子第二轮桥式PCR扩增完成桥式PCR扩增完成28循环的桥式PCR线性化双链“桥”变性为单链红色箭头为P5接头上的切割位点线性化切割并冲走与P5接头相连的那条DNA链阻断阻断3’–OH进行Read1测序杂交Index测序引物，进行Index测序PairedEndTurnround，合成Read1互补链杂交Read2测序引物，进行Read2测序HiSeqSBS测序流程HiSeqSBS测序流程123PairedEndTurnaround杂交Read1引物Read1测序引物将测序引物杂交到文库的接头上SequencingBySynthesis，SBS测序原理4种Fl-NTP’s+聚合酶拍照，收集信号去阻断，切除荧光基团X36-151可逆终止化学反应•一次加入4种修饰的dNTP(可逆终止子)•准确度高•可以得到同聚物序列•合成•照相，收集信号•去阻断，切除荧光基团下一个碱基合成100MicronsClusters已完成测序合成的片段Blocked3’-ends变性掉已完成测序合成的片段恢复被阻断的3’–OHPairedEndTurnround形成的桥5’-3’延伸桥式PCR5’-3’延伸PairedEndTurnround形成的双链的桥PairedEndTurnround模板链PairedEndTurnround等温变性，完成15轮桥式PCR后，进行线性化，将模板链切除，保留新合成的子链新合成的链3’-OH阻断Read2测序引物PairedEndTurnround线性化，3’-OH阻断杂交Read2测序引物SequencingBySynthesis2ndReadX36-1514种Fl-NTP’s+聚合酶拍照，收集信号去阻断，切除荧光基团123789456TTTTTTTGT…根据每个点每轮反应读取的荧光信号，转换成相应的DNA序列TGCTACGAT…BaseCalling序列的形成原理1234CCCCGGGTTAAACycle1Cycle2Cycle3对A发出的光拍照对C发出的光拍照对G发出的光拍照对T发出的光拍照序列的形成原理1234TCCAATGCACGGCycle1Cycle2Cycle3由4个cluster得到4条序列：①ATA...②CCT...③GCG...④GAC...Illumina测序仪系列Illumina各种机型的性能参数比较MiseqNextSeq500Hiseq2500HiseqXKeyapplicationsSmallgenome,amplicon,andtargetedgenepanelsequencing.Everydaygenome,exome,transcriptomesequencing,andmore.Production-scalegenome,exome,transcriptomesequencing,andmore.Population-scalehumanwhole-genomesequencing.Readsperflowcell†25Million‡130Million400Million300Million2Billion3BillionMaximumreadlength2×300bp2×150bp2×150bp2×150bp2×125bp2×150bpRunmodeFlowcellsprocessedperruN/AMid-OutputHigh-OutputRapidRunHigh-OutputN/An1111or21or21or2OutputrangeRuntime0.3-15Gb5-65hours20-39Gb15-26hours30-120Gb12-30hours10-180Gb7-40hours50-1000Gb1day-6days1.6-1.8Tb3daysNextSeqCN500基因测序仪通量灵活。NextSeqCN500搭载高通量芯片和中通量芯片，可根据临床样本量自由选择，缩短样本收集时间，提高测序仪的使用效率，最大限度满足多种临床需求。PerformanceParametersofNextSeqCN500SystemsNextSeqCN500基因测序仪HiseqXTMTendesignedforpopulation-scalehumangenomesequencingatacostof$1000pergenome.HiseqXTMTen=10HiseqXSystemsPerformanceParametersofHiseqXSystems•将bcl文件转换成FASTQ格式转换•根据sampleSheet.csv文件信息对FASTQ文件进行拆分demultiplexingbcl2fastqSampleID要求：美因标号_FC号_Lane号_文库信息_下机日期，例如：M170428Y1003_H2FKTCCXY_L8_20170525-L8_170527。其中“_”是保留符号，不容许出现除了“字母、数字和-”以外的字符。生产提供的拆分信息表：命名要求“芯片名.xlsx”,H2FKTCCXY.xlsxHeaderMeanTipFCIDFC编号LaneLanenumberSampleIDSample_ID禁用词语‘all’，‘unknown’SampleRef样品产考Indexindex序列如果是双index,写法如index-index2Description描述信息Control是否过滤isfiltered.Y—Thereadisfiltered(onlyshowingwhen--with-failed-readsoptionisapplied).N—Thereadisnotfiltered.Recipe测序类型pe代表PE测序，Operator操作人名字首字母即可SampleProject项目编号禁用词语‘all’，‘default’Name运营负责人名字首字母即可注意：同一张片子上的同一条lane不同样品必须用不同的index,不同lane上可以用相同的indexsampleID,SampleName输入规则:✓允许字符：字母，下划线和波折号✓不允许字符：?()[]/\=+:;',*^|&.✓使用IlluminaExperimentManager创建或者打开SampleSheet，确保该文件正确性生成SampleSheet文件BCLConversionInputFiles原始下机路径：/Mega/hiseq/xtenYYMMDD_machinename_0000_NH2XXXCCXY编号意义：日期_机器号_下机次数_FC芯片BCL数据位置：Data/Intensities/BaseCalls/Llane•BCLFilesTheBCLfilesarecompressedwiththegzip(*.gz)ortheblockedGNUzip(*.bgzf)format.•FolderandFileNaming数据拆分路径：/Mega/hiseq/release_xtenYYMMDD_machinename_0000_NH2XXXCCXY编号意义：日期_机器号_下机次数_FC芯片•FolderandFileNamingFastq:整理的拆分结果，包括拆分统计表Log:日志文件夹Raw_fq:拆分原始目录，包括未拆封文件等Release:数据释放目录Ps:ThesoftwareputsreadswithundeterminedindexesinfilesthatbeginwithUndetermined_S0_.FASTQ格式FASTQformat文本格式，存储bases以及与之对应的质量序列,bases和质量序列都是以ASCII码存储，序列质量越高，表示该碱基犯错率越小。@序列ID以@起始NB501160设备ID16runIDH5VVWAFXXflowcellID1laneID11101tile14389clusterx轴位置1092clustery轴位置1reads_1NY表示failPF，N表示PF0controlnumberCGTACTAG+NCGATCTAindex序列#DataDir:/Mega/hiseq/release_xten/170605_E00601_0019_BH2CTKCCXY/fastq#Thereadslength:PE150#INDEX_LIBRARYProjectINDEXFCLaneLengthReads(M)Base(G)PCT(%)Q20(%)R1Q20(%)R2Q30(%)R1Q30(%)R2Adapter(%)GC(%)Dup(%)PloyAT(%)CycleNQCCriteriaQCResultOwner170526O1001170526O1001ACACAGAAH2CTKCCXYL4150:150193.5329.032.8298.36493.96695.60286.7691.5547.7312.8850.08,0.090,0Q

高通量建库测序数据拆分质控

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

第六章电力系统稳定性

北京社电子目录

家具文化展

建筑企业营业税的纳税筹划

循环水冷却塔土建施工组织设计

电梯安装施工方案

身负重任砺品质，成绩显著见忠诚

亚韩医疗整形美容医院策划方案

XXXX年乳制品行业质量分析报告

XXXX年度煤矿机电设备检修计划

相关文档

相关搜索