您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 上机-第二代测序中的数据分析-基因组
上机-第二代测序中的数据分析(基因组)罗奇斌练习一基因组分析目的●通过对NGS工具的安装、配置、运行来熟悉Linux环境下的生物信息分析软件●学会对原始数据的质量评估、拼接组装、SNPCalling等分析过程●掌握初步的分析NGS数据能力1.建立项目文件系统●建立合理的文件结构–$cd–$mkdirbinproj1tools–$cdproj1–$mkdirreadsfastqcrefsnp-calling●拷贝相关的分析工具–$cd–$cp-r/home/training/tools/bwa./tools/–$cp-r/home/training/tools/fastqc./tools/–$cp-r/home/training/tools/samtools./tools/●执行程序路径–$exportPATH=$PATH:~/bin/2.分析工具的安装●FastQC–FastQCaimstoprovideasimplewaytodosomequalitycontrolchecksonrawsequencedatacomingfromhighthroughputsequencingpipelines●BWA–Fast,accurate,memory-efficientalignerforshortandlongsequencingreads●Samtools–VariousutilitiesforprocessingalignmentsintheSAMformat,includingvariantcallingandalignmentviewing2.1安装FastQC●解压缩–$cd~/tools/fastqc/–$unzipfastqc_v0.10.1.zip●激活执行命令–$cdFastQC–$chmod+xfastqc●建立执行路径–$cd~/bin/–$ln-s~/tools/fastqc/FastQC/fastqc./●检测安装是否成功–$cd–$fastqc-h”说明:本文档中如没有特殊说明,$“表示在Shell环境下的输入提示FastQC解压缩过程中显示的文档在目录~/tools/fastqc/FastQC/下通过输入ls-l命令显示已被激活的fastqc命令在目录~/bin/下可以看到建立的命令执行路径执行路径建成以后,cd回到工作目录,输入fastqc-h按回车能够看到以下信息则表示安装成功2.2安装BWA●解压缩–$cd~/tools/bwa/–$tar-jxvfbwa-0.7.3a.tar.bz2●编译–$cdbwa-0.7.3a/–$make●建立执行路径–$cpbwa~/bin/●检测安装是否成功–$cd–$bwaBWA解压缩过程中显示的文档输入make命令,进行编译显示过程执行路径建成以后,cd回到工作目录,输入bwa按回车能够看到以下信息则表示安装成功2.3安装Samtools●解压缩–$cd~/tools/samtools/–$tar-jxvfsamtools-0.1.19.tar.bz2●编译–$cdsamtools-0.1.19/–$make●建立执行路径–$cpsamtools~/bin/–$cpbcftools/vcfutils.pl~/bin/–$cpbcftools/bcftools~/bin/●检测安装是否成功–$cd–$samtools–$vcfutils.plsamtools解压缩过程中显示的文档输入make命令,进行samtools编译显示过程执行路径建成以后,cd回到工作目录,输入samtools按回车能够看到以下信息则表示安装成功执行路径建成以后,cd回到工作目录,输入vcfutils.pl按回车能够看到以下信息则表示安装成功3.测序数据质量评估●拷贝原始测序数据–$cp/home/training/data/DNA-Seq/example1.*~/proj1/reads/●进入工作目录–$cd~/proj1/fastqc/●评估测序数据质量–$fastqc-ffastq-o./../reads/example1.*运行过程的显示FastQC的输入结果以html格式显示$cd~/proj1/fastqc/example1.L.fq_fastqc/通过ftp将example1.L.fq_fastqc整个文件夹拷贝回本地电脑FastQC的输出结果FastQC的输出结果FastQC的输出结果4.建立参考基因组索引●拷贝参考基因组数据–$cp/home/training/data/DNA-Seq/ref1.fa~/proj1/ref/●建立基因组索引–$cd~/proj1/ref/–$bwaindex-aisref1.fa●bwaindex指令更多的用法及options,通过以下命令来查看–$bwaindex参考基因组索引建立过程bwaindex指令更多的用法及options5.拼接组装●生成sai文件–$cd~/proj1/–$bwaalnref/ref1.fareads/example1.L.fqaln_example1.L.sai–$bwaalnref/ref1.fareads/example1.R.fqaln_example1.R.sai●生成sam文件–$bwasamperef/ref1.faaln_example1.L.saialn_example1.R.saireads/example1.L.fqreads/example1.R.fqaln_example1.sam●生成bam文件–$samtoolsview-bSaln_example1.sam|samtoolssort-aln_example1_sortedsai文件的生成过程sai文件的生成过程sam文件的生成过程6.SNPCalling●生成bcf文件–$cd~/proj1/–$samtoolsmpileup-ugfref/ref1.faaln_example1_sorted.bam|bcftoolsview-bvcg-snp-calling/var_example1_sorted.raw.bcf●生成vcf文件–$bcftoolsviewsnp-calling/var_example1_sorted.raw.bcf|vcfutils.plvarFilter-D100snp-calling/var_example1_sorted.flt.vcf生成的VCF格式VCF格式●VCF-VariantCallFormat●VCF格式中主要的参数–CHROM:chromosome–POS:position–ID:identifiers–REF:referencebase–ALT:non-referenceallele–QUAL:phred-scaledqualityscore–AF:allelefrequency–DP:readdepth–AA:ancestralalleleSAM格式●SAM–SequenceAlignment/Map●SAM格式中主要的参数–QNAME:querynameoftheread–RNAME:referencesequencename–POS:position–MAPQ:mappingquality(phred-scaled)–MRNM:matereferencename–MPOS:mateposition–ISIZE:inferredinsertsize–SEQQuery:sequenceonthesamestrandasthereference–QUAL:queryquality谢谢!
本文标题:上机-第二代测序中的数据分析-基因组
链接地址:https://www.777doc.com/doc-4437550 .html