您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 16S信息分析报告2-北京奥维森
北京奥维森基因科技有限公司16srDNA信息分析1.标准信息分析(初级)1.1基本数据处理(使用内部撰写的程序对原始的测序数据进行基本处理)通过Illumina平台(Miseq)进行Paired-end测序,下机数据经过去除低质量reads(Q20,90%标准过滤),并trim掉reads2尾部100bp低质量序列;每个样品数据产出详细统计结果见下表:表1-1reads数据统计:#Samples#HQreads(total)#HQreads(mean±SD)CA17110,6516,509±2,175HC19163,6908,615±3,081LK13127,4169,801±2,858Total49401,7578,199±2,992注:原来的样本中CA15由于原始Reads数太少(只有23条)而被删除,因此目前的样本总数为49个1.2去除barcode序列,引物序列及tags过滤通过COPE软件(ConnectingOverlappedPair-End,V1.2.3.3),利用重叠关系将双末端测序得到的成对reads组装成一条序列。利用内部编写程序去除两端barcode序列,引物序列。PairedEndReads通过reads之间的overlap(19个碱基)关系拼接成Tags;然后去掉barcode序列,引物序列。为了得到高质量的Tags,将拼接的Tags按照长度过滤,去嵌合体等的处理。(这里等的意思就是按照拼接条件过滤:1,碱基的ASCIIvalue值低于33的过滤掉。2.overlap取19个碱基,这19个碱基相互匹配率低于98%的过滤掉。3.去掉引物序列的时候,允许一个错配,错配多于一个的过滤掉。)表1-2tags的详细信息SampleIDRawTagNumFinalTagnumHC11756017,319HC296729,604HC31805317,826HC41218112,107HC51155811,477HC81148811,404北京奥维森基因科技有限公司HC91635416,095HC102158421,270HC1179897926HC121156111,449HC132490924,660HC142297922,736HC152074720,549HC161485714,728HC172117121,002HC181070010,605HC191135911,247CA81620316,040CA101092510,560CA1182547,690CA1294799,053CA1479477,584CA1682218,093CA171066610,479CA181078710,651CA51634416,154CA960475,861CA131029010,1652高级信息分析2.1OUT及其丰度分析2.1.1OUT统计拼接的Tags经过优化后,在0.97相似度下利用qiime(v1.8.0)软件将其聚类为用于物种分类的OTU(OperationalTaxonomicUnits),统计各个样品每个OTU中的丰度信息,OTU的丰度初步说明了样品的物种丰富程度。49个样品共产生3029个OTU,其中SingletonsOTU(即丰度为1的OTU)个数为0,NonsingletonsOTU个数为3029。表4.样品OUT统计SampleNameOTUsTagsHC154117,319HC22699,604HC353017,826北京奥维森基因科技有限公司HC421512,107HC520611,477HC821411,404HC945516,095HC1060021,270HC1226211,449HC1329424,660CA1045310,560CA117107,690CA126509,053CA145197,584CA162408,093CA1733010,479CA1828910,651CA533616,154CA93475,861HC111427,926CA1326910,165表5OTU统计IndexOTUnumNo.ofOTUs3029Assignedtofamilies1,708Assignedtogenera1,172Assignedtospecies314No.ofOTUspersample368±147Minno.ofOTUspersample127Maxno.ofOTUspersample7192.1.2OTU分布的韦恩图如下:在0.97的相似度下,得到了每个样品的OTU个数,利用R(v3.1.1)画图软件绘出Venn图可以展示多样品共有和各自特有OTU数目,直观展示样品间OTU的重叠情况。结合OTU所代表的物种,可以找出不同环境中的核心微生物。北京奥维森基因科技有限公司图2-1OTUvenn分析。不同颜色图形代表不同样品或者不同组别,不同颜色图形之间交叠部分数字为两个样品或两个组别之间共有的OTU个数。同理,多个颜色图形之间交叠部分数字为多个样品或组别之间共有OTU个数。Venn图容许2-5个样品或组别。2.1.3OUT水平的PCA图如下:R(v3.1.1)画图软件PCA分析(PrincipalComponentAnalysis),即主成分分析,是一种分析和简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。通过分析不同样品OTU(97%相似性)组成可以反映样品的差异和距离,PCA运用方差分解,将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映方差值两个特征值。如果两个样品距离越近,则表示这两个样品的组成越相似。不同处理或不同环境间的样品可能表现出分散和聚集的分布情况,从而可以判断相同条件的样品组成是否具有相似性。北京奥维森基因科技有限公司图2-2基于OTU丰度的PCA分析。横坐标表示第一主成分,括号中的百分比则表示第一主成分对样品差异的贡献值;纵坐标表示第二主成分,括号中的百分比表示第二主成分对样品差异的贡献值。图中点分别表示各个样品。不同颜色代表样品属于不同的分组。北京奥维森基因科技有限公司2.2Coremicrobiome分析图表都是通过qiime(v1.8.0)软件得到的共有OTU数与样本数的关系:图2-3覆盖所有样本的微生物组。横坐标表示样品占的比率,纵坐标表示包含OUT的数目。这些样本的coremicrobiome(即覆盖所有样本的微生物组)共包含17个OTUs,其物种分类信息如下表2-1。表2-1覆盖所有样本的OTUsOTUTaxonomylevelTaxonomyname400850GenusStreptococcus437590GenusCapnocytophaga368428Speciesdispar645710GenusCampylobacter417699GenusFusobacterium395972GenusStreptococcus381841GenusStreptococcus140702GenusPeptostreptococcus413823GenusGranulicatella645697GenusCampylobacter414306GenusNeisseria260777GenusFusobacterium2008GenusNeisseria21908GenusNeisseria645708GenusCampylobacter414422FamilyGemellaceae北京奥维森基因科技有限公司1212GenusGranulicatella2.3生物多样性分析2.3.1单个样品复杂性分析通过计算Shannonindex,Chao1index,Phylogeneticdiversity(PD,wholetree)和observednumberofspecies共四个指数来进行生物多样性分析。通过qiime(v1.8.0)软件计算样品的Alpha多样性值并用R(v3.1.1)软件做出相应的稀释曲线,盒型图。稀释曲线是利用已测得16SrDNA序列中已知的各种OTU的相对比例,来计算抽取n个(n小于测得Reads序列总数)Tags时各Alpha指数的期望值,然后根据一组n值(一般为一组小于总序列数的等差数列)与其相对应的Alpha指数的期望值绘制曲线。如样品有提供分组信息,且每组样品个数不小于3,将对组间的Alpha多样性指数进行差异分析。差异分析的检验方法为秩和检验,如果组数为2,采用两样品比较的WilcoxonRank-SumTest(R中的wilcox.test);如果组数大于2,采用多样品比较的Kruskal-WallisTest(R中的kruskal.test)。最后利用Alpha多样性指数绘制盒形图。差异分析与作图均通过R软件(v3.1.1)进行。基于OTU的结果,我们计算了样品的Alpha多样性(表2-2)。Alpha多样性是对单个样品中物种多样性的分析。chao1多样性估算指数是根据所测得的tags数和OTU的数量以及相对比例来预测样品中微生物的种类(OTU的数量),,是基于已知结果所得相对值。Shannon指数是一个综合OTU丰度和OTU均匀度两方面因素的一个多样性指数,Shannon及observednumberofspecies、Phylogeneticdiversity(PD,wholetree)指数越大,则表示该样品中的物种越丰富。表2-2样品的Alpha多样性#Alphamean(CA)mean(HC)mean(LK)Pvalue(KW)p-vaule(CA-HC)p-vaule(CA-LK)p-vaule(HC-LK)chao1488.2993557357.6225984422.5433110.10303420.048708660.3593680.2476438observed_species243.0764706161.2631579199.54615380.021409050.015426790.21165110.09132691PD_whole_tree16.4888923513.1660461115.232958770.037857420.016745530.38587990.06422109shannon3.7781270132.997886233.4041635860.003926270.011310790.21670590.02426458北京奥维森基因科技有限公司Rarefaction分析(样本不分组):图2-4单个样品内的Alpha多样性Rarefaction分析(样本分组):北京奥维森基因科技有限公司图2-5每组样品内的Alpha多样性。图中红色,黄色,蓝色线分别表示CA,HC,LK组的rarefaction分析结果图2-6为组Alpha多样性盒形图,更直观显示组间Alpha多样性差异。盒形图可以显示5个统计量(最小值,第一个四分位数,中位数,第三个中位数和最大值,及由下到上的5条线),异常值以“º”标出。北京奥维森基因科技有限公司Alpha多样性的比较,以Shannonindex为例可以看出多样性CALKHC,其中CA/HC有明显差异(P=0.008,Student’sttest),而CA/LK,HC/LK差异不显著2.3.2样品间复杂度比较分析Beta多样性(Betadiversity)分析是用来比较一对样品在物种多样性方面存在的差异大小。本分析中通过QIIME(v1.8.0)软件,采用迭代算法,分别在加权物种分类丰度信息和不加权物种分类丰度信息的情况下,随机抽取各样品中75%Reads单独进行差异计算,迭代100次之后综合统计得到最终的统计分析结果表及PCoA展示图。Beta多样性热图使用R(v3.1.1)软件中的NMF包的aheatmap进行作图。UniFrac是通过利用系统进化的信息来比较样品间的物种群落差异。其计算结果可以作为
本文标题:16S信息分析报告2-北京奥维森
链接地址:https://www.777doc.com/doc-3104577 .html