您好,欢迎访问三七文档
生物信息学第五章基因表达数据分析苏州大学沈百荣首都医科大学李冬果生物信息学第一节引言Introduction基因表达组学与基因组学相比较1.表达组信息是动态的;2.表达组学的数据,更多的是数值分析;3.转录组学中除了模式识别外,系统建模也十分重要。真核生物基因表达的基本方式基因表达调控示意图基因表达的时空性基因表达测定方法RT-qPCR近20年来三种不同高通量基因表达测定技术的应用趋势高通量基因表达测定的应用实例1.测定组织特异性基因表达2.基因功能分类3.癌症的分类和预测4.临床治疗效果预测5.基因与小分子药物、疾病之间的关联6.干细胞的全能型、自我更新和细胞命运决定研究7.动植物的发育研究8.环境对细胞基因表达的作用9.环境监测10.物种的繁育第二节基因表达测定平台与数据库MicroarrayPlatformandDatabases1.cDNA芯片2.Affymetrix芯片3.下一代测序技术技术如:Roche-454,IlluminaMiSeq,IonTorrentPGM一、基因表达测定平台介绍二、Microarray技术与RNA-Seq技术的比较1.RNA-Seq技术对没有已知参考基因组信息的非模式生物,也可测定转录信息;2.RNA-Seq技术可以测定转录边界的精度达到一个碱基,RNA-Seq可以用来研究复杂的转录关系;3.RNA-Seq可以同时测定序列的变异;4.RNA-Seq背景信号很小,测定的动态范围很大。RNA-Seq在基因表达的定量上准确性很高;RNA-Seq在测定技术上和生物上重复性很高;RNA-Seq的测定需要很少的RNA样本。在应用上RNA-Seq技术对ISOFORM的测定和等位基因的区分比芯片技术有很好的优势。三、基因表达数据库常用基因表达数据库名称数据库内容GeneExpressionOmnibus(GEO)目前最常用的基因表达数据(NCBI)ExpressionAtlas欧洲生物信息学中心的基因表达数据库SMDStanford基因表达数据库RNA-SeqAtlas正常组织的基因表达谱数据GEPdb基因型、表型和基因表达关系GXD老鼠发育基因表达信息EMAGE老鼠胚胎的时空表达信息AGEMAP老鼠老化的基因表达数据疾病相关基因表达数据库数据库名称数据库内容GENT肿瘤组织与正常组织的表达数据ParkDB帕金森病的基因表达数据库cMAP小分子化合物对人细胞基因表达的影响Anticancerdruggeneexpressiondatabase抗癌化合物的基因表达数据CGED癌症基因表达数据库(包括临床信息)第三节数据预处理与差异表达分析PreprocessingofMicroarrayDataandAnalysisofDifferentiallyExpressionGene)22/()11(BCHICHBCHICHRatio一、基因芯片数据预处理(一)基因芯片数据的提取cDNA微阵列芯片荧光信号定性信息提取:P/A/M(Present/Absent/Marginal)定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值原位合成芯片(二)数据对数化转换对芯片数据做对数化转换后,数据可近似正态分布(三)数据过滤数据过滤的目的是去除表达水平是负值或很小的数据或者明显的噪声数据。•过闪耀现象•物理因素导致的信号污染•杂交效能低•点样问题•其他(四)补缺失值1.数据缺失类型非随机缺失基因表达丰度过高或过低。随机缺失与基因表达丰度无关,数据补缺主要针对随机缺失情况。高表达基因的数据缺失2.数据补缺方法(1)简单补缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average(2)k近邻法选择与具有缺失值基因的k个邻居基因用邻居基因的加权平均估计缺失值参数•邻居个数•距离函数(3)回归法(五)数据标准化1.为什么要进行数据标准化:存在不同来源的系统误差染料物理特性差异(热光敏感性,半衰期等)染料的结合效率点样针差异数据收集过程中的扫描设施不同芯片间的差异实验条件差异2.运用哪些基因进行标准化处理芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同)不同条件间稳定表达的基因(如持家基因)控制序列(spikedcontrol)•在不同条件下表达水平相同的合成DNA序列或外源的DNA序列。3.cDNA芯片数据标准化处理(1)片内标化(within-slidenormalization)方法全局标化、荧光强度依赖的标准化、点样针组内标准化。假设:R=k*G方法:c=log2k:中值或均值全局标化(globalnormalization)荧光强度依赖的标化(intensitydependentnormalization)为什么方法:scatter-plotsmootherlowess拟合c(A)为M对A的拟合函数标化后的数据点样针依赖的标化(within-print-tip-groupnormalization)为什么一张芯片的不同区域运用不同的点样针点样,从而引入点样针带来的系统误差。method(2)染色互换实验(dye-swapexperiment)的标化实验组对照组芯片1cy5(R)cy3(G’)芯片2cy3(G)cy5(R’)前提假设:c︽c’方法:线性标化法(linearscalingmethods)与芯片内标化的尺度调整(scaleadjustment)方法类似。非线性标化法(non-linearmethods)分位数标化法(quantilenormalization)两张芯片的表达数据的分位数标化至相同,即分布于对角线上。(3)片间标化(multiple-slidenormalization)4.芯片数据标准化对每个探针对计算RR=(PM–MM)/(PM+MM)比较R与定义的阈值Tau(小的正值,默认值为0.015)单侧的Wilcoxon’sSignedRanktest产生p值,根据p值定义定量信号值PresentcallMarginalcallAbsentcall(1)提取定性信号分析步骤获取探针水平数据→背景值效正→标准化处理→探针特异背景值效正→探针集信号的汇总(2)提取定量信号1分析方法23456RG2log)/(log2GRM=log2R-log2GA=(log2R+log2G)/2789前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间log-Ratios的方差也不同。二、差异表达分析基本原理与方法(一)倍数法实验条件下的表达值对照条件下的表达值通常以2倍差异为阈值,判断基因是否差异表达(二)t检验法运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性(三)方差分析两种或多种条件间下基因表达量的比较,用方差分析。它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。(四)SAM法(significanceanalysisofmicroarrays)1.多重假设检验问题Ⅰ型错误(假阳性)在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。Ⅱ型错误(假阴性)不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(falsediscoveryrate)值等。2.分析步骤计算统计量扰动实验条件,计算扰动后的基因表达的相对差异统计量计算扰动后的平均相对差异统计量确定差异表达基因阈值•以最小的正值和最大的负值作为统计阈值,运用该阈值,统计在值中超过该阈值的假阳性基因个数,估计假阳性发现率FDR值。调整FDR值的大小得到差异表达基因。(五)信息熵运用信息熵进行差异基因挑选时,不需要用到样本的类别信息,所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。三、差异表达分析应用以一套阿尔海茨默病相关的基因表达谱数据(GSE5281)为例,详细介绍如何利用BRB-ArrayTools软件进行数据预处理,并对处理过的标准化的基因芯片数据利用SAM软件进行差异表达分析的过程。GSE5281数据是利用Affymetrix公司的寡核苷酸芯片HG-U133Plus2.0Array检测阿尔海茨默病病人和正常老年人大脑中六个不同区域的基因表达情况,本例仅选择其中一个区域—内侧颞回(middletemporalgyrus,MTG)的数据进行说明。第一步:导入芯片数据使用“importdata”下的“GeneralFormatImporter”导入基因芯片数据,数据间用Tab键分隔(或使用Excell文件),也可使用“DataImportWizard”进行导入。导入芯片数据第二步:选择文件类型每张芯片用单独的文件存储,多个文件保存在一个文件夹“Arrayaresavedinseparatefilesstoredinonefolder”若多张芯片数据组织成一个矩阵形式,存储在一个文件中“Arrayaresavedinhorizontallyalignedfile”选择记忆芯片数据文件类型第三步:选择芯片数据文件所存储的路径注意路径中不能包含中文第四步:选择基因芯片平台第五步:选择文件格式第六步:数据的过滤和标准化第七步:基因注释由于基因芯片检测的是探针的表达情况,而探针和基因之间往往不是一一对应,所以,在数据导入后软件会询问是否需要进行基因注释,及是否需要将探针转换成相应的基因名(genesymbol)或EntrezID第八步:运行SAMFDR=0.01,delta=0.68选出2209个在阿尔海茨默病病人和正常人脑组织中表达发生显著性改变的基因。SAM的参数设定第九步:SAMPlotSAMPlot第四节聚类分析与分类分析ClusteringAnalysisandClassification一、聚类目的基于物体的相似性将物体分成不同的组二、基因表达谱数据的聚类对基因进行聚类识别功能相关的基因识别基因共表达模式对样本进行聚类质量控制检查样本是否按已知类别分组发现亚型样本基因三、距离(相似性)尺度函数几何距离线性相关系数非线性相关系数互信息四、聚类算法层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现,进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。(一)层次聚类在对含非单独对象的类进行合并或分裂时,常用的类间度量方法。类间相似性度量方法2000年Alizadeh等运用基因芯片数据,基于层次聚类算法证实了DLBCL肿瘤病人在mRNA层面确实存在两种亚型(二)k均值聚类基本思想(三)自组织映射聚类基本思想在不断的学习过程中,输出层的神经元根据输入样本的特点进行权重调整,最后拓朴结构发生了改变。(四)双向聚类双向聚类就是识别基因表达谱矩阵中同质的子矩阵,运用特定的基因子类识别样本子类。双向聚类识别同质的子结构五、分类分析(一)线性判别分类器(二)k近邻分类法(三)PAM方法(predictionanalysisformicroarray)基本思想每类样本的质心向所有样本的质心进行收缩,即收缩每个基因的类均值,收缩的数量由值决定。当收缩过程发生时,某些基因在不同类中将会有相同的类均值,这些基因就不具有类间的区别效能。基因1基因2分析步骤计算统计量对公式经过变换得到收缩各类的均值判断新样本类别(四)决策树基本思想决策树又称多级分类器,它可以把一个复杂的多类
本文标题:基因表达数据分析
链接地址:https://www.777doc.com/doc-3236032 .html