您好,欢迎访问三七文档
课程安排1.回归模型与相关分析2.方差分析3.属性数据分析4.生存数据分析5.实验设计6.全基因组关联分析第1,2,3,5次1.ExperimentalDesignandDataAnalysisforBiologistsGerryP.QuinnandMichaelJ.KeoughCambridgeUniversityPress,Cambridge,2002.2.BiostatisticalDesignandAnalysisUsingR:APracticalGuideMurrayLoganWiley-Blackwell,Chichester,WestSussex,2010.第4次3.SurvivalAnalysis:ASelf-LearningText,2ndeditionDavidG.KleinbaumandMitchelKlein,Springer,2005第6次4.ABELtutorialYuriiAulchenko,2011参考书回归分析和相关分析生物统计学研究所张洪1.线性回归1.1回归直线1.2参数估计方法:最小二乘估计1.3参数推断:F-检验、t-检验、区间估计1.4回归模型的诊断:残差分析1.5多重线性回归1.6Box-Cox变换2.相关分析2.1Pearson相关系数2.2相关系数的统计推断:z-检验、区间估计2.3偏相关系数2.4秩相关与多重相关3实例分析与函数关系的区别:同一身高可以体重不同,体重随身高增加的关系不是严格成立,只是有这种趋势总的趋势:随着身高增加,体重也跟着增加为什么?因为身高只能解释体重的一部分原因,还有其他未被考虑的因素,如饮食、地域、人种等1.线性回归目标:建立一个连续型因变Y(体重)与自变量X(身高)之间的关系eXY因变量自变量随机误差:未被身高解释的部分:饮食、种族、地域…截距斜率:(1)0正相关(2)0负相关(3)=0不相关X每增加一个单位,Y增加个单位xxXYE]|[均值为0:最简单的关系---线性关系:自变量和因变量的选择:由实际问题本身决定。身高vs.体重,年龄vs.疾病,地理位置vs.植被,DNA变异vs.基因表达或表型,DNA甲基化vs.基因表达问题:如何估计参数?X能解释Y的比例是多少?假设检验问题:线性模型是否适用?如果模型不适用,如何修正?1.1回归直线量化X与Y的趋势关系对于新的个体,如果知道与,可用X来预测Y。xy?01.2参数估计方法:最小二乘估计(LeastSquares估计)观测值与预测值(蓝线)的误差观测值与预测值(黑线)的误差总体上看,蓝线比黑线拟合效果要好(从拟合误差看)两条回归直线.,...,1),,(niyxii)(iiixye)ˆ,ˆ(min!12niie观测值:残差:)ˆ,ˆ(min!||1niiefit=lm(weight~height,data=dat);print(fit);Call:lm(formula=weight~height,data=dat)Coefficients:(Intercept)height-88.67740.8902(1)最小二乘估计dat是一个dataframe,有两个变量:height和weightR中线性模型拟合(2)最小一乘估计估计方法R代码输出的结果print(fit$coef);Coefficients:(Intercept)x-88.67740.8902几个有用的函数:summary、names高斯200年前计算谷神星轨道时提出dat=read.table(‘height-weight.txt’,sep=‘’);1.3参数推断(假设检验、置信区间)iixyˆˆˆ)ˆ()ˆ(yyyyyyiiiiniiiniiniiyyyyyy121212)ˆ()ˆ()(总平方和SStot自由度=n-1回归平方和SSreg自由度=1残差平方和SSerr自由度=n-2回归平方和占总平方和的比重越大,则X能解释Y的部分越大!回归方程越好!toterrtotregSSSSSSSSR12summary(fit)$r.squared[1]0.693347niiyny11方差分解度量方法预测值:F检验)2/(1/nSSSSFerrreg适用条件:误差e1,…,en独立同分布,服从正态分布。anova(fit)AnalysisofVarianceTableResponse:yDfSumSqMeanSqFvaluePr(F)x1523.71523.7129.3930.0001168***Residuals13231.6317.82---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.自由度平方和平均平方FP-值如果误差e独立同分布服从正态分布,则零假设成立时,F服从自由度为1和n-2的F分布方差分析表回归部分残差部分0:0HF统计量t检验:回归系数的显著性检验零假设:回归系数等于0R代码summary(fit)$coefEstimateStd.ErrortvaluePr(|t|)(Intercept)-88.677425928.3051787-3.1329050.0079283231x0.89015530.16418845.4215480.0001167570参数估计标准差T统计量p-值)ˆ(ˆseT零假设成立、误差独立同分布且服从正态分布时,T服从自由度为n-2的t分布tn-2适用条件:误差e独立同分布服从正态分布样本量不太小时,误差分布偏离正态分布不是很大时仍适用,即对正态性假设不是很敏感ANOVA:0.0001168F检验(方差分析):模型选择,比显著性检验应用范围更广,但不同模型选择需要分别做模型拟合。t检验(显著性检验):一次拟合可以给出多个系数的检验结果区间估计))ˆ(ˆ),ˆ(ˆ(2/1,22/1,2setsetnnR代码confint(fit)2.5%97.5%(Intercept)-149.8270467-27.527805x0.53544791.244863的95%置信区间是(0.5354479,1.244863)落在(0.5354479,1.244863)的概率是95%?错!样本的两重性:抽样前是随机的,抽样后是非随机的。定义置信系数的双侧置信区间,常取为0.0511.4回归模型的诊断:残差分析误差项独立同分布且服从正态分布吗?有没有需要剔除的强影响点?par(mfrow=c(2,2));plot(fit);满足下述条件则回归模型适用:残差没有明显的趋势残差的QQ图表明正态性成立Cook距离1强影响点强影响点:对回归方程有较大影响的点如位于散点图的两端且对于斜率的影响大,则应被剔出;位于中上、中下的点对截距影响大,但对斜率影响小,关系不大。有强影响点后的回归直线没有强影响点的回归直线1.残差散点图2.残差Q-Q图3.位置(拟合值)-尺度图4.Cook距离与杠杆图Cook距离1或leverage2p/n为强影响点稳健回归法:最小一乘估计(最小绝对偏差,LAD)黑线为LAD回归直线require(quantreg);fit1.lad=rq(weight~height,data=dat1);警告信息:Inrq.fit.br(x,y,tau=tau,...):Solutionmaybenonuniquelines(dat1$height,fit1.lad$coef[1]+fit1.lad$coef[2]*dat1$height,type='l',lwd=2,col='black');最小二乘估计最小一乘估计优点计算简单解唯一最有效(模型假设成立时)可给出方差分析表对模型假定稳健对奇异值不敏感缺点对正态性假定高要求方差一致性对于奇异值敏感计算复杂度较高解可能不唯一会损失一些效率目前的方差分析不成熟没有一个方法可以完全打败其他的方法,需要在实践中根据具体情况选择最合适的方法1.5多重线性回归包含多个自变量X1,…,Xp的线性模型eXXYpp11R代码变量选择将真正有对因变量有贡献的自变量选出来。准则:AIC、BIC筛选方法:向前发向后法、逐步法eXXXXXXXXYpppppp1,13113211211...包含多个自变量的结果自变量越多,拟合的残差越小降低估计的效率,可能使得那些真正对因变量有贡献的自变量的效应不显著,过度拟合也会降低预测的准确性(overfit).只有主效应包含主效应和二阶交互效应dat=data.frame(y,x1,x2,x3,x4);fit=lm(y~.^4,data=dat);fit.aic=step(fit);X112X2=1X2=2交互效应为0Y随X1的变化而变化,但是其趋势不受X2影响YX112交互效应不为0Y随X1的变化而变化,且其趋势受X2的影响YX2=2X2=21.6Box-Cox变换通过残差诊断发现残差不太正态时,可以考虑进行Box-Cox变换(powertransformation),使得因变量变换后进行回归分析的残差更正态,统计分析结果更可信。R代码require(MASS);bc=boxcox(weight~.,data=dat,lambda=seq(-1,2,0.1));lambda=bc$x[which.max(bc$y)];#install.packages('TeachingDemos');require(TeachingDemos);weight.bc=bct(dat$weight,lambda);…用变换后的因变量代替原有因变量给出不同lambda值对应的似然值最大似然值对应的lambda0),log(0,1)(xxxzBox-Cox变换2.相关分析2.1Pearson相关系数2.2相关系数的统计推断2.3偏相关系数2.4秩相关、多重相关相关分析用于两个或多个变量之间的初步分析X与Y的Pearson相关系数的样本方差的样本方差的样本协方差与YXYXr不相关与负相关与正相关与YXYXYX,0,0,0Pearson相关系数与回归系数的关系的样本标准差的样本标准差的标准差的标准差YXrYXˆ2.1Pearson相关系数的方差的方差的协方差与YXYX样本Pearson相关系数度量两个变量的相关程度2.2相关系数的统计推断零假设:0检验统计量(Fisher变换):rrz11log21z渐近正态*,11log21NR代码cortest=cor.test(dat$height,dat$weight,conf.level=0.95,alternative=two.sided);print(cortest$estimate);#rcor0.8326746print(cortest$statistic);#zt5.421548alternative可选项:”two.sided”,“less”,“greater”print(cortest$p.value);#p-值[1]0.0001167570print(cortest$conf.int);#置信区间[1]0.55874230.9427914attr(,conf.level)[1]0.952.3偏相关系数如何控制分层等混杂因素的影响?R代码(x,y,z)控制Z(可以是多维的)的影响下估计/检验X与Y的相关系数YYYXXXeZYeZX''的相关系数与YXeeˆˆ对每一层分别进行相关分析,缺
本文标题:回归分析与相关分析
链接地址:https://www.777doc.com/doc-3217804 .html