您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 线性相关与回归(简单线性相关与回归多重线性回归Spearman等级相关)
SPSS软件在医学科研中的应用何平平北大医学部流行病与卫生统计学系Tel:82801619线性相关与回归内容:多重线性回归分析简单线性相关与回归Spearman等级相关特例(一)直线回归(linearregression)1.定义:用直线方程表达X(自变量,independentvariable;解释变量,explanatoryvariable;预测变量,predictorvariable)和Y(因变量,dependentvariable;响应变量,responsevariable;结局变量,outcomevariable)之间的数量关系。一、简单线性相关与回归ˆYabXˆY:是Y(实测值)的预测值(predictedvalue),是直线上点的纵坐标。对于每一个X值,根据直线回归方程都可以计算出相应的Y预测值。(具体计算过程参见《卫生统计学》第4版)。2.b和a的意义a:是回归直线在Y轴上的截距,即X=0时Y的预测值。b:是回归直线的斜率,又称为回归系数。表示当X改变一个单位时,Y的预测值平均改变|b|个单位。3.b和a的估计最小二乘方法(themethodofleastsquares):各实测点到直线的纵向距离的平方和最小。4.b的假设检验:b为样本回归系数,由于抽样误差,实际工作中b一般都不为0。要判断直线回归方程是否成立,需要检验总体回归系数是否为0。只有当0时,才能认为直线回归方程成立(具有统计学意义)。H0:=0H1:0bbtS方法一:t检验方法二:F检验MSFMS回归剩余两种方法等价,Ft5.直线回归方程的置信区间估计(1)总体回归系数的95%置信区间估计0.05/2,2nbbts(2)Y的均数的95%置信区间估计当X=X0时,以95%的概率估计Y的均数的置信区间为ˆ0.05/2,2ˆnYYts(3)个体Y值的95%容许区间估计当X=X0时,以95%的概率估计个体Y值的波动范围为ˆ0.05/2,2ˆnYYYts1.定义描述具有直线关系的两个变量之间的相互关系。(二)直线相关(linearcorrelation)r:相关系数,correlationcoefficient用来衡量有直线关系的两个变量之间相关的密切程度和方向。-1r1r0,正相关;r=1为完全正相关r0,负相关;r=-1为完全负相关|r|越大,两变量相关越密切(前提:r有统计学意义)2.相关类型正相关:0r1负相关-1r0零相关r=02.相关类型曲线相关r为样本相关系数,由于抽样误差,实际工作中r一般都不为0。要判断两变量之间是否存在相关性,需要检验总体相关系数是否为0。212rrrtsrn只有当0时,才能根据|r|的大小判断相关的密切程度。3.r的假设检验H0:=0H1:04.相关与回归的区别和联系(1)相关与回归的意义不同相关表达两个变量之间相互关系的密切程度和方向。回归表达两个变量之间的数量关系,已知X值可以预测Y值。从散点图上,散点围绕回归直线的分布越密集,则两变量相关系数越大;回归直线的斜率越大,则回归系数越大。(2)r与b的符号一致同正同负。(3)r与b的假设检验等价(4)可以用回归解释相关2SSrSS回归总r2称为决定系数(coefficientofdetermination),其越接近于1,回归直线拟和的效果越好。4.相关与回归的区别和联系例1为研究中年女性体重指数和收缩压的关系,随机测量了16名40岁以上的女性的体重指数和收缩压(见数据文件p237.sav)。变量说明:X:体重指数;Y:收缩压(mmHg)。1.绘制散点图散点图显示:收缩压与体重指数之间有线性相关趋势,因此可以进一步做直线回归与相关2.直线回归与相关分析Regression,回归Linear,线性2.直线回归与相关分析因变量自变量P值相关系数r决定系数r2调整r2截距a回归系数bsb标准化回归系数t值P值F值3.直线回归的预测及置信区间估计给定X=X0,预测Y3.直线回归的预测及置信区间估计因变量自变量统计保存(产生新变量,保存在当前数据库)3.直线回归的预测及置信区间估计总体回归系数的置信区间估计3.直线回归的预测及置信区间估计预测值非标准化预测区间Y的均数个体Y值总体回归系数的95%置信区间预测值残差3.直线回归的预测及置信区间估计3.直线回归的预测及置信区间估计X0Y的预测值Y的均数的置信区间的下限及上限个体Y值的容许区间的下限及上限例2:由于改革开放政策,深圳特区中外来人口大幅度增加,为了考察特区中外来人口对本地经济发展的贡献,深圳特区统计局收集了所属的宝安县在1987年末18个镇的人口与工农业总产值数据(见数据文件reg.sav)。此处把工农业总产值当作因变量(W),而把外地及本地人口数当作两个自变量(Z1,Z2)。二、多重线性回归分析(有关统计方法的原理及计算参见孙尚拱,《医学多变量统计与统计软件》,北京医科大学出版社,2000)数据文件reg.sav1.如何估计自变量与因变量之间的相互关系?(估计回归方程)2.哪些自变量对因变量有影响?(影响因素分析)3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性分析)4.如何用自变量预测因变量?(预测分析)(一)多重回归分析的任务(二)多重回归分析的适用条件1.自变量与因变量之间存在线性关系2.残差的正态性3.残差的等方差性4.剔除强影响点(突出点,outliers)5.自变量之间不应存在共线性6.独立性关于独立性:所有的观测值是相互独立的。如果受试对象仅被随机观测一次,那么一般都会满足独立性的假定。但是出现下列三种情况时,观测值不是相互独立的:时间序列、重复测量等情况。SPSS软件在“LinearRegression:Statistics”对话框中,提供了Durbin-Watson统计量d,以检验自相关系数是否为0。当d值接近于2,则残差之间是不相关的。1.如何估计自变量与因变量之间的相互关系?(估计回归方程)01122....mmybbxbxbx01122ˆ....mmybbxbxbx其中y为实测值,为预测值(predictedvalue)ˆy估计模型中系数的方法:最小二乘方法(LeastSquare,LS),即残差平方和最小。b1,b2…..bm称为偏回归系数(partialregressioncoefficient):当固定其他变量时,xm每增加一个单位,y的增加值都是bm。(一)多重回归分析的任务模型拟和的优良性指标R:复相关系数,反映了Y与M个自变量的总体相关系数;R2:决定系数(RSquare)R2c:调整决定系数(AdjustedRsquare),是对决定系数的修正,是更客观的指标。这些指标越接近于1,说明回归模型拟合越好。除了上述指标,还有残差标准误s,残差标准差越小,说明回归模型拟合越好。2.哪些自变量对因变量有影响?(影响因素分析)对回归模型的统计检验1regSSnmFmSSE当P0.05,则认为此回归模型有显著性。对自变量的统计检验/()iitbseb当P0.05,则认为此自变量对因变量有影响。自变量的筛选实际应用中,通常从专业知识出发,建立一个简约(parsimonious)的回归模型,即用尽可能少的自变量拟合模型。常用方法:1.前进法(Forward):逐步增加变量到模型中(由少到多),对已经进入的变量不再剔除;SPSS中默认的选入自变量的检验水准为0.05。2.后退法(Backward):从模型中逐步剔除变量(由多到少),对已经剔除的变量不再进入;SPSS中默认的剔除自变量的检验水准为0.10。3.逐步法(Stepwise):结合了前进法和后退法,变量边进入边剔除。3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性分析)当自变量的量纲相同时,衡量自变量相对重要性的指标:偏回归系数;若偏回归系数的绝对值越大,则相应自变量对因变量的影响就越大。当自变量的量纲不同时,衡量自变量相对重要性的指标:标准化偏回归系数(Standardizedregressioncoefficient)、偏相关系数(PartialCorrelation)和部分相关系数(PartCorrelation)。上述指标的绝对值越大,则相应自变量对因变量的影响就越大。标准化偏回归系数:对自变量、因变量作标准化处理后计算的回归系数。偏相关系数:因变量与自变量均扣除其他自变量影响之后,二者之间的相关系数。与简单相关系数(Pearson相关系数)不同;例如:考察因变量Y与自变量X1、X2的多元回归分析,Y与X1的偏相关系数为扣除X2影响后的Y与X1的相关性。Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性。部分相关系数:自变量扣除其他自变量影响之后,因变量与自变量之间的相关系数。与偏相关系数不同,部分相关系数中因变量未扣除其他自变量的影响。4.如何用自变量预测因变量?(预测分析)000001122ˆ....mmybbxbxbx当自变量取某个数值时,y的预测值为Y的均数的95%置信区间个体Y值的95%容许区间预测分析时,(x10,x20……xm0)应该在样本的自变量取值范围内。1.自变量与因变量之间存在线性关系通过绘制y与每个自变量的偏相关散点图,可以判断y与自变量之间是否存在线性关系。2.残差的正态性通过绘制标准化残差的直方图以及正态概率图(P-P图),可以判断y是否服从正态分布。此条件可以放宽,只要不是严重偏离正态即可。3.残差的等方差性通过绘制标准化残差与预测值的散点图,若标准化残差在零水平线上下波动,无明显的规律性,则可以判断y满足等方差的假定。(二)多重回归分析的适用条件通过标准化残差(StandardizedResiduals)、学生氏残差(StudentlizedResiduals)来判断强影响点。当指标的绝对值大于3时,可以认为样本存在强影响点。删除强影响点应该慎重,需要结合专业知识。以下两种情况可以考虑删除强影响点:1.强影响点是由于数据记录错误造成的;2.强影响点来自不同的总体。4.剔除强影响点(Influentialcases;或称为突出点,outliers)5.自变量之间不应存在共线性(Collinear)当一个(或几个)自变量可以由其他自变量线性表示时,称该自变量与其他自变量间存在共线性关系。常见于:1.一个变量是由其他变量派生出来的,如:BMI由身高和体重计算得出;2.一个变量与其他变量存在很强的相关性。当自变量之间存在共线性时,会使回归系数的估计不确定、预测值的精度降低以及对y有影响的重要自变量不能选入模型。共线性诊断方法:1.TOL(容许度,Tolerance)法:TOL越接近零,共线性越大。2.VIF(方差膨胀因子,VarianceInflationFactor,VIF)法:VIF越大,共线性越大。3.特征根(Eigenvalue)法:如果自变量相关矩阵的特征根近似于零,则自变量之间存在共线性。4.CI(条件指数,ConditionIndex)法:CI越大,共线性越大。当自变量之间存在共线性时,可以剔除某个自变量或者采用岭回归分析(RidgeRegressionAnalysis)。1.数据预处理:根据经济学专业知识,需要先对Z1、Z2、W作对数变换,分别记为X1、X2、Y。(三)多重线性回归:实例分析变换后的数据回归线性2.多重回归分析因变量自变量Statistics对话框回归系数的估计模型拟和共线性诊断部分相关与偏相关系数统计描述Plots对话框标准化残差图直方图正态概率图,P-P图绘制所有的偏相关图Save对话框分别给出Y、X1、X2的均数与标准差相关系数阵简单相关系数(Pearson相关)P值从简单相关系数可见:Y与X1、X2存在较强相关性,X1、X2存在中等相关性。3.输出结果解释复相关系数决定系数调整决定系数F值P值此模型的复相关系数为0.857,调整决定系数为0.699,反映此模型拟和较好;模型经统计学检验,F=20.738,P
本文标题:线性相关与回归(简单线性相关与回归多重线性回归Spearman等级相关)
链接地址:https://www.777doc.com/doc-2057186 .html