您好,欢迎访问三七文档
相关分析与回归分析返回总目录相关分析1.相关关系的概念及分类(1)相关关系的概念变量之间的依存关系可以分为函数关系和相关关系两种。函数关系是指变量之间保持着严格的依存关系,呈现一一对应的特征。而相关关系是指变量之间保持着不确定的依存关系。线性相关用于双变量正态分布的资料。体现相关程度的指标:相关系数r(取值范围:-1≤r≥1)返回本章2.相关关系的识别(1)散点图识别变量间相关关系最简单的方法就是图形法。图形法就是将所研究变量的观测值以散点的形式绘制在相应的坐标系中,通过它们呈现出的特征,来判断变量之间是否存在相关关系,以及相关的形式、相关的方向和相关的程度等。也可以用于发现异常值。典型的散点图0xy0xy0xy0xy0xy0xy(a)0r1(c)r≈1(b)-1r0(g)r≈0(d)r≈-1(h)r≈00xy(e)r≈00xy(f)r≈0同向变化正相关反向变化负相关曲线相关/无线性相关无伴随变化趋势无伴随变化趋势无伴随变化趋势(2)相关系数样本相关系数的计算公式:分母:XY的协方差;分子:X的方差开根号×Y的方差开根号样本相关系数是根据样本观测值计算的,随着取样的不同,相关系数的值也会有所变化。可以证明,样本相关系数是总体相关系数的一致估计量。相关系数:衡量两个变量之间线性相关关系的重要指标YYXXXYlllYYXXYYXXr22)()())((相关系数的特点:①相关系数的符号代表着变量间的相关方向,r0说明两个变量之间正相关,r0则表明两个变量之间负相关。②相关关系的取值介于-1和1之间,它的绝对值越接近于1,意味着变量之间的线性相关程度越强。r=1或r=-1时,说明两个变量之间完全线性相关,r=0,说明两个变量之间不存在线性相关,r的绝对值介于0和1之间时,则说明两个变量之间存在一定程度的线性相关。相关系数强度两变量相关强度的强弱分以下几个等级:当|r|≥0.8,视为高度相关当0.5≤|r|<0.8,视为中度相关。当0.3≤|r|<0.5,视为低度相关。当|r|<0.3,表明2个变量之间的相关程度极弱,在实际应用中可视为不相关。221rntr根据给定的显著性水平和自由度(2n),查找t分布表中的相应临界值2t。如果2tt,就否定原假设,认为r在统计上是显著的,即总体相关系数不为零,总体变量间存在线性相关关系。相关系数的检验提出假设:01:0,:0HH计算t检验统计量:返回本章返回总目录举例举例:分析红细胞内铁含量与血红蛋白的关系。SPSS实现---散点图SPSS实现---散点图SPSS实现---相关系数正态性检验正态资料的用”pearson”;非正态选“spearman”得出:相关系数r=0.744双侧Pearson检验P0.001,有统计学意义,可见,铁含量与血红蛋白相关。相关分析注意事项直线相关条件:变量是正态分布的随机变量。应用直线相关注意事项:必需有实际意义Pearson相关系数相关分析中变量X、Y服从双变量正态分布散点图的作用分层资料对相关的解释:线性回归分析1.回归分析概述(1)回归分析的概念在相关分析确定了变量之间相关关系的基础上,采用一定的计算方法,建立起变量间数量变动关系的公式,并根据一个变量的变化来估计或预测另一个变量发展变化的研究方法,就是回归分析。基本思想:使样本点到回归直线的纵向距离的平方和最小。(点都在线上,距离的平方和=0最好-完全相关)返回本章回归分析和相关分析都是对变量之间不严格依存关系的分析,在理论基础和方法上具有一致性。只有存在相关关系的变量才能进行回归分析,相关程度越高,回归分析结果越可靠。①方向一致:一组数据得出的b和r,符号一致。②假设检验等价:对于同一个样本,假设检验得到的tb和tr值相等③回归可以解释相关:决定系数r2=SS回/SS总,则r2就越接近1,说明相关性好。返回本章回归分析和相关关系之间的联系回归分析和相关关系之间的区别资料要求不同:—线性相关要求两个变量X和Y服从双变量正态分布的随机变量—线性回归要求Y是服从正态分布的随机变量,而X不一定。应用目的、意义不同:相关关系;数量关系。回归系数b表示X每增减一个单位时,Y平均改变b个单位;相关系数r说明具有线性关联的的两个变量间关系的密切程度与相关方向。计算方法不同:b=lxy/lxx,r=lxy/√lxylxx取值范围不同:单位:b有量纲,受X、Y计量单位的影响;r无量纲,不受X、Y计量单位的影响。线性回归模型的前提条件线性(linear)X与Y值之间线性趋势独立(independent)个体观察值间独立正态(normal)给定X,对应的Y服从正态分布等方差(equalvariance)不同X所对应Y的方差相等绘制散点图;计算相关系数研究设计;专业知识判断正态性检验;正态概率P-P图残差图X和Y的散点图残差图正态性检验线性回归的步骤1.根据样本数据求得模型参数(012...m)的估计值(b0b1b2...bm),得到总体回归方程μY=0+1X1+2X2+…..+mXm的估计值(参数估计:最常用最小二乘法)2.对回归方程及各自变量做假设检验;对方程的拟合效果及各自变量的作用大小做出评价(假设检验:①回归方程,②各个自变量)2.回归模型的建立当变量之间存在显著的线性相关关系时,可以建立如下的线性回归模型来表述这种关系。总体线性回归模型为:式中:iY——代表因变量的第i个观测值iX——代表自变量的第i个观测值10、——是模型的参数(又称偏回归系数)01122iiinniiYXXXu偏回归系数12...m的意义:在其他变量取值不变的条件下,X每增加或减少一个单位时,Y的平均变化量。线性回归模型参数的估计方法通常有两种:普通最小二乘法和最大似然估计法。最常用的是普通最小二乘法。最小二乘法的意义在于使达到最小。出使估计值Y和实际观察值Y得残差平方和达到最小值,得到的的两个公式为:22ˆ()iiieyy01bb和1201()iiixxyybxxbybx3.模型的检验在回归模型估计出来以后,首先要对其进行一系列的检验,只有通过了检验的模型才能用于对总体变量的估计或预测。(1)拟合优度的检验决定系数:2R因变量的样本观测值与其均值的离差称为总离差,记为。按其来源,总离差可以分解为两个部分:一是因变量的回归值与其样本均值之间的离差,记为,它代表能够由回归方程所解释的部分,称为回归离差;二是样本观测值与回归值之间的离差,记为,它表示的是不能由回归方程解释的部分,称为剩余离差(残差)。)(yy)ˆ(yy)ˆ(yy返回本章决定系数是衡量自变量对因变量变动的解释程度的指标,它取决于回归方程所解释的y的总离差的百分比。决定系数的公式定义为:决定系数=SS回归/SS总校正决定系数(n为样本容量,k为自变量的个数)意义:用于衡量方程好坏的指标之一,只有有统计学意义的变量进入方程,Radj才会增加2R222ˆ()(1)1()(1)iiiyynkRyyn估计标准误差(SE)估计标准误差是回归模型(即估计值)与因变量观测值之间得平均平方误差。这个误差的值越小,说明估计值越接近真实值,回归模型的拟合度越好。估计标准误差的计算公式为:2ˆ()2iiyySEn作为回归模型拟合优度的评价指标,估计标准误差显然不如决定系数。因为决定系数是无量纲的系数,并且有确定的取值范围(0~1),便于对不同资料回归模型拟合优度的比较。返回本章返回总目录(2)显著性检验通常回归模型的显著性检验包括系数的检验和方程整体的检验两个部分。回归系数的显著性检验是指根据样本计算结果对总体回归系数有关假设所进行的检验,它的主要目的是了解总体自变量与因变量之间是否真正存在样本回归模型所表述的相关关系。回归系数的检验(t检验)返回本章返回总目录方程整体性检验(F检验)假设检验—对整个模型的检验对模型的假设检验:方差分析法(F检验)对模型进行整体检验:H0:1=2=…..=m=0H1:1,2,…..,m不全为0统计量:F不拒绝H0:回归模型无统计学意义拒绝H0:回归模型有统计学意义残差回归残差残差回归回归MSMSSSSSF//假设检验—对各偏回归系数的假设检验t检验:H0:βj=0,H1:βj≠0单个回归系数的t检验:表示其它m-1个自变量均在当前回归模型中存在时,Xj的回归系数βj是否为0的假设检验1,0mnsbtjbjjb假设检验—各回归系数偏回归平方和的F检验P:第L步时,方程中自变量的个数SS回l(Xj):第L步时,Xj的偏回归平方和SS残l(Xj):第L步时的残差平方和回归系数偏回归平方和的F检验:表示其它m-1个自变量均在当前回归模型中存在时,Xj的回归系数βj是否为0的假设检验,与单个回归系数的t检验等价。)1/()(pnSSXSSFljl残回最佳预测模型选择准则1最小残差平方和/最大决定系数准则:条件:自变量个数相同时使用,总残差总回ssssssssR12最佳预测模型选择准则2最小残差均方/最大调整决定系数准则:较最小残差平方和准则合理(考虑变量数量)1mnSSMS残差残差总残差MSMSRadj12自变量筛选全局择优法:对自变量各种不同的组合建立的回归方程进行比较,从全部组合中确定最优回归方程:残差均方最小或调整R2最大的回归方程,适用于自变量较少的情况。缺点:自变量较多时,计算量大。如自变量数=6时,需考虑26-1=63个方程;自变量数=10时,需考虑210-1=1024个方程.自变量筛选逐步选择法是实际应用中普遍使用的方法根据选入变量的顺序不同分为:前进法(forwardselection)后退法(backwardselection)逐步回归法(stepwiseregression)共性:每一步只引入或剔除一个自变量Xj假设检验方法:对偏回归平方和的F检验前进法自变量从无到有,从少到多,逐个引入回归方程1.第一个入选自变量的确定:用因变量Y对每一自变量分别做直线回归,对回归平方和最大的自变量做F检验,有统计学意义则引入模型2.对其它变量,在已选入第一个自变量的基础上,计算其它自变量的偏回归平方和,最大的偏回归平方和F检验有统计学意义,则引入3.重复步骤2,直至没有自变量可以引入为止。优点:可自动去掉高度相关的自变量(一个进入方程后,其它的进不来了)局限性:后续变量的引入,可能会使在其之前进入方程的自变量变得无统计学意义后退法1.因变量Y对所有自变量同时做线性回归2.对方程中偏(净)回归平方和最小的变量做F检验,无统计学意义,则剔除3.因变量Y对剩余的所有自变量同时做线性回归4.重复第2步,直至方程中的自变量均不能剔除为止优点:考虑了自变量的组合作用局限性:当自变量数目较多,或某些自变量间高度相关时,可能得不出正确结果(有共线性时,模型参数估计不稳定)逐步回归法(常用)在前进和后退法的基础上,双向筛选变量的方法,本质是前进法。1.引入第一个自变量进入方程:用因变量Y对每一自变量分别做直线回归,对回归平方和最大的自变量做F检验,有统计学意义则引入模型2.对方程中的每一个自变量,做偏回归平方和的F检验,剔除“退化”为无统计学意义的自变量,确保每次引进新变量前,方程中的自变量均有统计学意义(按剔出标准)3.重复1和2,直至既无自变量可以引入,也无自变量可以剔除为止自变量筛选的检验水准α值小:选取自变量的标准严,选入的自变量少α值大:选取自变量的标准宽,选入的自变量多在逐步选择中,α入≤α出。小样本时,一般定为α=0.10或0.15大样本时,一般定为α=0.05多重回归的应用影响因素分析(不追求最大R2值,根据专业知识和回归系数改变量确定变量)—可以用于疾病的影响因素分析(如遗传特征、感染途径、程度、自身免疫等)估计与预测:(应选择有较高R2值的模型)举例:儿童的性别、年龄别、身高、体重评价生长发育胎
本文标题:相关与回归分析
链接地址:https://www.777doc.com/doc-1560435 .html