您好,欢迎访问三七文档
关联性分析方法分类(定量资料)应变量(Y)自变量(X)分析方法回归分析相关分析一个一个简单回归Simpleregression简单相关Simplecorrelation一个多个多重回归Multipleregression复相关系数multiple~偏相关系数partial~多个多个多元回归Multivariateregression典型相关Canonicalcorrelation其它常用多元方法多元方差分析、主成分分析、因子分析结构方程模型、聚类分析、判别分析回归分析与Pearson其人皮尔逊推广了高尔登(Golton)的相关结论和方法,推导出人们称之为“皮尔逊积差”的公式,给出了简单的计算:说明对三个变量的一般相关理论,并且赋予多重回归方程系数以零阶相关系数的名称。他意识到只有通过回归才能回答韦尔顿提出的关于出现相关器官的选择问题,意识到要测定复回归系数值,须广泛搜集所有变量的均数、标准差和相关的数据。他提出了净相关、复相关、总相关、相关比等概念,发明了计算复相关和净相关的方法及相关系数的公式。实例例15-1:试建立血糖与其他几项指标的多重线性回归方程主要内容统计描述:–多重回归与多重相关的概念–多重回归方程与复相关系数–拟合优度与决定系数统计推断(假设检验)–总体回归方程的方差分析–偏回归系数的t检验最优模型的筛选注意问题多重回归方程:定量刻划出一个因变量Y与多个自变量X1,X2…之间的线性依存关系。其中:–变量可以是随机变动的,也可以人为选定–因变量是服从状态分布的随机变量若所有变量都是随机的,还可做多重相关来描述因变量与一组自变量之间的线性关系;用偏相关(partialcorrelation)描述因变量和一个自变量在扣除其他自变量影响之后的线性相关。多重回归与多重相关的定义简单线性回归推广为β0相当于简单回归中的αβi为偏回归系数,反映了当其他自变量对因变量的影响固定时,第i个自变量xi每改变一个单位后因变量的平均变化样本多重回归方程:mmxbxbxbby22110mmYXXX...22110第一节多重回归方程一个因变量y多个自变量x1,x2,…,xmn个个体组成的随机样本一、线性回归模型的前提条件L-I-N-E1.线性(Line):自变量和因变量之间的关系有线性趋势2.独立性(Independence):总体中的个体之间相互独立3.正态性(Normal)给定一组x值后,相应的y值服从正态分布4.等方差(Equalvariance)各x值变动时,相应的y有相同的变异度二、多重回归方程的求解用最小二乘法寻找适宜的系数b0,b1,b2…bm,使得误差(残差)平方和最小。计算复杂,一般需借助计算机完成niiiyy12)(估计结果单变量散点图Correlations1.632-.355.415.559.6321-.039.219.459-.355-.0391-.330-.510.415.219-.3301.610.559.459-.510.6101总胆固醇甘油三脂胰岛素糖化血红蛋白血糖总胆固醇甘油三脂胰岛素糖化血红蛋白血糖Coefficientsa5.9432.8292.101.047.142.366.078.390.701.351.204.3091.721.099-.271.121-.339-2.229.036.638.243.3982.623.016(Constant)总胆固醇甘油三脂胰岛素糖化血红蛋白Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:血糖a.SPSS分析结果转t检验偏回归系数标准误标准回归系数三、假设检验总体回归方程的整体检验——方差分析总体偏回归系数的假设检验——t检验拟合优度检验——决定系数、调整决定系数与方差分析模型筛选过程中的检验——偏回归平方和三、多重回归的方差分析用于回答总的来说回归方程是否成立H0:β1=β2=…=βm=0H1:β1,β2,…,βm不全为0222ˆˆYYYYYY总=回+误差总=n-1回=m误差=n-(m+1)SSSSSS总回残ANOVAb133.711433.4288.278.000a88.841224.038222.55226RegressionResidualTotalModel1SumofSquaresdfMeanSquareFSig.Predictors:(Constant),糖化血红蛋白,甘油三脂,胰岛素,总胆固醇a.DependentVariable:血糖b.方差分析结果方差分析表SPSS分析结果四、偏回归平方和SSSSSS总回残SS偏回归(X1)SS偏回归(X2)SS偏回归(X3)SS偏回归(X4)F=MS偏回归(X1)MS偏回归(X2)MS偏回归(X3)MS偏回归(X4)MS残差MS残差MS残差MS残差五、偏回归系数的假设检验回归方程有统计学意义并不说明每一个偏回归系数都有意义H0:βi=0H1:βi≠0i=1,2,…,m1,0ibiisbtSPSS结果标准化偏回归系数?P值大小能反映自变量对应变量影响的大小吗?偏回归系数大小能反映自变量影响的大小吗P值越小只是越有理由认为某自变量对应变量有影响,并不表明影响越大。偏回归系数大小受自变量单位与量刚影响,不能由偏回归系数的大小直接说明某自变量对应变量的影响大小。这种影响大小及方向通过标准化偏回归系数来反映偏回归系数计算:数据中心化估计系数各个自变量标准化后所求得的标准化回归方程b0=0,各标准化回归系数间可以直接比较绝对值的大小,反映自变量对应变量的线性影响大小上例标准化偏回归系数结果misxxxiiijij,...,2,1,'六、评价拟合效果的重要统计量决定系数R2:越接近于1,回归效果越好,本例R2=SS回/SS总=133.711/222.552=60.08%剩余标准差:即残差均方的平方根。回归估计精度的指标,其值越小,估计精度越高。ANOVAb133.711433.4288.278.000a88.841224.038222.55226RegressionResidualTotalModel1SumofSquaresdfMeanSquareFSig.Predictors:(Constant),糖化血红蛋白,甘油三脂,胰岛素,总胆固醇a.DependentVariable:血糖b.常用于评价所拟合的回归方程的好坏程度,但是不能单靠增加自变量的数目来提高决定系数。全面地衡量,应当是既要确定系数大,又要自变量数目少,为此可采用校正确定系数)1/)1/112nSSmnSSMSMSadjR((总残总残调整的决定系数AdjR2=0.5282六、多重相关(multiplecorrelation)当自变量和因变量均为多元正态分布的随机变量时,才考虑进行相关性分析。1.简单相关系数:对于一组随机变量x1,x2,…,xm和y的样本,可计算其中任何两个变量间的相关系数。可列成相关系数矩阵。推断各总体简单相关系数是否为0的假设检验可用t检验或查r界值表一个变量与一组变量的的相关的密切程度可由复相关系数反映,即Y和的简单相关系数前例R2=0.6008,R=√0.6008=0.7751复相关系数的平方就是决定系数。其是否为0的假设检验等价于多重回归的方差分析。总回SSSSyyyyYYcorrRii22)()(),(Y2.复相关系数:设总体中扣除q个变量影响后的偏相关系数为ρ(-q),样本中相应的偏相关系数为r(-q),H0:ρ(-q)=0,H1:ρ(-q)≠02,122)()(qnrqnrtqq在其他变量不变的情况下,某两个变量间的相关系数。3.偏相关系数:第二节回归分析中自变量的选择回归方程中的自变量并非多多多多益善回归方程中的自变量并非都有统计学意义回归方程中的自变量并非都符合专业解释最优模型筛选目标:如何选择最好的、符合专业解释的回归模型用较少的自变量建立回归方程要求:选择自变量首先要靠背景知识来指导,所选方程符合专业知识,最后还要靠其来验收方法:全局择优、局部择优选择自变量的标准全局择优法:对自变量的所有组合考察评价准则1、决定系数与调整决定系数最大:要求自变量个数不得过小或过大。2、Cp统计量Cp统计量最小:1973年,由Mallows提出(n-p-1)(MS误差,p/MS误差,全-1)+(p+1)Cp统计量越接近p+1的回归方程为最佳方程3、Up最大:)2)(1(12pnpnRUp1973年由日本学者赤池提出计算公式AIC越小越好4、AIC准则(Akaikeinformationcriterion)pnSSnAIC2ln残差SAS获得的几个准则值结果Rc2CPAICRc2CPAICX10.28443250.857X2X40.4395345.16X20.17864254.579X3X40.43542345.356X30.23063252.814X1X2X30.40756447.507X40.34653248.405X1X2X40.44683445.655X1X20.27478352.116X1X3X40.48797443.568X1X30.37522348.091X2X3X40.54563440.343X1X40.44137345.07X1X2X3X40.52823542.157X2X30.40748346.66二、逐步选择变量的方法1.向前引入法(forwardselection):前进法将与y简单相关系数最大且F检验又有意义的选为第一个变量,…直到不再拒绝H0。注:一次只能引入一个自变量,若两个变量在一起效果好,单独一个却不好时,则该变量无机会选中。2.向后引入法(backwardselection):后退法首先对全部候选自变量建立回归方程,然后一个个剔除无统计学意义的变量,直到再不能剔除。在向前引入的每一步之后都考虑从已引入方程的变量中剔除相形见绌者。先规定两个值F引入和F剔除,F引入F剔除,引入和剔除交替进行,直到无可引入和剔除为止。调整两个F值可影响筛选结果。小样本检验水准a定为0.10或0.15,大样本定为0.05。值越小表示选取自变量的标准越严。注意,引入变量的检验水准要小于或等于剔除变量的检验水准。3.逐步引入-剔除法(stepwiseselection)前进法:容易忽略有意义的变量局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。后退法:容易引进更多的变量局限性:自变量高度相关时,可能得不出正确的结果。逐步法:所选变量比较精悍,但计算繁琐三种方法比较Coefficientsa3.0062.3641.272.215-1.8627.874.978.254.6103.845.001.4541.5021.3102.308.568.576-3.4536.073.732.259.4562.833.009.1991.266.678.296.3692.290.031.0671.2884.3092.7761.552.134-1.43310.051.635.253.3962.507.020.1111.160.545.293.2971.861.076-.0611.151-.219.122-.274-1.785.088-.472.0355.9432.8292.101.047.07711.809.638.243.3982.623.016.1341.143.142.366.078.390.701-.616.901-.271.121-.339-2.229.036-.522-.019.351.204.3091.721.099-.072.7756.5002.3962.713.01
本文标题:多重回归与相关
链接地址:https://www.777doc.com/doc-3271313 .html