您好,欢迎访问三七文档
多元线性回归分析内容•概述•基本原理•数学模型•方法步骤•逐步回归方法•多元相关分析•应用内容•概述-问题-解决方案•基本原理•数学模型•方法步骤•逐步回归方法•多元相关分析•应用xyεx2yεx1x3x2y1ε1x1x3y2ε2一元回归分析多元回归分析多变量回归分析x2y1ε1x1x4y2ε2x3y3ε3路径分析多元统计分析方法架构推断性统计学分析(其他)多因子方差分析多变量方差分析多元线性回归分析广义线性模型分析多元Logistic回归分析Poisson回归模型分析对数线性模型分析生存分析主成分分析聚类分析判别分析典型相关分析路径分析因子分析结构方程模型分析时间序列分析广义估计模型内容•概述•基本原理•数学模型•方法步骤•逐步回归方法•多元相关分析•应用两自变量与应变量的散点图两自变量与应变量的拟合面bj为xj方向的斜率内容•概述•基本原理•数学模型•方法步骤•逐步回归方法•多元相关分析•应用y=0+1x1+...+mxm+ε因变量自变量偏回归系数残差多元线性回归必须满足的假定条件•因变量是服从正态分布的连续型随机变量;•k个自变量是固定变量,即非随机或无度量误差的变量;•k个自变量间不存在多重共线性;•k个自变量与残差独立;•残差是随机变量,均值为零,方差为常数;•各残差间相互独立;•残差服从正态分布。•因变量是服从正态分布的连续型随机变量;•k个自变量是固定变量,即非随机或无度量误差的变量;•k个自变量间不存在多重共线性;•k个自变量与残差独立;•残差是随机变量,均值为零,方差为常数;•各残差间相互独立;•残差服从正态分布。统计检验结果偏倚结果失真结论的非唯一性模型中缺乏重要变量参数估计偏倚结果误导y=0+1x1+...+mxm+ε自变量的数量化(1)自变量为连续型变量(必要时作变换)(2)自变量为有序变量(依次赋值,如疗效好中差,可分别赋值3、2、1)(3)自变量为二分类(可令男=1,女=0)(4)自变量为名义分类(需要采用哑变量(dummyvariables)进行编码)名义分类变量的哑变量化-假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下:内容•概述•基本原理•数学模型•方法步骤-参数估计-检验参数-检验模型-模型诊断•逐步回归方法•多元相关分析•应用nyyyy21nknkkxxxxxxx12211111111k10neeee21exy采用最小二乘法xyxyeeeQTTnii12参数估计yxxxbTT1xbyxbyknsT111xxaTijjjbjass偏回归系数估计残差的标准差估计偏回归系数的标准误估计yxjjjssbb'标准化的偏回归系数用以说明自变量中各自变量对因变量的相对影响大小检验参数bjjsbt0bjknjstb1,偏回归系数的100(1-α)%置信区间kkxbxbby110检验模型222iiiiyyyyyy剩回总SSSSSS1//knSSkSSF剩回复确定系数总回SS2SSR调整复确定系数1/1/12nSSknSSRadj总剩多元线性回归模型方差分析表SourceSumofSquaredfMeanSquareF-valuep-valueregressionyonx1,…,xkSSregkMSreg=SSreg/kF=MSreg/MSE~F(k,n-k-1)ErrorSSEn-k-1MSE=SSE/(n-k-1)TotalSSTn-1模型诊断多重共线性检验自变量间存在着相关关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(multicollinearity)。多重共线性的识别与解决办法-回归系数的符号与专业知识不符-变量的重要性与专业不符-R2高,但各自变量对应的回归系数均不显著-方差膨胀因子(VarianceInflationFactors,VIF)10-筛选自变量-用主成分回归-岭回归残差分析-用全部观察对象的资料建立起回归方程后得到的残差称为普通残差。普通残差的敏感性较差,其原因是回归方程中包含了残差所对应的观察点的信息。-另一种残差称为预报残差(predictionresidual),它是用不含该观察点信息的回归方程来计算该观察点的平均预报值所得到的残差,因此能更好地反映出该观察点远离回归线的情况。如果该例的普通残差较小而预报残差很大,则表示该观察点是对回归方程影响较大的特异点,应对该资料的来源作深入的分析。内容•概述•基本原理•数学模型•方法步骤•逐步回归方法•多元相关分析•应用1.前进法(forwardselection)2.后退法(backwardelimination)3.逐步回归法(stepwiseregression)它们的共同特点是每一步只引入或剔除一个自变量。决定引入或剔除基于对偏回归平方和的F检验。1;1;)1(21)(pnpnSSSSSSFjj残回回前进法后退法逐步回归法变量进出方程的过程自变量从无到有、从少到多先将全部自变量放入方程,然后逐步剔除双向筛选;引入有意义的变量(前进法),剔除无意义变量(后退法)特点和要求Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大)。小样本检验水准a定为0.10或0.15,大样本把值定为0.05。值越小表示选取自变量的标准越严。在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,…。建立新的回归方程。重复上述过程。注意,引入变量的检验水准要小于或等于剔除变量的检验水准。局限性即后续变量的引入可能会使先进入方程的自变量变得不重要。自变量高度相关时,可能得不出正确的结果。内容•概述•基本原理•数学模型•方法步骤•逐步回归方法•多元相关分析•应用偏相关系数23,243,1423,243,143,1234,1211rrrrrr2231322313123,1211rrrrrr几个相关系数的区别简单相关系数复相关系数偏相关系数内容•概述•基本原理•数学模型•方法步骤•逐步回归方法•多元相关分析•应用1)确定多个指标变量与一个反应变量之间的线性关系。例如,温度,湿度以及大气污染物的浓度与发病率的关系。2)筛选疾病的危险因素和有利于健康的健康促进因素。例如,在肿瘤、冠心病等疾病的病因研究中,应用多元线性回归分析,可以从众多的相关因素中筛选出疾病的主要危险因素,并估计出这些危险因素的对引起疾病发生的相对重要程度。3)从较易测得的自变量来推测较难测得的自变量。例如,从健康人测得的身高,体重,年龄和身体的表面积的数据回归得到的模型可以用来估计烧伤病人的身体表面积。4)从已发生的x来预测将发生的y。例如,根据病人手术后所观察的一些指标和手术后的存活时间,建立手术后存活时间与这些指标之间的多元回归方程,可以预测其它同类型病人手术后的生存时间。5)用于建立专家辅助诊断系统。利用著名医生诊断疾病的各项检验指标和诊断结果,建立各种疾病的发病率或死亡率和这些指标之间的关系,其他人可以借助这个模型分析病情,这就是专家辅助诊断系统。内容•概述•基本原理•数学模型•方法步骤•逐步回归方法•多元相关分析•应用-实例分析为了了解和预测人体吸入氧气的效率,收集了30名中年男性的健康状况调查资料。共调查了7个指标,它们是:吸氧的效率(y),年龄(x1),体重(x2),跑1.5公里所需的时间(x3)---以分钟计算,休息时的心跳次数(x4),跑步时的心跳率(x5),和最高心跳率(x6),数据列在表中。该问题中吸氧的效率(y)是因变量,其余6个变量是自变量。试用多元回归分析建立预测人体吸氧效率的模型。yX1x2x3x4x5x6Yx1x2x3x4x5x644.6094489.4711.376217818240.8365169.6310.955716817245.3134075.0710.076218518546.6725177.9110.004816216854.2974485.848.654515616846.7744891.6310.254816216459.5714268.158.174016617250.3884973.3710.086716816849.8743889.029.225517818039.4075773.3712.635817417644.8114777.4511.635817617646.0805479.3811.176215616545.6814075.9811.957017618045.4415676.329.634816416649.0914381.1910.856416217054.6255070.878.924814615539.4424481.4213.086317417645.1185167.2511.084817217260.0553881.878.634817018639.2035491.6312.884416817250.5414473.0310.134516816845.7905173.7110.475918618837.3884587.6614.035618619250.5455759.089.934914815544.7544566.4511.125117617648.6734976.329.405618618847.2734779.1510.604716216447.9204861.2411.505217017651.8555483.1210.335016617047.4675282.7810.505317017249.1564981.428.9544180185吸氧效率调查数据检验自变量的内相关性【SAS程序】dataeg5_1;inputyx1-x6;cards;44.6094489.4711.3762178182……47.4675282.7810.5053170172run;procregdata=eg5_1;modely=x1-x6/tolvifcollin;run;【SAS部分输出结果】CollinearityDiagnosticsEigenConditionVarPropVarPropVarPropVarPropVarPropVarPropVarPropNovalueIndexintercpX1X2X3X4X5X616.9491.000000.00000.00020.00020.00020.00030.00000.000020.01919.01590.00190.17500.00520.02190.35160.00000.000030.01521.44840.00080.13720.24250.13180.04980.00120.001340.00927.54870.00590.03020.16850.63150.20750.00140.001250.00633.63430.00180.10580.46270.11450.36470.01470.008260.00181.80750.78530.47760.09870.08580.01950.07030.005370.000197.9520.20430.07420.02220.01430.00660.91250.9840用逐步过程法拟和y在x1-x5上的回归模型【SAS程序】procregdata=eg5_1;modely=x1-x5/selection=stepwise;title'Stepwiseregressionanalysis:excludingX6';run;【SAS部分输出结果
本文标题:多元线性回归分析
链接地址:https://www.777doc.com/doc-2503180 .html