您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 昌平-多重线性回归.
中国疾病预防控制中心多重线性回归中国疾病预防控制中心回归回顾起源:高尔顿含义:向均数回归,亢龙有悔,物极必反中国疾病预防控制中心回归方法的用途寻找某现象发生的可能影响因素。确定不同影响因素的相对重要性。建立回归模型,对结果进行预测。中国疾病预防控制中心常用回归模型线性回归Logistic回归Poisson回归Cox回归……………………因变量为连续资料因变量为分类资料因变量为计数资料因变量为生存资料中国疾病预防控制中心因变量与自变量因变量(dependentvariable)又称反应变量(responsevariable)或结果变量,是随机变量,依赖于一个或多个自变量。自变量(independentvariable)有时也被称为解释变量(explanatoryvariable)或预测变量(predictorvariable),是非随机的,不依赖于其它变量。中国疾病预防控制中心线性回归的因变量与自变量因变量必须是定量变量自变量可以是定量变量,也可以是分类变量当因变量有一个,自变量也只有一个时,称为简单线性回归(simplelinearregression)当因变量有一个,自变量有多个时,称为多重线性回归(multiplelinearregression)当因变量有多个,自变量有多个时,称为多元回归(multivariateregression)中国疾病预防控制中心引例温度℃发病率(1/10万)-4.80.78-10.764.16.1411.224.7121.753.7724.747.7328.667.2626.549.3721.335.2813.69.885.89.11-13.96欲分析气温对手足口病发病率的影响,调查了某城市1-12月的气温及手足口病报告发病率,分析手足口病是否随气温的变化而变化中国疾病预防控制中心中国疾病预防控制中心发病率=a+b×温度中国疾病预防控制中心简单线性回归的形式或为y的估计值或预测值(predictedvalue)。a为截距(intercept)、常数项(constant),表示自变量为0时y的估计值。b为斜率(slope)、回归系数(regressioncoefficient),表示x每变动一个单位,y估计值的变化量。e表示随机误差或残差(residual)。bxayˆyˆebxay中国疾病预防控制中心哪条线最接近实际数据?中国疾病预防控制中心最小二乘法中国疾病预防控制中心最小二乘法普通最小二乘法(OrdinaryLeastSquare,OLS)求出使Q值最小的a和b可解得解决工具:手工计算、Excel计算、统计软件……niiniiibxayyyQ1212))(()ˆ(YXXXB')'(1中国疾病预防控制中心Excel数据分析Excel计算利用Mmult函数、Minverse函数Excel分析(2007版)菜单:数据—数据分析—回归选定y值输入范围和x值范围中国疾病预防控制中心SAS分析过程SAS软件Procreg过程:Procreg选项;Model因变量=自变量/选项;Run;中国疾病预防控制中心SAS分析过程datahfm;inputtemphfm;cards;……Procreg;Modelhfm=temp;Run;中国疾病预防控制中心SAS分析结果模型总体估计结果变异分解:总变异=回归所解释变异+残差所解释变异SS总=SS回归+SS残差SumofMeanSourceDFSquaresSquareFValuePrFModel15554.172295554.1722976.82.0001Error10723.0540072.30540CorrectedTotal116277.22629中国疾病预防控制中心SAS分析结果参数估计结果ParameterStandardVariableDFEstimateErrortValuePr|t|Intercept11.943023.659360.530.6070temp11.894050.216118.76.0001中国疾病预防控制中心建立模型建立方程:发病率=1.943+1.894*气温预测:假定气温=20℃时,发病率=1.943+1.894*20=40中国疾病预防控制中心线性回归的一般形式对于m个自变量,线性回归的一般形式:a为截距项,表示自变量均为0时y的估计值。bi为偏回归系数(partialregressioncoefficient),表示其它自变量不变时,xi每变动一个单位,y估计值的变化量。mmxbxbxbayˆ2211中国疾病预防控制中心线性回归的应用条件符合LINE条件L,linearity,线性I,independent,独立性N,normality,正态性E,equalvariance,方差齐性中国疾病预防控制中心线性回归的应用条件线性(linearity)指因变量与自变量呈线性关系,即因变量与自变量在散点图上应大致呈一直线趋势。可简单通过绘制散点图来观察。如不满足,可拟合曲线回归或非参数回归等。中国疾病预防控制中心线性回归的应用条件独立性(independent)指残差之间应相互独立。通常可根据专业知识来判断,对于聚集性数据、多水平数据、时间序列数据等可采用相应的统计方法进行检验。对于非独立数据,可考虑非独立数据模型(如多水平模型)、时间序列分析等。中国疾病预防控制中心线性回归的应用条件正态性(normality)指线性模型的残差应符合正态分布。可绘制残差的正态概率图,也可对残差进行正态性检验。如不满足,可考虑对因变量进行数据变换,使其服从正态分布后再拟合线性回归模型,也可采用非参数回归。中国疾病预防控制中心线性回归的应用条件等方差性(equalvariance)指在自变量取值范围内,对于任意自变量取值,因变量都有相同的误差方差。可通过绘制残差与因变量预测值的散点图来看。理论上,残差应在零水平线上下波动,不应有任何趋势,否则可能提示误差方差不齐。如不满足,可对因变量进行变量变换;或可采用加权回归分析,消除方差不齐的影响。中国疾病预防控制中心残差图示例中国疾病预防控制中心线性回归的分析思路1.前提条件考察对数据的LINE四个条件进行验证,如果符合,可以考虑采用线性回归,否则应根据条件选择其它模型。一般情况下,线性回归模型本身对轻度的条件偏倚有一定程度的“抗性”,非正态性、异方差性等偏离如果不是很严重,仍可采用线性回归。中国疾病预防控制中心线性回归的分析思路2.准备工作——自变量变换如果自变量与因变量是非线性关系,考虑适当的变换常用变换:对数变换指数变换多项式变换……中国疾病预防控制中心线性回归的分析思路3.单因素分析为什么要做单因素分析?自变量较多时,排除意义不大的变量初步探索每一自变量与因变量的大致关系单因素分析时检验水准可适当放宽,可设为0.1、0.15、0.2等均可中国疾病预防控制中心线性回归的分析思路4.多因素分析多因素分析校正了其它自变量的影响,更能反映出某一自变量对因变量的“纯”影响或作用多因素分析的变量筛选原则:“少而精”原则,尽量保留所有对因变量有影响的变量,尽可能地剔除掉可有可无的变量中国疾病预防控制中心线性回归的分析思路4.多因素分析变量筛选方法:向前选择法(forwardselection)向后剔除法(backwardelimination)逐步选择法(stepwiseselection)中国疾病预防控制中心线性回归的分析思路5.模型评价即模型对实际数据的拟合效果如何常用的衡量模型“优劣”的指标:决定系数(R2)校正决定系数(R2adj)残差相关指标MSE、RMSE等赤池信息准则(AIC)中国疾病预防控制中心线性回归的分析思路决定系数R2(determinationcoefficient)反映了因变量的变异能够被自变量所解释的比例R2越大,表示模型中自变量解释能力越强。缺点:其值随着自变量的增多而增加,即使加入无意义的变量,该指标值也会随之增加,因此自变量较多时不能较好地反映模型优劣。残差回归回归SSSSSSR2中国疾病预防控制中心线性回归的分析思路校正决定系数R2adj(adjustedR2)i=1(如果有截距),i=0(如果无截距)p表示待估参数个数(含截距)考虑到了自变量增加对模型的负面影响,可适当消除自变量增加所导致的自由度损失。该值越大,表示模型越优)-(1---122RpninRadj中国疾病预防控制中心线性回归的分析思路残差平方和SS残差y为实际观测值,为模型预测值反映了模型预测值与实际值差别的大小,其值越小,表示模型拟合效果越好2)yˆ-(y残差SSyˆ中国疾病预防控制中心线性回归的分析思路残差方差MSE、残差标准差RootMSE残差方差即残差的方差,也称为剩余方差残差标准差是残差方差的平方根这两个值通常随自变量的增加而减少,但增加无意义的自变量后,其值反而变大,与校正决定系数相似其值越小,反映模型拟合效果越好中国疾病预防控制中心线性回归的分析思路AIC指标SS残差为残差平方和,p为自变量个数(含截距)AIC指标考虑了模型精度,同时增加了对自由度的“惩罚”项。与R2adj相比,对自由度的“惩罚”力度更强拟合标准:其值越小越好2p)nSS(ln残差nAIC中国疾病预防控制中心线性回归的分析思路6.模型诊断常见问题:多重共线性(multi-collinearity)异常点中国疾病预防控制中心线性回归的分析思路模型诊断——多重共线性即多个自变量之间存在高度相关常用共线性诊断指标:方差扩大因子容忍度条件指数中国疾病预防控制中心线性回归的分析思路共线性诊断指标1)方差扩大因子(VarianceInflationFactor,VIF)指由于共线性所导致的参数估计值的方差增加量Rj2是其它自变量对自变量xj的决定系数当VIF大于10,通常表示共线性很强2-11jRjjVIF个回归系数方差无共线性时第个回归系数方差第中国疾病预防控制中心线性回归的分析思路共线性诊断指标2)容忍度(Tolerance,TOL)方差扩大因子VIF的倒数。当TOL小于0.1,通常表示共线性很强中国疾病预防控制中心线性回归的分析思路共线性诊断指标3)条件指数(conditionindex)根据(X’X)可求出k个特征值,λ1≥λ2≥…≥λk为最大特征值与最小特征值之比的平方根,称之为条件数。当条件数大于10,可认为存在共线性条件数大于30,可认为存在严重共线性k/1中国疾病预防控制中心线性回归的分析思路模型诊断——异常点异常点:离群点(outliners)高杠杆点(highleveragepoints)强影响点(influentialpoints)中国疾病预防控制中心线性回归的分析思路离群点(outliners)针对因变量而言,远离其它因变量的值检测指标:学生残差(studentresidual)判断标准:绝对值大于2,考虑可能是离群点iiiihser-1中国疾病预防控制中心线性回归的分析思路高杠杆点(highleveragepoints)针对自变量而言,远离其它自变量的值检测指标:hii,即H矩阵对角线的值参数估计值回顾:H矩阵:,又称帽子矩阵标准:大于(k+1)/n,k为自变量个数YXXXB')'(1')'(1XXXXHHYYXXXXXBY')'(ˆ1中国疾病预防控制中心线性回归的分析思路强影响点(influentialpoints)对模型有较大影响,有没有该点可导致模型的参数估计值发生较大改变DFBETA:删除某观测值后对参数估计值的影响标准:大于DFFITS:删除某观测值后对模型拟合的
本文标题:昌平-多重线性回归.
链接地址:https://www.777doc.com/doc-2311582 .html