您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 多元回归分析首医大研究生2010
Multi-RegressionAnalysis多元回归分析童新元中国人民解放军总医院引例什么是低碳经济?低碳经济是指在可持续发展理念指导下,通过技术创新、制度创新、产业转型、新能源开发等多种手段,尽可能地减少煤炭石油等高碳能源消耗,减少温室气体排放,达到经济社会发展与生态环境保护双赢的一种经济发展形态。研究问题大气污染物一氧化氮NO浓度与汽车流量,气温,空气湿度,风速的关系研究1)怎样进行研究?多元线性回归简介直线相关与回归分析一个自变量和一个因变量间的关系,在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关,而且可能与病床周转次数,床位数等有关,多元回归分析正是为解决这些问题而产生的。1)多元线性回归模型通过实验测得含有p个自变量x1,x2,x3,…,xp及一个因变量y的n个观察对象,利用最小二乘法原理,建立多元线性回归模型:Y^=b0+b1X1+b2X2+…+bpXp。其中b0为截距,b1,b2…bp称为偏回归系数.bi表示当将其它p-1个变量的作用加以固定后,Xi改变1个单位时Y的平均值Y^将改变bi个单位.2)多元回归方程的建立1)求回归系数常用最小二乘估计的方法求解待定系数b0和偏回归系数b1、b2……bp。2)回归方程的检验由样本计算得到的回归方程是总体回归的估计。多元回归方程有没有意义需要作假设检验,采用的是方差分析。3)样本计算得到的这些偏回归系数bi(i=1,2,……p)是总体偏回归系数(i=1,2……p)的估计值。在建立起方程后有必要对这些偏回归系数作检验。3)多元回归的作用(1)建立回归模型:Y^=β0+β1X1+β2X2+…+βpXp;(2)预测预报若已知x1,x2…xp数值大小时,通过模型可以预测y的值以及估计y的变化范围;(3)因素分析找出对因变量y有显著影响的因素。设研究问题中含有p个指标变量x1,x2,…,xp及Y.n个观察对象.其数据结构为:编号X1X2….XPy1x11x12…x1py12x21x22…x2py23x31x32…x3py3………………nxn1xn2…xnpyp4)数据结构5)CHISS的实现点击多元分析→线性回归6)实例讲解例11-1试进行多元回归分析大气污染物一氧化氮NO浓度与汽车流量,气温,空气湿度,风速的关系研究。7)多元回归分析的前提条件(1)线性给定X1,X2…,Xp的数值后,相应的y随机变动,其总体均数y=b0+b1x1+b2x2+…….bpxp(2)独立n个个体之间互相独立;(3)正态给定X1,X2,…,Xp的数值后,相应的y值服从正态分布;(4)等方差当X1,X2,…,Xp的数值变动时,相应的y有相同的方差。三、逐步回归在多元线性回归分析中,研究者往往是根据自己的经验或借鉴他人的研究结果选定若干个自变量,这些自变量对因变量的影响作用是否都有统计学意义还有待于考察。通过多元性线回归分析,常常会发现其中有很多自变量对因变量的影响无意义。同时,也常会遇到自变量间存在共线性的问题,影响到偏回归系数估计和回归方程的“质量”。因此,在建立回归方程的过程中有必要考虑对自变量进行筛选,挑选出若干个与因变量作用较大的变量建立回归方程。剔除那些对因变量没有多大影响的变量,从而建立一个较理想、较稳定的回归方程。1)逐步回归的思想事先给定挑选自变量进入方程的P界值(缺省值P=0.1),开始方程中没有自变量,然后,按自变量对y的贡献大小由大到小依次挑选进入方程,每选入一个变量,都要对已在模型中的变量进行检验,对大于剔除标准的变量要逐一剔除。逐步回归中F值的计算*逐步选择变量每一步都在权衡得失的情形下决定变量的取或舍。每一步都作一次如下的检验:H0:p个自变量为好H1:p+1个自变量为好采用F作为统计量。SS残(H0)-SS残(H1)F=SS残(H1)/(n-p-2)其中SS残(H0)表示用p个变量回归的残差平方和SS残(H1)表示用p+1个变量回归的残差平方和。若F≥F(界值),则拒绝H0,可决定增多相应的自变量;否则,不拒绝H0,可决定不增加相应的自变量。2)CHISS的实现点击多元分析→逐步回归例11-2试大气污染物一氧化氮NO浓度与汽车流量,气温,空气湿度,风速的关系研究进行逐步回归分析。3)Pe和Ps的确定1Pe,Ps需要多次选取。2常取0.5,0.4,0.3,0.2,0.1,0.05.3剔除变量的界值Ps要大于选进变量的界值Pe四、衡量回归方程的标准采用不同的剔除变量方法,选入不同剔除变量的标准;会得到不同的回归方程,我们要根据实际问题,对每个变量的单独作用、变量间的交互作用作出恰当的评价。一般来说,当回归方程中自变量个数增加,或多或少总能减少剩余误差,提高模型的拟合精度,但势必导致模型的复杂性。因此,在建立回归方程时,要遵循一个原则,即“少而精”,具体地说:既要尽可能地提高拟合的精度,又要尽可能地使模型简单。这就需要有一个量化的标准来衡量所得模型的“优”与“劣”。目前,常用的衡量方程好坏的标准有如下几个:1)决定系数R2(复相关系数的平方)R2=1-SS残/SS总=SS模/SS总,,它表示在因变量y的总变异中可由回归方程所解释部分的比例。0R2≤1,越接近于1,说明回归方程效果越好。2)校正的决定系数AdjR2复相关系数是随方程中的变量个数增加而增加的,即使自变量对Y无显著性意义,为了克服这一缺点,对它进行校正:AdjR2=1-MS残/MS总,0AdjR2≤1,越接近于1,说明回归方程效果越好。3)它反映了应变量在扣除自变量的线性影响后的离散程度;剩余标准差越接近于0,说明回归方程效果越好。2ˆ12.nyysniiixy3)剩余标准差五、回归分析注意几点1、定性变量的数值化2、共线性问题3、异常点诊断4、残差分析1、定性变量的数值化在医学研究中,常常会遇到各种不同的指标,如年龄、性别、病情、疗效等。统计学上称为随机变量,简称变量.根据变量取值的不同可分为定量变量、定性变量和等级变量三种类型。在进行统计分析前,要根据数据的特点和分析方法的要求,对不同的变量进行转换处理,如定性变量的定量化等。⑴定量变量定量变量是对研究单位的定量特征的描述。诸如个体年龄、身高、体重等变量均可经测量取得数值。对于定量变量,在通常情况下以原始观察值的形式出现。但有根据变量的特点有时可分段处理,亦称定量变量定性化。研究老年病时,以其它年龄组作对对照,可将年龄分65岁以上一组和65岁以下一组。定性变量是对研究对象的定性特征描述,有不同类别之分,亦称分类变量。如性别可分为:男、女。称为二分类血型可分为A、B、AB、O四类型。称为多分类。在多元分析时要对定性变量进行赋值才能进行统计,称其为定性变量的定量化。⑵定性变量:二项分类变量如性别,用一个变量表示,一般可赋值为0和1,或1和2。1女X=0男多分类变量血型分为A、B、AB、O四类型,一元分析时可用1,2,3,4代表不同的组。但多元分析时需要采用哑变量方法进行处理.1A型1B型1ABX1=X2=X3=0其它0其它0其它哑变量的个数当X1=0,X2=0,X3=0时为O型.4分类变量需用三个哑变量来区分。一般N分类,需要N-1个哑变量表示。等级变量是对研究对象的等级特征的描述。如病情分轻、中,重三个等级。数值化法:只须用一个X作为分类变量,然后按等级顺序分别赋值。例如,用X表示病情,其赋值方法分为:0轻X=1中2重⑶等级变量2、共线性问题。当自变量均为随机变量时,若他们之间高度相关,则称自变量间存在共线性(colinearity)。共线性会给多重回归带来很大麻烦,其参数估计自然极不稳定,甚至参数值可大可小,可正可负,其意义无法解释;有时,参数估计值的标准差很大,以致该参数估计值的统计学意义受到怀疑。克服共线性的方法逐步回归分析主成分回归分析逐步选择变量是对付共线性的办法之一,经逐步选择后,两个高度相关的自变量X1和X2常常不能同时进入方程,但两者高度相关,谁先进入方程带有偶然性.经逐步选择后,固然克服了共线性的麻烦,同时也丢失一部份可利用的信息,故将高度相关的几个变量的信息综合起来参与回归是个好办法,即进行主成分回归分析.3、异常点诊断当散点图中出现了极端离群的点时,应考虑其是否为异常的情况.Student残差=(Yi-Y^)/Si,当残差值大于2时,可认其为异常点.异常点的处理1)系统误差造成的进行纠正;2)采用稳健回归分析,百分位数回归.4、残差分析为了考察模型的前提条件线性,独立,正态和等方差条件是否满足,可进行残差分析。各个实测值与理论值的差Yi-Y^称为残差,Yi-Y^/S称为student残差。以理论值Y^为横轴,student残差r为纵轴制作散点图。称为student残差对Y^的散点图,简称残差图。根据正态分布的性质:应有大约95%的点落在残差图中|r|2之内,且不呈任何趋势。残差图统计学的普遍性•日常生活,几乎天天都遇到统计学问题。•统计学工作不难,我们随时可以进行。案例:2010最关注事件调查结果
本文标题:多元回归分析首医大研究生2010
链接地址:https://www.777doc.com/doc-3223517 .html