您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 第十二章 简单的回归分析卫生统计学考研课件
第十二章简单回归分析前面介绍了两变量间关联性分析,本章与下一章我们将进一步的介绍观察数据中变量间的数量依存性的回归关系。第一节简单直线回归一、直线回归的概念及其统计描述在上一章中,对15名健康人凝血浓度(Y)与凝血时间(X)数据计算相关系数,定量描述了变量间关联性的强弱程度与方向。为直观地说明直线回归的概念,我们以以上一章中对15名健康人凝血浓度与凝血时间数据为例,来探讨两变量间依存变化关系。反应变量(Y)与自变量(X)的简单线性模型(simplelinearregressionmodel)可表达为:iiiXY表12-115名健康成人凝血时间与凝血酶浓度测量值在通常情况下,研究者只能获取一定数量的样本数据,用该样本数据建立的有关Y与X变化的线性方程称为回归方程(regressionequation)即:受试者号123456789101112131415X1.11.21.00.91.21.10.90.61.00.91.10.91.11.00.7Y141315151314161714161516141517bXaYˆ在描述两变量的关系时,一般把两个变量中能精确容易测量的作自变量,不易测量作为因变量。即用易测量的数据X估计不易测量的另一数据。如年龄估算小儿体重等。在描述凝血时间与凝血浓度的依存关系中,将凝血酶浓度作为自变量(X),凝血时间作为应变量(Y)。由图12-1可见,凝血时间随凝血酶浓度增大而减少且呈直线趋势,但并非15点恰好全部都在一直线上。两变量数量间虽然存在一定关系,但不是十分确定的。这与两变量间严格对应的函数关系不同,称为直线回归(Linearregression)。直线回归是回归分析中最基本、最简单的一种,故又称简单simpleregression)。图12-1凝血浓度与凝血时间的散点分布凝血酶浓度(毫升)1.31.21.11.0.9.8.7.6.5凝血时间(秒)201918171615141312二、回归模型的前提假设线性回归模型的前提条件是:线性(linear)、独立(independent),正态(normal),等方差(equalvariance)1、线性是指反应变量Y的总体平均值与自变量X呈线性关系。2、独立是指任意两观察值互相独立。3、正态性假定是指线性模型的误差项i服从正态分布。4、等方差是指在自变量X取值范围内,不论X取什么值,Y都具有相同的方差。三、回归参数的估计一)回归参数估计的最小二乘原则参数与一般只能通过样本数据来估计。当X取值为Xi时,Y的平均值的估计应为a+bXi,而实际观察值为Yi。两者之差称为残差(residual),即当a与b取不同值时获取不同的候选直线,如能求a与b的适宜值,能使所有实测值到这条直线的上纵向距离的平方和为最小,则称这一对a和b为与的最小二乘估计(leastestimation,LES)。iyˆiiibXaYe二)回归参数的估计方法a为Y轴上的截距;b为斜率,表示X每改变一个单位,Y的变化的值,称为回归系数;表示在X值处Y的总体均数估计值。为求a和b两系数,根据数学上的最小二乘法原理,可导出a和b的算式如下:1.由原始数据及散点图的初步分析,本例呈直线趋势,故作下列计算。2.求3.计算X、Y的均数,及离均差平方和lXY、lyy与离均差积和lXY。4.求回归系数b和截距a。5.列出回归方程三)、直线回归方程的图示为了进行直观分析或实际需要,可按回归方程在坐标纸上作图。在自变量X的实测全距范围内任取相距较远且易读的两X值,代入回归方程,如上例取在图上确定(0.6,17.58581)和(1.1,14.09373)两点,用直线连接,即得直线方程的图形。图12-3凝血浓度与凝血时间的散点分布及拟合直线凝血酶浓度(毫升)1.31.21.11.0.9.8.7.6.5凝血时间(秒)201918171615141312四、回归系数的统计推断前面所求得的回归方程是否成立,即X、Y是否有直线关系,是回归分析要考虑的首要问题。我们知道即使X、Y的总体回归系数为零,由于抽样误差,其样本回归系数b也不一定为零。因此需作是否为零的假设检验,用方差分析或t检验。一)、样本回归系数b的抽样误差本章例12-1,二)总体回归系数的假设检验例12-2检验例12-1求凝血时间对凝血酶浓度的直线关系是否成立?1.假设2.检验统计量三)回归系数的区间估计例12-3试用例12-11所计算的样本回归系数b=-0.6902,估计总体回归系数的95%的可信区间:Sb=0.76,第二节线性回归的应用一、总体回归线的95%置信带是总体中当X为某一定值X0的条件下Y的均数。它的点估计为,其标准误为它的(1-)置信区间为例12-1试计算当X0=1.1时,的95%可信区间。00ˆbXaY用同样方式,可计算出所有15个观测点的总体均数的95%置信区间。二、个体Y值的容许区间总体中,X为某定值时,个体Y值的波动范围,其标准差SY(请勿与样本标准差相混)它为:例12-5用例12-1所求回归方程,试计算当X0=1.1时,个体Y值的95%容许区间。即估计总体中凝血酶浓度1.1毫升者,有95%的人,凝血时间在12.9618~15.2297范围内。凝血酶浓度(毫升)1.31.21.11.0.9.8.7.6.5凝血时间(秒)201918171615141312图12-6凝血时间依凝血浓度回归线的95%置信带与Y个体值95%预测带第三节残差分析残差分析(residualanalysis)旨在通过残差深入了解数据与模型之间的关系,评价资料是否符合回归模型假设,识别异常点等。图12-7凝血数据的回归残差图Y18171615141312标准化残差2.01.51.0.50.0-.5-1.0-1.5-2.0图12-8残差示意图第四节非线性回归一般而言,自然界的生命现象中绝对线性关系并不多见,但从相对与近似的观点出发,我们可以用前面已经提到的线性回归模型来解决许多实际问题。可以说,非线性回归要比线性回归更能充分地表达变量间的关系。当今线性回归都比非线性回归应用多,原因在于无论从数学理论还是计算方法,线性回归都比非线性回归模型简单得多。一、通过自变量的变换实现线性化实践中有两类非线性关系,一类是通过自变量X的适当变换可线性化,另一类是不可能通过自变量X的变换实现线性化的。例如,假定观察样本(Xi,Yi),i=1,2,…,n满足例如,假定观察样本(Xi,Yi),i=1,2,…,n满足但是诸如:等情形,都不能通过自变量的变换实现线性化,只能通过应变量Y的变换实现线性化。,,,100101iiiiiXiiXiXXYeYeYii二、变换自变量实现线性回归的步骤1.将观察样本(Xi,Yi),i=1,2,…,n作散点图,观察散点分布特征类似于何种函数类型;2.按照所选定的函数进行相应的变量变换;3.对变换后数据用常规最小二乘法(OLS)作线性模型的参数估计。4.一般拟合多个相近的模型,然后对各个模型的拟合优度评价挑选较为合适的模型。例12-2为了研究某药物浓度与肾上腺释放量关系,选取10个药物浓度水平,每种药物剂量水平上重复5次试验,观测结果如表12-3所示。药物浓度(mg)70605040302010肾上腺素释放量(pg/ml)302826242220181614表12-3药物剂量对肾上腺释放量影响的试验结果药物剂量(mg)肾上腺释放量(pg/mg)1519.2614.2917.6018.3616.532021.2021.7820.7720.6523.382521.7722.6122.7021.1721.653023.4723.2221.7424.0224.053523.8825.3222.9024.8423.704025.2724.6924.6724.8425.244524.2024.9425.5225.0227.435027.9825.8826.6726.3125.945527.4224.9126.4228.2425.946028.4127.0929.0428.8527.89分别拟合三种不同的回归模型的结果综合于表12-4中。表12-4拟合不同回归模型的结果0.85200.0001135.052.72770二次函数0.86590.0001309.881.39592对数函数0.81570.0001212.481.91786简单线性R2值P值F值MSE回归方程模型名称xY19879.052265.16ˆxYln80477.610382.0ˆ20033.04466.05579.12ˆxxY第七节小结1、回归分析是从预测的角度,通过样本数据在最小二乘原则下建立线性回归方程,以便用自变量(X)的数值估计反应变量(Y)的数值及变异;2、最小二乘原则是指观测样本的实测反应变量值与方程估计值之差之和最小的回归参数估计;3、总体回归线的95%置信带与个体值Y预测带均由对称于回归线的弧形曲线构成,而且后者比前者更远离回归线;4、最常用的残差定义为实测值与预测值之差,通过绘制残差图可以简单而又直观地评价回归分析的前提条件线性是否满足;5、观察散点图是判断线性关系或非线性关系及其类型的既简单又直观的方法;6、对于非线性情形,仅对自变量X进行变换可以线性化时才能采用线性回归的办法;当需作Y变换才能线性处理,建议用统计软件包直接作非线性回归。
本文标题:第十二章 简单的回归分析卫生统计学考研课件
链接地址:https://www.777doc.com/doc-6143180 .html