您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 第9章--直线相关与回归-医学统计学
1第九章双变量回归与相关220名糖尿病人血糖(mmol/L)与胰岛素(mU/L)测定值病例号血糖胰岛素iYIXi病例号血糖胰岛素iYiXi112.2115.2214.5416.7312.2711.9412.0414.057.8819.8611.1016.2710.4317.0813.3210.3919.595.9109.0518.7116.4425.1129.4916.41310.1622.0148.3823.1158.4923.2167.7125.01711.3816.81810.8211.21912.4913.7209.2124.4资料特点:每个观察对象有两个变量。概念3类似上例的问题:年龄-身高;肺活量-体重;药物剂量-动物死亡率双变量资料统计资料单变量资料:X双变量资料:X,Y多变量资料:X1,X2,…,XK,Y4相关与回归是研究两个或多个变量之间相互关系的一种分析方法。数据结构编号YX1……XK12n6回归:是研究变量之间在数量上依存关系的一种方法。相关:是研究随机变量之间相互联系密切程度和方向的方法。直线相关与回归:只涉及两个变量,而且分析是否呈直线关系,是回归和相关分析中最简单的一种。又称简单相关和回归。概念:7直线相关与回归的一般步骤:绘制散点图直线相关分析直线回归分析求相关系数相关系数假设检验结论求回归系数和截距列出回归方程回归系数假设检验8一、直线回归(linearregression)1.直线回归方程:应变量Y的平均估计值a:截距(intercept)b:回归系数(regressioncoefficient)bXaYˆYˆbXaY注意直线回归方程与函数方程的不同9应用条件线性(linear)、独立性(independent)、正态性(normal)、等方差(equalvariance)——“LINE”。线性——自变量与应变量的关系是线性的。用散点图判断。独立性——任意两个观察值互相独立。正态性——在任意的自变量X的取值处,应变量y均服从正态分布。等方差——在任意的自变量X的取值处,应变量y的方差均相同。101120名糖尿病人血糖(mmol/L)与胰岛素(mU/L)测定值病例号血糖胰岛素iYIXi病例号血糖胰岛素iYiXi112.2115.2214.5416.7312.2711.9412.0414.057.8819.8611.1016.2710.4317.0813.3210.3919.595.9109.0518.7116.4425.1129.4916.41310.1622.0148.3823.1158.4923.2167.7125.01711.3816.81810.8211.21912.4913.7209.2124.4例11220名糖尿病人的血糖水平与胰岛素水平的散点图SPSS13回归直线的求法原理(最小二乘法)为最小即Yˆ-Y2各散点距离回归直线的纵向距离(残差)平方和为最小而得到直线。14计算:XXXYllnXXnYXXYXXYYXXb222nYXXYYYXXlnYYYYlnXXXXlXYYYXX222222回归直线必通过点Y,XXbYa15161718Coefficientsa18.7961.26514.862.000-.459.070-.840-6.562.000(Constant)xModel1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ya.XY459.0796.18ˆ193.直线回归的假设检验即推断总体回归系数()是否为零即:SS总=SS回归+SS残余222)ˆ()ˆ()(YYYYYY)ˆ()ˆ()(YYYYYY——剩余或残差(residual)YˆY(1)方差分析20查附表3,F0.01(1,18)=8.28P0.01(2)t检验t=(b-0)/sbν=n-22112nSSSSSSllSSnlSSxxxyyy剩余回归总剩余回归回归总总06.43189482.4717032.114剩回剩剩回回MSMSSSSSF0699.0582.5456638.2XXblMSS剩余21t=(-0.4585-0)/0.0699=-6.56=18,t0.01(18)=2.878P0.01F=t2=(-6.56)2=43.0322ANOVAb114.7031114.70343.060.000a47.948182.664162.65119RegressionResidualTotalModel1SumofSquaresdfMeanSquareFSig.Predictors:(Constant),xa.DependentVariable:yb.Coefficientsa18.7961.26514.862.000-.459.070-.840-6.562.000(Constant)xModel1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ya.234.直线回归中的区间估计(1)总体回归系数β的区间估计:bnStb)2(,例:上例中,b=-0.4585,Sb=0.0699,t0.05,18=2.101∴β的95%可信区间:6054.0~3116.00699.0101.24585.02425Coefficientsa18.7961.26514.862.00016.13921.453-.459.070-.840-6.562.000-.605-.312(Constant)xModel1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.LowerBoundUpperBound95%ConfidenceIntervalforBDependentVariable:ya.26(2)的估计:XY即总体中当X为某定值X0的条件下Y的均数。XXXXXYYYlXXnMSlXXnSSStY2020.ˆˆ,)(1)(1ˆ剩余Yˆ27)/(3996.058.54533.17152016638.2101.2)/(9182.11154585.07957.18ˆ2ˆ18,05.0LmmolStLmmolYYYStYˆ18,05.0ˆ即:11.9182.101×0.3396=(11.08,12.76)例:用例1所求直线回归方程,试计算当X0=15mU/L时,的95%可信区间。XY28的(1-α)可信区间图XYYStYˆ,ˆ29(3)个体Y值的预测区间(容许区间):即总体中当X为某定值X0时,个体Y值的波动范围。XXXXxyYYlXXnMSlXXnSSStY22.,)(11)(11ˆ剩余注意:SY并非是样本观察值Y的标准差30个体Y值的(1-α)容许区间图31例:例1中,当X=15,求个体Y值的预测区间(=0.05)。15.448),388.8(6803.1101.2918.116803.158.54533.171520116638.22YS325.直线回归方程的应用(1)预测:即把预报因子(自变量X)代入回归方程对预报量(应变量Y)进行估计。1)点预测:2)区间预测:33区间预测:当X是已知时,按一定概率估计应变量所在范围。可按求个体Y值预测区间方法计算。XXYYlXXnMSSStY2,)(11ˆ剩余34例:例1资料中,当胰岛素浓度X=15mU/L时,试估计血糖浓度(=0.05)。15.448),388.8(6803.1101.2918.116803.158.54533.171520116638.2S2Y35(2)控制:指当要求应变量Y在一定范围内波动时,如何控制自变量X的取值。例:已知血糖正常范围为(4.44~6.66mmol/L),在前例资料的基础上,问欲将血糖水平控制在正常范围内时,血中胰岛素应维持在什么范围内(=0.05)?36解得:X(33.95,38.79)mU/L6638.2101.2)4585.07961.18(ˆ66.66638.2101.2)4585.07961.18(ˆ44.418,05.018,05.0XStYXStYYY37383940双变量资料的相关分析方法选择直线相关(Pearson相关)——双变量正态等级相关(Spearman相关)——非双变量正态或等级资料。X2检验——分类资料或等级资料411.相关系数(,r)表示两变量直线相关的密切程度和方向。相关系数波动范围:-1r1(1)密切程度:|r|1,相关越密切;|r|0,相关越弱。r=1或-1,称完全相关;r=0,称零相关,表示不存在直线相关关系,但不排除存在某种曲线关系的可能性。(2)方向:r0,正相关;r0,负相关。二、直线相关(linearcorrelation)42432.相关分析的步骤(1)绘制散点图观察两变量间是否呈直线趋势20名糖尿病人的血糖水平与胰岛素水平的散点44(2)计算相关系数计算例1资料的相关系数YYXXXYlllr8398.06514.16258.54516.250rPearson相关系数积差法相关系数453.相关系数的假设检验例1资料:H0:=0;H1:≠0;=0.05查表得:P0.01(结果同回归系数检验)c2-n122122rnrnrrt56.68398.012208398.01222rnrtt检验查表法:P.719r界值表。46三、应用直线回归时注意事项1)应有实际意义;2)分析前应绘制散点图;3)用残差图考察数据是否符合模型假设条件4)应在实际回归范围内绘制回归直线;5)结果的解释及正确应用47XY5.00.3ˆ48残差分析——模型诊断iiiYYeˆ通常以标准化残差(standardizedresidual)为纵坐标,以为横坐标,作残差图。iYˆ4950ABCDEF残差呈随机分布残差不满足方差齐性条件存在非线性关系有异常点51四、等级相关(秩相关rankcorrelation)1.适用于下列资料:(1)不服从双变量正态分布的资料(如二项分布);(2)总体分布型未知;(3)原始数据是用等级表示。2.等级相关系数(rs)意义不用原始数据计算,而是根据数值大小的秩次进行计算。其意义同直线相关系数。523.等级相关系数的计算(1)按直线相关系数公式计算,只是用秩次代替原始观察值。(2)Spearman公式法:YYXXXYSlllriiiiSYXdnndr326153例为研究饮水中氟含量与氟中毒患病率之间的关系,测定了9个居民点井水中的氟含量X(mg/L),并同时通过体检得到这些居民点中常住居民的氟中毒患病率Y(%),资料如下表:表6.4井水中氟含量(X)与氟中毒患病率(Y)的资料氟含量患病率居民点号I⑴测定值XI⑵测定值YI⑶10.979.721.9712.732.3915.642.5614.453.4618.363.5418.373.7121.083.7123.396.0143.454表井水中氟含量(X)与氟中毒患病率(Y)的资料氟含量患病率居民点测定值秩次测定值秩次秩次差值差值平方iXiYididi210.9719.710021.79212.720032.39315.6
本文标题:第9章--直线相关与回归-医学统计学
链接地址:https://www.777doc.com/doc-6290727 .html