您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 第十二章 相关与回归
公共卫生学院统计与流行病学教研室第十二章公共卫生学院统计与流行病学教研室第十二章第一节直线相关掌握直线相关与回归的概念、意义及应用条件;掌握直线相关与回归各指标的意义、应用及计算方法;熟悉直线相关与回归的联系及区别;了解曲线回归的概念、意义及类型。教学目的及要求医学上许多现象之间都有相互联系,例如:身高与体重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而体重和身高的关系则介与二者之间。一直线相关Linearcorrelation相关与回归就是用于研究和解释两个变量之间相互关系的。相关分析用于分析两变量间相互联系的密切程度及相关方向。回归分析适用于分析变量间的依存关系;用一个自变量的值来估计另一个应变量的值。2020/1/207前面描述性统计及假设检验只涉及到一个变量,如体重、红细胞数、血压下降值等,着重于描述某一变量的统计特征或比较该变量的组间差别。在大量的医学问题研究中常常还要分析两个随机变量之间的关系,如体重与肺活量、年龄与血压之间是否存在线性联系,此联系是正向还是负向以及联系的程度如何?2020/1/208如果两个连续型变量X和Y都随机变动且不分主次,可通过线性相关(linearcorrelation)分析来估计它们之间可能存在的线性联系的方向与程度。两个随机变量X和Y,可以是对同一观察单位同时测量X与Y的数值,也可以是测量成对观察单位的同一变量或不同变量的数值,而产生一对观察值。直线相关(linearcorrelation)又称简单相关(simplecorrelation)或Pearson相关分析,用于研究具有直线关系的两个变量间相关关系的密切程度与相关方向的一种统计分析方法,用于双变量正态分布资料(要求两个变量均服从正态分布)在线性相关分析中,两个变量X和Y的值总是成对的出现,记为(X1,Y1)、(X2,Y2)…(Xn,Yn),这些观察值在直角坐标系中形成一幅散点图,这种散点图可以简单而直观的表示两变量间的线性关系例13-1为研究中年女性体重指数和收缩压之间的关系,随机测量了16名40岁以上的女性的体重指数和收缩压,见表13-1,试绘制散点图。实例解:以体重指数为变量X,收缩压为变量Y作散点图,见图13-1。可见,体重指数与收缩压有比较密切的线性相关关系。图13-116名中年女性体重指数和收缩压的散点图101520252.533.544.5体重指数收缩压(kpa)某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的相关关系。表14-18名正常儿童的年龄X(岁)与尿肌酐含量Y(mmol/24h)编号12345678年龄X131196810127尿肌酐含量Y3.543.013.092.482.563.363.182.65实例图14-18名儿童的年龄与尿肌酐含量散点图2.42.62.83.03.23.43.6468101214年龄(岁)X尿肌酐含量(mmol/24h)Y(,)XY直线相关的概念又称简单相关或Pearson相关分析,用于研究具有直线关系的两个变量间相关关系的密切程度与相关方向的一种统计分析方法应用条件要求两个变量均呈正态分布(双变量正态分布)相关系数(correlationcoefficient)又称积差相关系数(coefficientofproduct–momentcorrelation),或Pearson相关系数(软件中常用此名称)2020/1/2017没有单位,取值介于-1与1之间相关方向用正负号表示相关的密切程度用绝对值表示22xyxxyylxxyyrllxxyy相关系数,说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标.r表示样本相关系数,ρ表示总体相关系数,-1≤r≤1r的计算结果说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质或方向(正负号)。相关分析的目的在于通过相关系数r来描述和度量两变量线性联系的程度和方向。r0正相关r0负相关r=0零相关零相关即两变量间无关。样本相关系数不等于零,并不表示总体相关系数不等于零,还要作显著性检验。图9-6相关系数示意图散点呈椭圆形分布,X、Y同时增减---正相关(positivecorrelation);X、Y此增彼减---负相关(negativecorrelation)。散点在一条直线上,X、Y变化趋势相同----完全正相关;反向变化----完全负相关。图9-6相关系数示意图X、Y变化互不影响或无直线相关关系----零相关(zerocorrelation)2020/1/2022相关关系图示r无单位,-1≤r≤1。r值为正——正相关,r值为负——负相关|r|=1---完全相关|r|=0---零相关。相关关系的密切程度的判断:低度相关中度相关高度相关7.04.0r7.0r4.0r相关系数的计算:nyxxyyyxxYYXXXYlllYYXXYYXXr22)()())((X和Y的离均差积和nxxxx222X的离均差平方和y的离均差平方和nyyyy222其中,为X的离均差平方和为Y的离均差平方和为X和Y的离均差积和xxlYYlXYl编号年龄X肌酐YX2Y2XY1133.5416912.5346.022113.011219.0633.11393.09819.5527.81462.48366.1514.88582.56646.5520.486103.3610011.2933.607123.1814410.1138.16872.65497.0218.55合计7623.8776472.27232.61SXSYSX2SY2SXYnYXXYlXY))((nXXlXX22)(nYYlYY22)(2020/1/2027【例12-1】2000年测得某地16名7岁男孩体重与胸围资料,见表12-1。编号12345678910111213141516体重(kg)24.527.023.528.523.026.726.824.624.819.719.517.220.019.020.221.0胸围(cm)61.062.060.064.059.358.458.658.758.556.055.654.553.052.058.057.0表12-12000年某地16名7岁男孩体重与胸围资料2020/1/2028散点图图12-22000年某地16名7岁男孩体重与胸围散点图2020/1/2029计算例12-1中体重与胸围间相关系数计算基础数据,并列成相关系数计算表求出、、、、(见表12-2)代入公式,求出相关系数值xy2x2yxyr2020/1/2030表12-22000年某地16名7岁男孩体重与胸围相关系数计算表编号(1)x体重(kg)(2)y胸围(cm)(3)x2(4)=(2)2y2(5)=(3)2xy(6)=(2)×(3)124.561.0600.253721.001494.50227.062.0725.003844.001674.00323.560.0552.253600.001410.00428.564.0812.254096.001824.00………………1520.258.0408.043364.001171.601621.057.0441.003249.001197.00合计366.0926.68548.3053813.5621332.38xy2x2yxy2020/1/203122366926.621332.38160.8343366926.68548.3053813.561616r22xyxxyylxxyyrllxxyy假定从总体相关系数ρ=0的总体中随机抽样,由于存在抽样误差,所得样本相关系数不一定全为零。故此,求得一个样本相关系数值后,仍需进行总体相关系数是否为零的假设检验。常用的方法有:(1)t检验(2)查表法二、相关系数的假设检验r≠0原因:①由于抽样误差引起,ρ=0②存在相关关系,ρ≠0公式2012rrrrtSrn=,υ=n-2Sr----相关系数的标准误2020/1/2034r≠0原因:①由于抽样误差引起,ρ=0②存在相关关系,ρ≠0t检验查表法,按v=n-2查r界值表,做出推断结论二、相关系数的假设检验0rrrtS2020/1/2035查表法根据自由度=n-2,查附表14,将所得r值与某概率水平(如0.05)对应的r界值相比较,若r值小于r界值,则P大于相应的概率水平,反之,P小于相应的概率水平,然后作出推断2020/1/2036t检验方法2n0rrrtS212nrSr2020/1/2037【检验步骤】1.建立检验假设,确定检验水准0:0H1:0H05.02020/1/20382.计算检验统计量值rt6623.52168343.018343.021022nrrtr2020/1/20393.确定P值,做出统计推断按自由度=n-2=16-2=14,查附表4,得P0.001,按=0.05水准,拒绝H0,接受H1,差异有统计学意义,可认为2000年该地7岁男孩体重与胸围之间有相关关系例如:例13.1中问SAH患者血清IL-6和脑脊液IL-6间有无直线相关关系?前面已求得6104.664,=16242.101,7201.698XXlYYlXYl)101.16242()664.6104(698.7201YYXXXYlllr0.7232:,即血清IL-6和脑脊液IL-6间无相关关系,即血清IL-6和脑脊液IL-6间有相关关系0H01H005.0本例,0.7232,代入公式得:962.2210)7232.0(17232.02122nrrtr查t界值表,得0.010.02,按=0.05水准,拒绝H0,接受H1,可认为SAH患者血清IL-6和脑脊液IL-6线性相关关系存在。8210P10nr亦可按υ=n-2,直接查附表r界值表得p值,以节省计算01.0,05.0,05.0,)(01.0)(05.0)(05.0prrprrprrvvv本例,0.7232,查表得:(结论同前)8r0.010.02P三、相关分析中应用注意的问题相关分析资料要求两变量x、y都应是来自正态分布总体;进行相关分析前应先绘制散点图。只有散点有线性趋势时,才可作相关分析;样本含量小只能推断两变量间有无直线关系,但不能推断其相关的密切程度;而要推断其相关的程度,样本含量必须足够大。相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,相关关系不一定是因果关系,也可能是伴随关系r=0只能说X与Y之间无线性关系,并不能说X与Y之间无任何关系。进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。不能只根据r的绝对值的大小来判断相关的密切程度。例如有两个样本:r1=0.601,v1=6;r2=0.401,v2=40。不能根据r1r2就说r1比r2相关更密切。因为查附表13-1,前一样本得P0.05,后一样本P0.01,按检验水准a=0.05,前者可认为无相关而后者有相关,可见正确推断有无相关必须经过假设检验。2020/1/2047前面讨论的线性相关用于描述两个随机变量X与Y之间线性联系的程度,结论所反映的是它们相互之间的关系,两变量并无主次之分例如:例13.1中问SAH患者血清IL-6和脑脊液IL-6间有无直线相关关系?前面已求得6104.664,=16242.101,7201.698XXlYYlXYl)1
本文标题:第十二章 相关与回归
链接地址:https://www.777doc.com/doc-3184408 .html