您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第十章 线性相关与回归
2020/3/131第十章线性相关与回归2020/3/132第2、第3、第5和第9章介绍了计量资料单变量的统计描述与统计推断。比如:计算140名成年男子红细胞数的平均指标与变异指标。比较药物+饮食疗法(试验组)与仅药物疗法(对照组)降低糖尿病人的空腹血糖值有无差别。研究白血病时,比较四组鼠脾DNA含量有无差别。(,)XSt检验秩和检验试问:为何说是单变量?因为每种类型只牵涉一个变量。2020/3/133医学上,许多现象之间(即变量之间)都有相互联系,例如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。比如:乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;有的现象之间因果不清,只是伴随关系,例如哥哥的身高和弟弟的身高之间,就不能说有因果关系。相关与回归就是用于研究和解释两个变量之间相互关系的。2020/3/134十九世纪英国人类学家F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家KarlPearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,并做成散点图。发现:历史背景:2020/3/135儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。ˆ33.730.516YX2020/3/136Regression释义210=10242020/3/1372020/3/138小插曲——F.GaltonGalton(1822-1911)是一位人类学家,著名生物学家达尔文的表兄弟,早年学医,曾在剑桥大学念书。尽管他的数学不是很好,但在人类学和优生学研究中萌发的统计学思想,对生物统计的发展产生了深远影响,如“回归”、“双变量正态分布”的概念等。他没有子女,但一生写了9部书,发表了近200篇论文。1860年当选英国皇家学会会员,1909年被封为爵士,1910年获得英国皇家学会Copley奖。2020/3/139KarlPearsonKarlPearson(英,1857~1936)是FrancisGalton的得意门生,他开创了统计方法学。他对统计学的主要贡献:变异数据的处理、分布曲线的选配、卡方检验的提出、回归与相关的发展。2020/3/1310第一节线性相关第二节线性回归第三节相关与回归的关系第四节等级相关(自学)基本内容2020/3/1311第一节线性相关2020/3/1312线性相关描述了什么问题?线性相关分析的具体步骤是什么?线性相关分析对资料有什么要求?如何对这些要求进行检查或检验?仅用样本线性相关系数能否说明相关程度?总体相关系数非常接近1,能否说明Y=X?线性相关的掌握要点2020/3/1313例:考察身高与体重的伴随关系体重身高散点图问题:通过散点图可以得出什么结论?2020/3/1314线性相关的概念图中不是每个身材较高的对象必有较重的体重,但大多数对象的体重Y与其身高X的变化呈一种伴随增大或减小的直线变化趋势,这种现象称为直线相关。刻画两个随机变量之间线性相关程度称为线性相关(linearcorrelation)2020/3/1315线性相关的类型X和Y伴随同时上升或伴随下降称为线性正相关(LinearPositiveCorrelation)X和Y无任何直线伴随变化趋势,则称为零相关(零线性相关)。X与Y的反方向伴随直线变化趋势称为线性负相关(linearnegativecorrelation)2020/3/1316★正相关★负相关★称零相关★完全正相关★完全负相关2020/3/1317线性相关系数相关系数是描述两个变量之间线性相关的程度和相关方向的统计指标。样本相关系数用r表示,总体相关系数用ρ表示。线性相关系数(linearcorrelationcoeffiecient),简称相关系数。或Pearson相关系数2020/3/1318相关系数的特点:-1≤r≤1r>0为正相关r<0为负相关r=0为零相关或无相关|r|0.4为低度线性相关;0.4≤|r|<0.7为中度线性相关;0.7≤|r|<1.0为高度线性相关。2020/3/1319lxx(x的离均差平方和)lyy(y的离均差平方和)lxy(x和y的离均差乘积和,简称乘积和)下一张首页退出上一张相关系数的计算公式22()()()()XYXXYYlXXYYrllXXYYnXXlXX22)(nYYlYY22)(nYXXYlXY))((2020/3/1320实例分析•健康调查发现男青年身高与他的前臂长有关;•于是设想,通过测量男青年的身高,可以预测其前臂长,以便更好对男青年的发育情况进行评价。因此随机抽取了11名男青年组成样本,分别测量每个人的身高和前臂长。见表10-1•问男青年的身高与前臂长之间的相关系数是多少?是正相关还是负相关?•分析问题:总体-样本、目的、变量、关系2020/3/1321编号身高(cm)前臂长(cm)(X)(Y)11704721734231604441554151734761885071784781834691804910165431116644合计1891500表10-111名男青年身高与前臂长的测量结果(cm)XYX2Y27990289002209726629929176470402560019366355240251681813129929220994003534425008366316842209841833489211688203240024017095272251849317428561211686185326081228102020/3/1322分析步骤一、绘制散点图二、计算xyyyxxlllyx,,,,N=11∑X=1891∑Y=500∑X2=89599∑Y2=22810∑XY=85185rXXYYXXYYXYXYnXXnYYn()()()2().222222020/3/1323身高(cm)前臂长(cm)图10-1男青年身高与前臂长的测量结果(cm)的散点图404244464850521501601701801902020/3/1324计算结果r的值说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质(正负号)。22861851891500/11(895991891/11)(22810500/11)0.8009r2020/3/1325上例中的相关系数r等于0.8009,说明了11例样本中男青年的身高与前臂长之间存在相关关系。但是,这11例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的11例,其r可能不等于零。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。2020/3/1326目的:是判断两变量的总体是否有相关关系t检验:样本相关系数r与总体相关系数ρ的比较2102nrrSrtr2n查表法:直接查相关系数界值表得到相应的概率P。附表11(page210)相关系数的假设检验2020/3/1327例10.1资料相关系数的假设检验步骤一、建立假设,确立检验水准H0:=0,即身高与前臂长之间无直线相关关系H1:≠0,即身高与前臂长之间有直线相关关系α=0.052020/3/1328二、选择并计算检验统计量220.8009110.800921124.013rrtrnν=11-2=92020/3/1329查t界值表.得P0.002.按=0.05水准,拒绝H0,接受H1,可认为身高与前臂长之间有直线相关关系。三、计算P值,做出统计推断相关系数的假设检验也可以采用查表法,以相关系数r和自由度v=n-2查r界值表11(Page210),做出统计推断结论。本例查表法P0.002,结论为拒绝H0,接受H1,与t检验结论一致。2020/3/13301.作散点图:分析要两变量之间有无相关关系可先作散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再计算相关系数和作假设检验;2.正态性:相关系数的计算要求两个变量必须服从正态分布,如果资料不服从正态分布,应先通过变量变换,使得两个变量正态化,再根据变换值计算相关系数;相关分析应注意的问题2020/3/13313.作假设检验:依据公式计算出的相关系数仅是样本相关系,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关关系及相关的密切程度,必须作假设检验。当检验拒绝了无效假设时,才可以认为两个事物之间存在着相关关系,然后再根据计算出的相关系数大小来判断根相关关系的密切程度;4.相关关系:相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素--年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。2020/3/13325.在确实存在相关关系的前提下(??),如果r的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。6.一般说来,当样本量较大,并对r进行假设检验,有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。2020/3/1333从上面的分析可以看出男青年身高与前臂长有相关关系如果知道了一位男青年的身高能推断出其前臂长吗?能预测男青年的前臂长可能在什么范围内?这要用直线回归的方法来解决。2020/3/1334第二节线性回归分析2020/3/1335直线回归方程(总体)是描述什么?直线回归分析对资料有什么要求?直线回归分析的具体基本步骤是什么?在直线回归中,Y是否一定为随机变量?在直线回归中,X是否一定为随机变量?在直线回归中,预测值的意义是什么?在直线回归中,回归系数b的意义是什么?ˆY直线回归掌握要点2020/3/1336知道了两个变量之间有线性相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。实际上,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为线性回归方程,这种关系为线性回归。2020/3/1337直线回归就是用来描述一个变量如何依赖于另一个变量。其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程。2020/3/1338直线回归是分析成对观测数据中两变量间线性依存关系的方法。其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做线性回归方程。“回归”是一个借用已久因而相沿成习的统计学术语。直线回归的概念2020/3/1339直线回归模型例号X(自变量)Y(应变量)1X1Y12X2Y2...nXnYn1、资料数据格式2020/3/13402、变量•Y(应变量,结果变量):一般是难测(或不可测)的变量,如血压、腹中胎儿体重、肺活量、医疗费用等(要求呈正态分布的随机
本文标题:第十章 线性相关与回归
链接地址:https://www.777doc.com/doc-4329710 .html