您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第08章 线性相关与回归
生物统计学线性相关与回归计量资料单变量的统计描述与统计推断。试问:为何说是单变量?因为每种类型只牵涉一个变量。许多现象之间(即变量之间)都有相互联系在这些有关系的现象中,它们之间联系的程度和性质也各不相同。有的现象之间因果不清,只是伴随关系。相关与回归就是用于研究和解释两个变量之间相互关系的。十九世纪英国人类学家F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家KarlPearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,并做成散点图。历史背景:儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。ˆ33.730.516YXRegression释义小插曲——F.GaltonGalton(1822-1911)是一位人类学家,著名生物学家达尔文的表兄弟,早年学医,曾在剑桥大学念书。尽管他的数学不是很好,但在人类学和优生学研究中萌发的统计学思想,对生物统计的发展产生了深远影响,如“回归”、“双变量正态分布”的概念等。他没有子女,但一生写了9部书,发表了近200篇论文。1860年当选英国皇家学会会员,1909年被封为爵士,1910年获得英国皇家学会Copley奖。KarlPearsonKarlPearson(英,1857~1936)是FrancisGalton的得意门生,他开创了统计方法学。他对统计学的主要贡献:变异数据的处理、分布曲线的选配、卡方检验的提出、回归与相关的发展。本章内容第一节线性相关第二节线性回归第三节相关与回归的关系第四节等级相关(自学)第一节线性相关线性相关描述了什么问题?线性相关分析的具体步骤是什么?线性相关分析对资料有什么要求?如何对这些要求进行检查或检验?仅用样本线性相关系数能否说明相关程度?总体相关系数非常接近1,能否说明Y=X?例:考察身高与体重的伴随关系体重身高散点图问题:通过散点图可以得出什么结论?线性相关的概念图中不是每个身材较高的对象必有较重的体重,但大多数对象的体重Y与其身高X的变化呈一种伴随增大或减小的直线变化趋势,这种现象称为直线相关。刻画两个随机变量之间线性相关程度称为线性相关(linearcorrelation)线性相关的类型X和Y伴随同时上升或伴随下降称为线性正相关(LinearPositiveCorrelation)X和Y无任何直线伴随变化趋势,则称为零相关(零线性相关)。X与Y的反方向伴随直线变化趋势称为线性负相关(linearnegativecorrelation)★正相关★负相关★称零相关★完全正相关★完全负相关线性相关系数线性相关系数(linearcorrelationcoeffiecient),简称相关系数。或Pearson相关系数相关系数是描述两个变量之间线性相关的程度和相关方向的统计指标。样本相关系数用r表示,总体相关系数用ρ表示。相关系数的特点:-1≤r≤1r>0为正相关r<0为负相关r=0为零相关或无相关|r|0.4为低度线性相关;0.4≤|r|<0.7为中度线性相关;0.7≤|r|<1.0为高度线性相关。相关系数的计算公式•lxx(x的离均差平方和)•lyy(y的离均差平方和)•lxy(x和y的离均差乘积和,简称乘积和)22()()()()XYXXYYlXXYYrllXXYYnXXlXX22)(nYYlYY22)(nYXXYlXY))((实例分析•健康调查发现男青年身高与他的前臂长有关;•于是设想,通过测量男青年的身高,可以预测其前臂长,以便更好对男青年的发育情况进行评价。因此随机抽取了11名男青年组成样本,分别测量每个人的身高和前臂长。•问男青年的身高与前臂长之间的相关系数是多少?是正相关还是负相关?•分析问题:总体-样本、目的、变量、关系编号身高(cm)前臂长(cm)(X)(Y)11704721734231604441554151734761885071784781834691804910165431116644合计189150011名男青年身高与前臂长的测量结果(cm)XYX2Y2799028900220972662992917647040256001936635524025168181312992922099400353442500836631684220984183348921168820324002401709527225184931742856121168618532608122810分析步骤一、绘制散点图二、计算xyyyxxlllyx,,,,N=11∑X=1891∑Y=500∑X2=89599∑Y2=22810∑XY=85185rXXYYXXYYXYXYnXXnYYn()()()2().22222身高(cm)前臂长(cm)男青年身高与前臂长的测量结果(cm)的散点图40424446485052150160170180190计算结果r的值说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质(正负号)。22861851891500/11(895991891/11)(22810500/11)0.8009r上例中的相关系数r等于0.8009,说明了11例样本中男青年的身高与前臂长之间存在相关关系。但是,这11例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的11例,其r可能不等于零。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。目的:是判断两变量的总体是否有相关关系t检验:样本相关系数r与总体相关系数ρ的比较2102nrrSrtr2n查表法:直接查相关系数界值表得到相应的概率P。相关系数的假设检验资料相关系数的假设检验步骤一、建立假设,确立检验水准H0:=0,即身高与前臂长之间无直线相关关系H1:≠0,即身高与前臂长之间有直线相关关系α=0.05二、选择并计算检验统计量220.8009110.800921124.013rrtrnν=11-2=9查t界值表.得P0.002.按=0.05水准,拒绝H0,接受H1,可认为身高与前臂长之间有直线相关关系。三、计算P值,做出统计推断相关系数的假设检验也可以采用查表法,以相关系数r和自由度v=n-2查r界值表11,做出统计推断结论。本例查表法P0.002,结论为拒绝H0,接受H1,与t检验结论一致。1.作散点图:分析要两变量之间有无相关关系可先作散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再计算相关系数和作假设检验;2.正态性:相关系数的计算要求两个变量必须服从正态分布,如果资料不服从正态分布,应先通过变量变换,使得两个变量正态化,再根据变换值计算相关系数;相关分析应注意的问题3.作假设检验:依据公式计算出的相关系数仅是样本相关系,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关关系及相关的密切程度,必须作假设检验。当检验拒绝了无效假设时,才可以认为两个事物之间存在着相关关系,然后再根据计算出的相关系数大小来判断根相关关系的密切程度;4.相关关系:相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素--年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。5.在确实存在相关关系的前提下(??),如果r的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。6.一般说来,当样本量较大,并对r进行假设检验,有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。从上面的分析可以看出男青年身高与前臂长有相关关系如果知道了一位男青年的身高能推断出其前臂长吗?能预测男青年的前臂长可能在什么范围内?这要用直线回归的方法来解决。直线回归方程(总体)是描述什么?直线回归分析对资料有什么要求?直线回归分析的具体基本步骤是什么?在直线回归中,Y是否一定为随机变量?在直线回归中,X是否一定为随机变量?在直线回归中,预测值的意义是什么?在直线回归中,回归系数b的意义是什么?第二节线性回归分析知道了两个变量之间有线性相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。实际上,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为线性回归方程,这种关系为线性回归。直线回归就是用来描述一个变量如何依赖于另一个变量。其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程。直线回归是分析成对观测数据中两变量间线性依存关系的方法。其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做线性回归方程。“回归”是一个借用已久因而相沿成习的统计学术语。直线回归的概念直线回归的概念直线回归是分析成对观测数据中两变量间线性依存关系的方法。其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做线性回归方程。“回归”是一个借用已久因而相沿成习的统计学术语。直线回归模型例号X(自变量)Y(应变量)1X1Y12X2Y2...nXnYn1、资料数据格式2、变量•Y(应变量,结果变量):一般是难测(或不可测)的变量,(要求呈正态分布的随机变量)•X(自变量,原因变量):一般是可测(或易测)的变量(可是随机变量或人为给定的量)ˆ33.730.516YX儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:3、直线回归方程的一般形式为:a为常数项,又称截距;b为斜率,又称回归系数,表示自变量X增加(或减少)一个单位,应变量Y平均改变的单位数。bXaYˆ回归分析按回归变量个数分按回归形式分一元回归多元回归线形回归非线性回归回归的类型线性回归方程建立的思路样本总体最小二乘法Y与X之间为线性关系选出一条最能反映Y与X之间关系规律的直线a是α的估计值,b是β的估计值。a、b应使回归估计值与实际观测值y的偏差平方和最小yˆ回归方程原理图最小二乘法一般而言,所求的a和b应能使每个样本观测点(Xi,Yi)与回归直线之间的偏差尽可能小,即使观察值与拟合值的误差平方和Q达到最小。回归直线的有关性质•直线通过均点•各点到该回归线纵向距离平方和较到其它任何直线者为小。•2)YY()Y,X(XXYbXaY为来自的一个样本对于X各个取值,相应Y的总体均数直线回归分析的步骤将原始数据在坐标图上绘散点图根据样本数据求得估计值a、b即得样本回归方程,并作回归线对回归方程作假设检验,并对方程的拟合效果作出评价bXaYˆ例有人研究了温度对蛙的心率的影响,得到了表中所示的资料,试进行回归分析。对象温度(X)心率(Y)XYX2Y212510425241144161213611663612148141126419651022220100484612232
本文标题:第08章 线性相关与回归
链接地址:https://www.777doc.com/doc-3840542 .html