您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第三章--1.2相关系数
1.2相关系数[学习目标]了解相关系数的计算公式,会由r值的大小判断两随机变量线性相关程度的大小.[知识链接]当r=1或-1时,两个变量的相关性如何?答当r=1时,两个变量完全正相关;当r=-1时,两个变量完全负相关.[预习导引]1.相关系数r的计算假设两个随机变量的数据分别为(x1,y1),(x2,y2),…,(xn,yn),则变量间线性相关系数r的计算公式为r=lxylxxlyy=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2∑ni=1(yi-y-)2=∑ni=1xiyi-nx-y-∑ni=1x2i-nx-2∑ni=1y2i-ny-22.误差表达式Q(a,b)=∑ni=1[yi-(a+bxi)]2=lyy+n[y--(a+bx-)]2+lxx(b-lxylxx)-l2xylxx,Qmin=lyy(1-r2)(Q≥0).3.相关系数r的性质(1)r的取值范围为[-1,1];(2)|r|值越大,误差Q越小,变量之间的线性相关程度越高;(3)|r|值越接近0,Q越大,变量之间的线性相关程度越低.要点一利用相关系数检验两变量间的相关性例1现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩(x)与入学后第一次考试的数学成绩(y)如下:学生号12345678910x12010811710410311010410599108y84648468696869465771请问:这10名学生的两次数学成绩是否具有线性关系?解x-=110(120+108+…+99+108)=107.8,y-=110(84+64+…+57+71)=68,∑10i=1x2i=1202+1082+…+992+1082=116584,∑10i=1y2i=842+642+…+572+712=47384,∑10i=1xiyi=120×84+108×64+…+99×57+108×71=73796.所以相关系数为r=73796-10×107.8×68(116584-10×107.82)(47384-10×682)≈0.7506.由此可看出这10名学生的两次数学成绩具有较强的线性相关关系.规律方法利用相关系数r进行判断相关关系,需要应用公式计算出r的值,由于数据较大,需要借助计算器.跟踪演练1假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如下统计资料:x23456y2.23.85.56.57.0已知∑5i=1x2i=90,∑5i=1y2i=140.78,∑5i=1xiyi=112.3.(1)求x-,y-;(2)对x,y进行线性相关性检验.解(1)x-=2+3+4+5+65=4.y-=2.2+3.8+5.5+6.5+7.05=5.(2)∑5i=1xiyi-5x-y-=112.3-5×4×5=12.3,∑5i=1x2i-5x-2=90-5×42=10,∑5i=1y2i-5y-2=140.78-125=15.78,所以r=12.310×15.78≈0.979.|r|≈0.979>0.75,所以x与y之间具有很强的线性相关关系.要点二线性回归分析例2已知某地每单位面积菜地年平均使用氮肥量x(kg)与每单位面积蔬菜年平均产量y(t)之间的关系有如下数据:年份19851986198719881989199019911992x/kg7074807885929095y/t5.16.06.87.89.010.210.012.0年份1993199419951996199719981999x/kg92108115123130138145y/t11.511.011.812.212.512.813.0(1)求x与y之间的相关系数,并检验是否线性相关;(2)若线性相关,求蔬菜产量y与使用氮肥量x之间的线性回归直线方程,并估计每单位面积施氮肥150kg时,每单位面积蔬菜的年平均产量.解(1)列出下表,并用科学计算器进行相关计算:i12345678xi7074807885929095yi5.16.06.87.89.010.210.012.0xiyi357444544608.4765938.49001140i9101112131415xi92108115123130138145yi11.511.011.812.212.512.813.0xiyi1058118813571500.616251766.41885x-=151515=101,y-=151.715≈10.11,∑15i=1x2i=161125,∑15i=1y2i=1628.55,∑15i=1xiyi=16076.8.故蔬菜产量与施用氮肥量的相关系数r=16076.8-15×101×10.11(161125-15×1012)(1628.55-15×10.112)≈0.8643.所以蔬菜产量与施用氮肥量之间存在着线性相关关系.(2)设所求的线性回归方程为y=a+bx,则b=∑15i=1xiyi-15x-y-∑15i=1x2i-15x-2=16076.8-15×101×10.11161125-15×1012≈0.0937,a=y--bx-≈10.11-0.0937×101=0.6463,∴线性回归方程为y=0.6463+0.0937x.∴当每单位面积施氮肥150kg时,每单位面积蔬菜年平均产量为0.6463+0.0937×150≈14.701(t).规律方法在研究两个变量之间的关系时,应先进行相关性检验,若具备线性相关关系再求线性回归方程.如果本身两个变量不具备线性相关关系,即使求出线性回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.跟踪演练2为分析学生初中升学的数学成绩对高一数学学习的影响,在高一年级随机抽取10名学生,了解他们的入学成绩和高一期末考试数学成绩如下表:学生编号12345678910入学成绩(x)63674588817152995876高一期末成绩(y)65785282928973985675(1)画出散点图;(2)对变量x与y进行相关性检验,如果x与y之间具有线性相关关系,求出线性回归方程;(3)若某学生入学的数学成绩为80分,试估计他在高一期末考试中的数学成绩.解(1)散点图如图所示.(2)由题可得x-=70,y-=76,∑10i=1(xi-x-)·(yi-y-)=1894,∑10i=1(xi-x-)2=2474,∑ni=1(yi-y-)2=2056,因此可得相关系数为r=∑10i=1(xi-x-)(yi-y-)∑10i=1(xi-x-)2·∑10i=1(yi-y-)2=18942474×2056≈0.8398>0.75,所以入学数学成绩与高一期末考试数学成绩存在线性相关关系.设线性回归方程为y=a+bx,则b=∑10i=1(xi-x-)(yi-y-)∑10i=1(xi-x-)2=18942474≈0.76556,a=y--bx-=76-0.76556×70=22.4108.因此所求的线性回归方程是y=22.4108+0.76556x.(3)若某学生入学的数学成绩为80分,代入(2)中的方程可求得y=22.4108+0.76556×80≈84,即这名学生在高一期末考试中的数学成绩的预测值为84分.1.对于回归分析,下列说法错误的是()A.在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定B.线性相关系数可以是正的,也可以是负的C.回归分析中,如果r2=1,说明x与y之间完全相关D.样本相关系数r∈(-1,1)答案D解析相关系数r的范围是[-1,1].2.一唱片公司欲知打歌费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽取了10张,得如下的资料:∑10i=1xi=28,∑10i=1x2i=303.4,∑10i=1yi=75,∑10i=1y2i=598.5,∑10i=1xiyi=237,则y与x的相关系数r的绝对值为__________.答案0.3解析由公式r=∑ni=1xiyi-nx-y-∑ni=1x2i-nx-2∑ni=1y2i-ny-2得|r|=0.3.3.若线性回归方程中的回归系数b=0,则相关系数r=__________.答案0解析相关系数r=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2∑ni=1(yi-y-)2与b=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2的分子相同.4.有5组数据如下:x123410y3410512将这组数据中的哪一组去掉后,另外的4组数据具有较强的线性相关性?解作出散点图如图所示.观察散点图,可以发现A,B,D,E四个点大致在某条直线附近,具有较强的线性相关关系,故应将点C(3,10)去掉.对相关系数r的理解(1)判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用线性相关系数来判断.(2)|r|越接近1,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据的效果就越好.(3)相关系数r只能描述两个变量之间的变化方向及密切程度,不能揭示二者之间的本质联系.(4)相关系数r可以定量地反映出变量间的相关程度,明确的给出有无必要建立两变量间的回归方程.一、基础达标1.下列说法不正确的是()A.回归分析中,变量x和y都是普通变量B.变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定C.线性相关系数可能是正的,也可能是负的D.如果线性相关系数是负的,y随x的增大而减少答案A解析在回归分析中的两个变量是具有相关关系的两个变量.2.通过相关系数来判断两个变量相关关系的强弱时,相关系数的绝对值越大,用线性回归模型拟合样本数据的效果就越好,如果相关系数r∈[0.75,1],则两个变量()A.负相关很强B.相关性一般C.正相关很强D.两变量之间几乎没有关系答案C3.对四对变量y和x进行线性相关检验,已知n是观测值组数,r是相关系数,且已知:①n=7,r=0.9533②n=15,r=0.3012③n=17,r=0.4991④n=3,r=0.9950则变量y和x具有线性相关关系的是()A.①和②B.①和④C.②和④D.③和④答案B解析相关系数r的绝对值越大,变量x,y的线性相关关系越强,故选B.4.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图①:对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图②.由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案C解析在图①中,所有点都在一条直线的附近,且直线的斜率为负值,所以变量x与y负相关;同理,变量u与v正相关,故选C.5.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,则下列说法正确的是__________.①b与r的符号相同②a与r的符号相同③b与r的符号相反④a与r的符号相反答案①解析因为b>0时,两变量正相关,此时r>0;b<0时,两变量负相关,此时r<0.6.部门所属的10个工业企业生产性固定资产价值与工业增加值资料如下表(单位:百万元):固定资产价值33566789910工业增加值15172528303637424045根据上表资料计算的相关系数为__________.答案0.9918解析x-=3+3+5+6+6+7+8+9+9+1010=6.6.y-=15+17+25+28+30+36+37+42+40+4510=31.5.∴r=∑10i=1(xi-x-)(yi-y-)∑10i=1(xi-x-)2∑10i=1(yi-y-)2=0.9918.7.维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这个指标越高,耐水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度x(克/升)去控制这一指标,为此必须找出它们之间的关系,现安排一批实验,获得如下数据
本文标题:第三章--1.2相关系数
链接地址:https://www.777doc.com/doc-4153395 .html