您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 统计案列和回归分析(学生)
第3讲变量间的相关关系、统计案例[最新考纲]1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.(2)回归方程方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a^,b^是待定参数.3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中(x,y)称为样本点的中心.(3)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d为样本容量.(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验辨析感悟1.对变量间的相关关系的认识(1)①A项:正方体的棱长与体积是相关关系.()②B项:日照时间与水稻的亩产量是相关关系.()(2)相关关系与函数关系都是一种确定性的关系,也是一种因果关系()(3)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.()2.对回归直线方程的理解(4)通过回归方程y^=b^x+a^可以估计和观测变量的取值和变化趋势.()(5)任何一组数据都对应着一个回归直线方程.()(6)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x-85.71,判断下列命题的正误:①y与x具有正的线性相关关系.()②回归直线过样本点的中心(x,y).()③若该大学某女生身高增加1cm,则其体重约增加0.85kg.()④若该大学某女生身高为170cm,则可断定其体重必为58.79kg.()3.对独立性检验的认识(7)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()(8)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.()[感悟·提升]1.“相关关系与函数关系”的区别函数关系是一种确定性关系,体现的是因果关系;而相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系.如(2).2.三点提醒一是回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.如(5).二是根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.如(6)中的④.三是独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.如(8).考点一两个变量间的相关关系【例1】四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③y与x正相关且y^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578.其中一定不正确的结论的序号是().A.①②B.②③C.③④D.①④规律方法在回归直线方程y^=b^x+a^中,b^代表x每增加一个单位,y平均增加的单位数,一般来说,当回归系数b^>0时,说明两个变量呈正相关关系;当回归系数b^<0时,说明两个变量呈负相关关系.【训练1】对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断().A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关考点二线性回归方程及其应用【例2】电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷合计男女1055合计解(1)由所给的频率分布直方图知,“体育迷”人数为100×(10×0.020+10×0.005)=25.“非体育迷”人数为75,则据题意完成2×2列联表:非体育迷体育迷合计男301545女451055合计7525100将2×2列联表的数据代入公式计算:χ2=-75×25×45×55≈3.0302.706.所以在犯错误的概率不超过0.10的前提下可以认为“体育迷”与性别有关.规律方法(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x,y).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.【训练2】以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据.房屋面积x/m211511080135105销售价格y/万元24.821.618.429.222(1)求线性回归方程;(2)据(1)的结果估计当房屋面积为150m2时的销售价格.考点三独立性检验【例3】通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2=nad-bc2a+bc+da+cb+d算得,K2=110×40×30-20×20260×50×60×50≈7.8.附表:P(K2≥k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是().A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”规律方法利用独立性检验,能够帮助我们对日常生活中的实际问题作出合理的推断和预测.独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,具体做法是根据公式K2=nad-bc2a+bc+da+cb+d,计算随机变量的观测值k,k值越大,说明“两个变量有关系”的可能性越大.【训练3】某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:主食蔬菜主食肉类合计50岁以下50岁以上合计(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析.解(1)2×2列联表如下:主食蔬菜主食肉类合计50岁以下481250岁以上16218合计201030(2)因为K2=30×8-128212×18×20×10=106.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.1.求回归方程,关键在于正确求出系数a^,b^,由于a^,b^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求线性回归方程.3.根据K2的值可以判断两个分类变量有关的可信程度.方法优化8——求回归直线方程的方法技巧【典例】某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份20022004200620082010需求量/万吨236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程y^=b^x+a^;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.[优美解法](1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,先将数据处理如下:年份-2006-4-2024需求量-257-21-1101929对处理的数据,容易算得x=0,y=3.2,b^=-4×-21+-2×-11+2×19+4×29-5×0×3.2-42+-22+22+42-5×02=26040=6.5,a^=y-b^x=3.2.由上述计算结果,知所求回归直线方程为y^-257=6.5(x-2006)+3.2.即y^=6.5(x-2006)+260.2.(2)利用所求得的直线方程,可预测2012年的粮食需求量为6.5×(2012-2006)+260.2=6.5×6+260.2=299.2(万吨).[反思感悟]求回归直线方程时,重点考查的是计算能力.若本题用一般法去解,计算更繁琐(如年份、需求量不做如上处理),所以平时训练时遇到数据较大的要考虑有没有更简便的方法解决.【自主体验】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x(cm)174176176176178儿子身高y(cm)175175176177177则y对x的线性回归方程为________.基础巩固题组一、选择题1.下列两个变量之间的关系是相关关系的是().A.速度一定时,位移与时间B.单位面积的产量为常数时,土地面积与总产量C.身高与体重D.电压一定时,电流与电阻2.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是().A.直线l过点(x,y)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=12x+1上,则这组样本数据的样本相关系数为().A.-1B.0C.12D.14.对具有线性相关关系的变量x,y,测得一组数据如下x24568y2040607080根据上表,利用最小二乘法得它们的回归直线
本文标题:统计案列和回归分析(学生)
链接地址:https://www.777doc.com/doc-2138884 .html