您好,欢迎访问三七文档
01统计案例本章共分2节:1.1回归分析的基本思想及其初步应用,1.2独立性检验的基本思想及其初步应用.(1)回归分析的部分内容在《数学3(必修)》中已出现过,比如画散点图、最小二乘估计的基本思想及计算公式、建立回归方程并进行预报等.在此基础上,本章通过典型案例“女大学生身高和体重的关系”进一步讨论一元线性回归模型,分析产生模型中随机误差项的原因,并从相关系数的角度研究了两个变量间线性相关关系的强弱,从而让学生了解在什么情况下可以考虑使用线性回归模型.教科书介绍了一元线性回归模型的残差平方和分解的思想,从而给出相关指数的含义,即相关指数越大,模型拟合的效果越好.教科书从残差分析的角度研究所选用的回归模型是否合适,引导学生初步体会模型诊断的思想.为提高学生解决应用问题的能力,教科书还强调了用解释变量(自变量)估计预报变量(因变量)时需要注意的问题,总结建立回归模型的基本步骤.作为线性回归模型的一个应用,教科书还给出了一个处理非线性相关关系的例子,并通过相关指数比较不同模型对同一样本数据集的拟合效果.这里所涉及的非线性相关关系可以通过变换转化成线性相关关系,从而可以用线性回归模型进行研究.这个例子没有增加难度,但能开阔学生的思路,使学生了解虽然任何数据对都可以用线性回归模型来拟合,但其拟合的效果并不一定最好,可以探讨用其他形式的回归模型来拟合观测数据.(2)在独立性检验中,教科书通过典型案例“吸烟是否与患肺癌有关系”的研究,介绍了独立性检验的基本思想、方法和初步应用.独立性检验的步骤是固定的,仿照教科书的例题,学生不难完成习题,但独立性检验的思想对学生来说是比较难理解的,教学中如何结合例题介绍独立性检验的思想是值得重点考虑的.假设检验的基本思想与反证法类似,它们都是假设结论不成立,但反证法是在推出矛盾后得证结论成立,而假设检验是在结论不成立时推出有利于结论成立的小概率事件发生.我们知道小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的.本章的高考考试大纲要求如下:1.变量的相关性(1)会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系.(2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.2.统计案例了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.(1)独立检验了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.(2)假设检验了解假设检验的基本思想、方法及其简单应用.(3)回归分析了解回归的基本思想、方法及其简单应用.统计案例这一章是在前面学习统计和回归直线的基础上进行的,学生有了一定的了解,但并不深刻,学习中应该多从实际问题入手来考虑.通过对一些典型案例的数据的处理,了解和使用一些常用的统计方法的特点(如统计推断中可能犯的一些错误,在估计中结果也有一定的随机性).在学习中不断体会统计方法应用的广泛性,多找出实际问题,结合所学习的统计知识去分析、解决,多与社会实际相结合,亲自动手去实践,以加深对所学知识的认识,巩固知识,不断创新,并要在问题的解决过程中,多探寻规律,合理建模,形成方法,但要注意不能单纯记忆公式和简单的套用公式;学会在学习中不断做好自我完善.寻找适合于自己的学习方法,会用必要的现代技术手段来处理有关数据,如计算器、计算机等.§1.1回归分析的基本思想及其初步应用第一课时回归分析的基本思想及其初步应用(一)目标导向1.知识与技能通过具体案例,进一步学习回归分析的基本思想及初步应用.2.过程与方法通过课本中例1,复习回归直线方程的求法,并通过图形发现随机误差的存在,学会运用相关系数来衡量两个相关变量之间的相关关系的强弱.3.情感、态度与价值观相关关系无处不在,因此掌握统计的思想与方法具有很强的实际意义.知识导学知识点1求回归直线方程求回归直线方程的一般方法是:(1)作出散点图,将问题所给的数据在平面直角坐标系中描点,这样表示出的具有相关关系的两个变量的一组数据的图形就是散点图,从散点图中我们可以看出样本点是否呈条状分布,判断两个量是否具有线性相关关系;(2)求回归系数a^,b^,其中b^=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nx2i-nx2;(3)写出回归直线方程y^=b^x+a^,并用回归直线方程进行预测说明:①回归系数a^,b^的推导过程,对于某一个xi由回归直线方程:y^=b^x+a^可以确定一个y^i的值,但由于测量本身存在误差或者受其他因素的影响,或者回归直线方程本身存在误差,或者受某些随机因素的影响,使得y^与测得的实际数据yi很可能存在误差,并不相等,出现yi=y^i+∑i其中∑i为随机误差.②求回归系数b^的具体步骤及方法:将所给的数据x、y列成相应的表格,如下表所示.序号xyx2y2xy1x1y1x21y21x1y12x2y2x22y22x2y2………………nxnynx2ny2nxnyn∑∑xi∑yi∑x2i∑y2i∑xiyi由此可得x=1ni=1nxi,y=1ni=1nyi,b^=∑xiyi-nxy∑x2i-nx2,a^=y-b^x.知识点2随机误差从散点图中我们可以看到,样本点分布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系,这时我们把身高与体重的关系用下面的线性回归模型来表示y=bx+a+e,其中a,b为模型的未知参数,e称为随机误差,在实际问题中,一个人的体重除了受身高的影响外,还受许多其他因素的影响,例如饮食习惯,是否喜欢运动,度量误差等,而且我们选用的线性模型往往只是一种近似的模型,所有这些因素都会导致随机误差e的产生.在一般情况下(已知n对数据(x1,y1),(x2,y2),…,(xn,yn),即n个点)进行a^与b^的推导.随机误差ei=yi-a-bxi,i=1,2,3,…,n.假如把这些随机误差直接相加作为总的误差是不合理的,因为它们有正有负,相加可能抵消一部分,为了不使误差之和正负抵消,我们设全部误差的平方和为Q=i=1ne2i=i=1n(yi-a-bxi)2,用Q的大小来度量总的误差大小,Q是a、b的二元函数,记作Q(a,b),我们可用最小二乘法求出Q(a,b)取最小值时a、b的值如下:b^=i=1nxi-xyi-yi=1nxi-x2a^=y-b^x.(*)由*式知,回归直线方程y=b^x+a^必过样本点的中心(x,y).知识点3相关系数样本相关系数的计算公式r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2.相关系数是描述相关关系强弱的一个数据.当r0时,表明两个变量正相关;当r0时,表明两个变量负相关,r的绝对值越接近于1,表明两个变量的线性相关性越强,r的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系,通常当r大于0.75时,认为两个变量有很强的线性相关关系,如r=0.798,这表明两个变量之间有很强的线性相关关系,从而也表明建立回归模型是有必要的.重点导析重点复习回归直线方程的求法,进一步学会运用相关系数分析相关关系的强弱.相关关系不是因果关系,是不确定的,因此研究其相关程度是必要的.思维导悟导悟1最小二乘法记x=1ni=1nxi,y=1ni=1nyi,为了书写方便,省去求和符号∑的上下标,我们有:Q(a,b)=i=1ne2i=i=1n(yi-bxi-a)2=i=1n{(yi-y)+[y-(a+bx)]-b(xi-x)}2=i=1n{(yi-y)2+[y-(a+bx)]2+b2(xi-x)2+2(yi-y)[y-(a+bx)]-2b(xi-x)[y-(a+bx)]-2b(xi-x)(yi-y)}=i=1n(yi-y)2+n[y-(a+bx)]2+b2i=1n(xi-x)2+2[y-(a+bx)]·i=1n(yi-y)-2b[y-(a+bx)]·i=1n(xi-x)-2bi=1n(xi-x)(yi-y)=i=1n(yi-y)2+n[y-(a+bx)]2+b2i=1n(xi-x)2-2bi=1n(xi-x)(yi-y)=i=1n(yi-y)2+n[y-(a+bx)]2+i=1n(xi-x)2·b2-2bi=1nxi-xyi-yi=1nxi-x2=i=1n(yi-y)2+n[y-(a+bx)]2+i=1n(xi-x)2·b-i=1nxi-xyi-yi=1nxi-x22-[i=1nxi-xyi-y]2i=1nxi-x2,对于n对数据来说,x1,x2,…,xn一般不会相等,因此i=1n(xi-x)2≠0,yi,y,n,x,xi都是已知数,含a,b的两项是非负数,当且仅当它们等于零时,Q(a,b)取最小值,这就是说当b^=i=1nxi-xyi-yi=1nxi-x2,a^=y-b^x时,Q(a,b)达到最小值,b^=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nx2i-nx2,这样就可以求出回归系数b^和a^的值,从而可求回归直线方程.导悟2残差变量e的主要来源(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差.可能存在非线性的函数能够更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差.这种由模型近似所引起的误差包含在e中.(2)忽略了某些因素的影响.影响变量y的因素不只是变量x,可能还包括其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),它们的影响都体现在e中.(3)观测误差.由于测量工具等原因,导致y的观测值产生误差(比如一个人的体重是确定的数,不同的秤可能会得到不同的观测值,与真值之间存在误差),这样的误差也包含在e中.上面三项误差越小,说明回归模型的拟合效果越好.导悟3利用回归方程进行预报获得回归方程不是我们的最终目的,如果建立的回归模型是有效的,我们希望用它进行预报或决策.利用回归方程y^=0.849x-85.712,预报身高为172cm的女大学生的体重,只要把x=172代入方程中即可得到体重的预报值60.316kg.教科书在这里让学生探究:“身高为172cm的女大学生的体重一定是60.316kg吗?”如果不是,引起误差的原因是什么?其目的是让学生正确理解用(线性)回归方程预报结果的含义.该问题的答案是否定的.实际上60.316kg是身高为172cm的女大学生的平均体重的估计值,而不一定是某位身高为172cm的女大学生的真实体重.也就是说,身高为172cm的女大学生的平均体重大约是60.316kg,并且大部分172cm的女大学生的体重在60.316kg附近.用这个回归方程不能给出每个身高为172cm的女大学生的体重的预报值,只能给出她们平均体重的预报值.导悟4求线性回归方程与随机误差【例1】某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是()A.y^=-10x+200B.y^=10x+200C.y^=-10x-200D.y^=10x-200【解析】由y与x呈负相关可知B、D错误,当x=0时,对于C选项y^=-200,与现实不符.【答案】A【例2】研究某灌溉渠道水的流速Y与水深x之间的关系,测得一组数据如下:水深x/m1.401.501.601.701.801.902.002.10流速Y/(m·s-1)1.701.791.881.952.032.102.162.21(1)求Y对x的回归直线方程;(2)求流速为2.10m/s时水深的随机误差.【分析】从散点图可以直观地看出变量x与Y之间有无线性相关关系,为此把这8对数据描绘在平面直角坐标系中,得到平面上8个点,如图1所示.图1由图1容易看出,x与Y
本文标题:2019-2020学年高中数学 第1章 统计案例 1-1-1 回归分析的基本思想及其初步应用(一)
链接地址:https://www.777doc.com/doc-8291970 .html