您好,欢迎访问三七文档
考点一线性回归方程在散点图中样本点大致分布在一条直线附近,则利用线性回归模型进行研究,可近似地利用回归直线方程y^=b^x+a^来预报,利用公式求出回归系数a^,b^,即可写出回归直线方程,并用回归直线方程进行预测说明.[典例1]以下是某地收集到的新房屋的销售价格y和房屋的面积x的数据:房屋面积x/m211511080135105销售价格y/万元24.821.618.429.222(1)画出数据对应的散点图;(2)若线性相关,求线性回归方程;(3)根据(2)的结果估计当房屋面积为150m2时的销售价格.解:(1)数据对应的散点图如图所示.(2)由散点图知y与x具有线性相关关系.由表中数据知x=15i=15xi=109,y=15i=15yi=23.2,i=15x2i=60975,i=15xiyi=12952.设所求回归直线方程为y^=b^x+a^,则b^=i=15xiyi-5x-y-i=15x2i-5x2≈0.1962,a^=y-b^x-≈1.8142,故所求回归直线方程为y^=0.1962x+1.8142.(3)根据(2),当x=150时,销售价格的估计值为y^=0.1962×150+1.8142=31.2442(万元).[对点训练]1.连锁经营公司所属5个零售店某月的销售额利润资料如表:商品名称ABCDE销售额x/千万元35679利润额y/百万元23345(1)画出销售额和利润额的散点图;(2)若销售额和利润额具有相关关系,试计算利润额y对销售额x的回归直线方程;(3)估计要达到1000万元的利润额,销售额约为多少万元.解:(1)根据表中所给的5对数据,在平面直角坐标系中画出散点图,如图所示.(2)∵x-=3+5+6+7+95=6,y-=2+3+3+4+55=175,∴nx-y-=5×6×175=102,i=15xiyi=3×2+5×3+6×3+7×4+9×5=112,i=15x2i=32+52+62+72+92=200,nx-2=5×62=180,b^=112-102200-180=12=0.5,a^=y--b^x-=175-0.5×6=25=0.4,∴利润额y对销售额x的回归直线方程是y^=0.5x+0.4.(3)根据题意,令y^=0.5x+0.4=10,解得x=19.2(千万元),故销售额约为19.2千万元.考点二回归模型分析对于建立的回归模型,我们必须对模型的拟合效果进行分析,也就是对利用回归模型解决实际问题的效果进行评价.一方面可以对比残差或残差平方和的大小,同时观察残差图,进行残差分析;另一方面也可以研究数据的R2(相关系数r).对模型拟合效果的分析能够帮助我们利用最优化的模型来解决实际问题.[典例2]在研究弹簧伸长长度y(cm)与拉力x(N)的关系时,对不同拉力的6根弹簧进行测量,测得如下表中的数据:x/N51015202530y/cm7.258.128.959.9010.911.8若依据散点图及最小二乘法求出的回归直线方程为y^=0.18x+6.34,求R2,并结合残差说明拟合效果.解:列表求值如下:xi51015202530yi7.258.128.959.9010.911.8xiyi36.2581.2134.25198272.5354x2i25100225400625900yi-y^i0.01-0.02-0.09-0.040.060.06yi-y-2.24-1.37-0.540.411.412.31x=17.5,y≈9.49,i=16xiyi=1076.2,i=16x2i=2275,i=16(yi-y^i)2=0.0174,i=16(yi-y)2=14.6784.∴R2=1-0.017414.6784≈0.99881,回归模型拟合效果较好.由表中数据可以看出残差比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高.[对点训练]2.从某大学中随机选取5名女大学生,其身高和体重数据如下表所示:编号12345身高x/cm165165157170175体重y/kg4857505464甲、乙两位同学在计算根据女大学生的身高预报体重的回归方程时,分别得到以下回归模型:甲:y^=0.75x-70;乙:y^=0.76x-71.试依据R2判定哪一个模型的拟合效果较好?解:对甲模型,yi-y^i与yi-y的值如下表:yi-y^i-5.753.252.25-3.52.75yi-y-6.62.4-4.6-0.69.4所以i=15(yi-y^i)2=(-5.75)2+3.252+2.252+(-3.5)2+2.752=68.5,i=15(yi-y)2=(-6.6)2+2.42+(-4.6)2+(-0.6)2+9.42=159.2.此时R2=1-68.5159.2≈0.57.对乙模型,yi-y^i与yi-y的值如下表:yi-y^i-6.42.61.68-4.22yi-y-6.62.4-4.6-0.69.4所以i=15(yi-y^i)2=(-6.4)2+2.62+1.682+(-4.2)2++22≈72.2,i=15(yi-y)2=(-6.6)2+2.42+(-4.6)2+(-0.6)2+9.42=159.2.此时R2=1-72.2159.2≈0.55.因为0.570.55,所以甲模型的拟合效果较好.考点三独立性检验独立性检验就是根据采集的样本数据,利用公式求出随机变量K2的观测值k,通过比较k与临界值k0的大小来确定两个分类变量是否有关系的方法.[典例3]户外运动已经成为一种时尚运动,某单位为了了解员工喜欢户外运动是否与性别有关,决定从本单位全体650人中采用分层抽样的办法抽取50人进行问卷调查,得到了如下列联表:喜欢户外运动不喜欢户外运动总计男性5女性10总计50已知在这50人中随机抽取1人抽到喜欢户外运动的员工的概率是35.(1)请将上面的列联表补充完整;(2)求该公司男、女员工各多少人;(3)在犯错误的概率不超过0.005的前提下能否认为喜欢户外运动与性别有关?并说明你的理由.下面的临界值表仅供参考:P(K2≥k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828参考公式:K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d解:(1)因为在全部50人中随机抽取1人抽到喜欢户外运动的员工的概率是35,所以喜欢户外运动的男女员工共30人,其中男员工20人,列联表补充如下:喜欢户外运动不喜欢户外运动总计男性20525女性101525总计302050(2)该公司男员工人数为25÷50×650=325(人),则女员工有325人.(3)K2的观测值k=50×20×15-10×5230×20×25×25≈8.3337.879,所以在犯错误的概率不超过0.005的前提下认为喜欢户外运动与性别有关.[对点训练]3.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断在犯错误的概率不超过0.1的前提下能否认为“生产能手与工人所在的年龄组有关”.解:由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人).“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:生产能手非生产能手总计25周岁以上组15456025周岁以下组152540总计3070100
本文标题:2019-2020学年高中数学 第三章 统计案例章末小结与测评课件 新人教A版选修2-3
链接地址:https://www.777doc.com/doc-8287798 .html