您好,欢迎访问三七文档
章末复习提升课第一章统计案例[问题展示](教材P19复习参考题A组T2)假设美国10家最大的工业公司提供了以下数据(单位:百万美元):公司通用汽车福特埃克森IBM通用电气美孚菲利普·莫利斯克莱斯勒杜邦德士古销售总额x1126974969338665663438552645097639069361563520932416利润x2422438353510375839391809294635924802413线性回归分析(1)作销售总额和利润的散点图,根据该图猜想它们之间的关系应是什么形式.(2)建立销售总额为解释变量,利润为预报变量的回归模型,并计算残差.(3)计算R2,你认为这个模型能较好地刻画销售总额和利润之间的关系吗?请说明理由.【解】(1)将销售总额作为横轴x,利润作为纵轴y,根据表中数据绘制散点图如图.由于散点图中的样本点基本上在一个带状区域内分布,猜想销售总额与利润之间呈线性相关关系.(2)由最小二乘法的计算公式,得a^≈1307.3,b^≈0.026,则线性回归方程为y^=0.026x+1307.3.其残差值计算结果见下表:销售总额12697496933866566343855264利润42243835351037583939残差-384.6247.442-50.356801.3121194.836销售总额5097639069361563520932416利润1809294635924802413残差-823.676622.906-1888.356257.266262.884(3)对于第二问中所建立的线性回归方程,相关指数R2≈0.54,说明在线性回归模型中销售总额只能解释利润变化的54%,所以线性回归模型不能很好地刻画销售总额和利润之间的关系.经分析预测,美国通用汽车等10家大公司的销售总额xi(i=1,2,…,10,单位:百万美元)与利润yi(i=1,2,…,10,单位:百万美元)的近似线性关系为y^=0.026x+a^,经统计i=110xi=623090,i=110yi=29300.(1)求a^;(2)若通用汽车公司的销售总额x1=126974(百万美元),残差e^1=-387,估计通用汽车的利润;(3)福特公司的销售总额为96933百万美元,利润为3835百万美元,比较通用汽车与福特公司利润的解释变量对于预报变量变化的贡献率说明了什么?(以上答案精确到个位)【解】(1)由i=110xi=623090,i=110yi=29300,得样本的中心点为(62309,2930),所以a^=2930-0.026×62309≈1310.(2)由第一问知y^=0.026x+1310,当x1=126974时,y^1=0.026×126974+1310≈4611,所以y1=y^1+e^1=4611+(-387)=4224,估计通用汽车的利润为4224百万美元.(3)由第一问、第二问可得通用汽车利润的解释变量对于预报变量变化的贡献率为R21,则R21=1-(y1-y^1)2(y1-y-)2=1-(-387)2(1294)2≈0.911=91.1%.设福特公司利润的解释变量对于预报变量变化的贡献率为R22,由y^=0.026x+1310得y^2=0.026×96933+1310≈3830,则R22=1-(3835-3830)2(3835-2930)2=1-529052≈0.9999=99.99%.由R21<R22知,用y^=0.026x+1310作为解释变量与预报变量的关系,预报通用汽车的效果没有预报福特公司的效果好,或者说预报通用汽车的精确度低于预报福特公司的精确度.[问题展示](教材P6例2)一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于表中,试建立y关于x的回归方程.温度x/℃21232527293235产卵数y/个711212466115325非线性回归分析【解】根据收集的数据,作散点图:由散点图知,样本点分布在某条指数函数曲线周围,故该回归方程为y=c1ec2x,两边取对数得lny=c2x+lnc1,作变换z=lnyx=x(c2=b^,lnc1=a^),得z^=b^x+a^,且变化后所得样本数据表为x21232527293235z1.9462.3983.0453.1784.1904.7455.784经计算得z关于x的线性回归方程为z^=0.272x-3.849,所以y关于x的回归方程为y^=e0.272x-3.849,即y^=1e3.849·e0.272x.【拓展1】“指数型”回归方程选择的等价性.(1)选择指数函数y=ax(a>0且a≠1)不科学,因为指数函数y=ax(a>0且a≠1)恒过定点(0,1),且仅有一个估计值a,不能有效体现解释变量x与预报变量y之间的关系,即拟合效果很差.(2)“平移型”指数函数与y=c1ec2x的等价性.①回归方程为y=ax+b,由y=ax+b得lny=(x+b)lna=(lna)x+blna,作变换z=lnyx=x(b^=lna,a^=blna),则有z^=b^x+a^;②回归方程为y=ax+b,令ax=k·ex,t=ex,可得变换t=1kax,y=y得y=kt+b(b^=k,a^=b).(3)一般“指数型”函数与y=c1ec2x的等价性.回归方程为y=k1ek2x+b.因为y=k1ek2x+b=k1ek2x·eb=k1eb·ek2x,lny=ln(k1eb)+k2x=lnk1+b+k2x,作变换z=lnyx=x(b^=k2,a^=lnk1+b),则有z^=b^x+a^.【拓展2】从散点图看回归方程的设置(1)由本例从散点图可以看出,样本点集中在某二次函数(抛物线)的附近,因此可选择二次函数y=ax2+b作为回归方程.作变换t=x2,y=y即得y=at+b(其中b^=a,a^=b).(2)若选用y=ax2+bx+c模型,则具有不确定性;因为y=ax2+bx+c=ax+b2a2+4ac-b24a,虽然作变换t=x+b2a2,y=y可得出线性关系y=at+4ac-b24a,但由于a、b、c未确定,从而变换t=x+b2a2的t值不确定,从而不能列出样本点(ti,yi)数据表,即y=at+4ac-b24a不能确定.因此,我们根据散点图设置回归方程应特别注意:①变换t=f(x),z=g(y)可列出(ti,zi)的数据表;②注重变换后的线性回归方程中的b^与a^与变换前参数的关系;③利用求出的线性回归方程替换变量后还原成原问题的回归方程;④最后根据需要进行回归分析.[问题展示](教材P15练习)甲乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表:班级与成绩列联表优秀不优秀总计甲班103545乙班73845总计177390画出列联表的等高条形图,并通过图形判断成绩与班级是否有关.根据列联表的独立性检验,能否在犯错误的概率不超过0.01的前提下认为成绩与班级有关系?独立性检验【解】列联表的等高条形图如图.由图及表直观判断,好像“成绩优秀与班级有关系”.假设成绩与班级没有关系,则有a=10,b=35,c=7,d=38,a+b=45,c+d=45,a+c=17,b+d=73,n=90,代入K2公式,得K2的观测值k=90×(10×38-7×35)245×45×17×73≈0.653.由于k≈0.653<6.635,所以在犯错误的概率不超过0.01的前提下不能认为成绩与班级有关系.甲、乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表:班级与成绩列联表优秀不优秀总计甲班ab45乙班cd45总计256590若K2的观测值为1813.(1)求a,b,c,d的值;(2)根据观测值表,你最少有多大的把握认为成绩与班级无关?【解】(1)由表知,c=25-a,b=45-a,d=45-c=45-(25-a)=20+a,n=90.由K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)得90[a(20+a)-(25-a)(45-a)]245×45×25×65=1813,化简得(2a-25)2=25,所以2a-25=5或2a-25=-5,所以a=15或a=10,当a=10时,优秀不优秀总计甲班103545乙班153045总计256590当a=15时,优秀不优秀总计甲班153045乙班103545总计256590说明甲班与乙班编号不同而已,故当a=10时,b=35,c=15,d=30,或当a=15时,b=30,c=10,d=35.(2)因为K2的观测值为1813≈1.385>1.323,而P(K2≥1.323)=0.25,所以最少有25%的把握认为成绩与班级无关.数学教师对他所任教的高二两个班进行一次数学考试(满分100分),从两个班学生考试成绩中,都随机抽取了15名学生的数学成绩的茎叶图如下,(1)从茎叶图能否判断乙班的成绩好于甲班的成绩;(2)若记成绩在区间[80,100)为优秀,小于80为不优秀,你有多少把握判断乙班的成绩比甲班的成绩优良?【解】(1)甲班成绩集中在“茎7”,乙班的成绩集中在“茎8”,从茎叶图可判断乙班的成绩好于甲班的成绩.(2)根据茎叶图列出2×2列联表优秀不优秀总计甲班51015乙班7815总计121830K2的观测值k=30×(5×8-7×10)215×15×12×18=59≈0.556>0.455,且k=59≈0.556<0.708,又P(K2≥0.455)=0.50,P(K2≥0.708)=0.40,故仅有50%至60%的把握认为乙班的成绩比甲班的成绩优良.本部分内容讲解结束按ESC键退出全屏播放
本文标题:2019-2020学年高中数学 第一章 统计案例 章末复习提升课(一)课件 新人教A版选修1-2
链接地址:https://www.777doc.com/doc-8285723 .html