您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 回归分析和独立性检验(教师版)
高考理数提高班1、2班回归分析即独立性检验一、回归分析1、两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.2、散点图:将样本中的n个数据点()(12)iixyin,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3、如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4、回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性.回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.5、最小二乘法:记回归直线方程为:ˆˆˆybxa,称为变量y对变量x的回归直线方程,其中ab,叫做回归系数.用最小二乘法求回归系数ˆˆab,有如下的公式:1122211()()ˆ()ˆˆnniiiiiinniiiixxyyxynxybxxxnxaybx,其中ab,上方加“^”,表示是由观察值按最小二乘法求得的(样本中心点(,)xy必定落在回归直线上)例1、已知回归直线方程中斜率的估计值为1.23,样本点的中心(4,5),则回归直线方程为A.ˆy=1.23x+0.08B.ˆy=0.08x+1.23C.ˆy=1.23x+4D.ˆy=1.23x+5解析回归直线方程过样本点的中心,把点(4,5)代入A项成立.答案A例2、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据x3456y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程ybxa;(3)已知该厂技术改造前100吨甲产品能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?高考理数提高班1、2班【解析】(1)如下图01234567012345产量能耗(2)yxinii1=32.5+43+54+64.5=66.5x=46543=4.5y=45.4435.2=3.5nixi12=32+42+52+62=86266.544.53.566.563ˆ0.78644.58681bˆˆ3.50.74.50.35aYbX故线性回归方程为y=0.7x+0.35(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7100+0.35=70.35故耗能减少了90-70.35=19.65(吨)练习1、某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程ˆˆˆybxa,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少时间?高考理数提高班1、2班解(1)散点图如图所示.(2)由表中数据得1niiixy=52.5,x=3.5,y=3.5,21niix=54,∴ˆb=0.7.∴ˆa=1.05.∴ˆy=0.7x+1.05.回归直线如图中所示.(3)将x=10代入回归直线方程,得y=0.7×10+1.05=8.05(小时),∴预测加工10个零件需要8.05小时.二、独立性检验1、22联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22的表,如下:1y2y合计1xabab2xcdcdacbdn如果有调查得来的四个数据abcd,,,,并希望根据这样的4个数据来检验上述的两种状态x与y是否有关,就称之为22联表的独立性检验.2、独立性检验的步骤:统计假设:0H;列出22联表;计算2K统计量;查对临界值表,作出判断.3、几个临界值:.4、统计假设:如果事件A与B独立,这时应该有()()()PABPAPB,用字母0H表示此式,即0:()()()HPABPAPB,称之为统计假设.5、2K(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22()()()()()nadbcKabcdacbd,用它的大小可以用来决定是否拒绝原来的统计假设0H6、2K统计量的临界值的作用:比如:当23.841K时,有95%的把握说事件A与B有关;当26.635K时,有99%的把握说事件A与B有关;当23.841K时,有5%的把握说事件A与B是无关的.7、独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立高考理数提高班1、2班例、甲、乙两所学校高三年级分别有1200人、1000人,为了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布统计表如下:甲校:分组[70,80)[80,90)[90,100)[100,110)频数34815分组[110,120)[120,130)[130,140)[140,150]频数15x32乙校:分组[70,80)[80,90)[90,100)[100,110)频数1289分组[110,120)[120,130)[130,140)[140,150]频数1010y3(1)计算x,y的值;(2)若规定考试成绩在[120,150]内为优秀,请分别估计两所学校数学成绩的优秀率;(3)由以上统计数据填写下面2×2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异.甲校乙校总计优秀非优秀总计解:(1)甲校抽取110×12002200=60(人),乙校抽取110×10002200=50(人),故x=10,y=7.(2)估计甲校优秀率为1560=25%,乙校优秀率为2050=40%.(3)表格填写如下:甲校乙校总计优秀152035非优秀453075总计6050110K2=11015×30-20×45260×50×35×75≈2.832.706,又因为1-0.10=0.9,故有90%的把握认为两个学校的数学成绩有差异.练习1、某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=7.069,则所得到的统计学结论是:有()的把握认为“学生性别与支持活动有关系”.(C)A.0.1%B.1%C.99%D.99.9%2、某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人.陈老师采用A、B两种不同的教学方式分别在甲、乙两个班级进行教改实验.为了了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如下.记成绩不低于90分者为“成绩优秀”.高考理数提高班1、2班由以上统计数据填写下面列联表,并判断是否有90%的把握认为:“成绩优秀”与教学方式有关.甲班(A方式)乙班(B方式)总计成绩优秀成绩不优秀总计[解析]由已知数据得甲班(A方式)乙班(B方式)总计成绩优秀156成绩不优秀191534总计202040根据列联表中数据,χ2=40×1×15-5×1926×34×20×20≈3.137,由于3.1372.706,所以有90%的把握认为“成绩优秀”与教学方式有关.回归分析和独立性检验练习题1、一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为ˆy=7.19x+73.93,用这个模型预测这孩子10岁时的身高,则正确的叙述是(D)A.身高一定是145.83cmB.身高在145.83cm以上C.身高在145.83cm以下D.身高在145.83cm左右2、某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y与x具有相关关系,回归方程为ˆy=0.66x+1.562.若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为(A)A.83%B.72%C.67%D.66%解析将y=7.675代入回归方程,可计算得x≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.3、若施化肥量x与水稻产量y的回归直线方程为ˆy=5x+250,当施化肥量为80kg时,预报水稻产量为_____________________.解析当x=80kg时,ˆy=5×80+250=650kg.答案650kg4、从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:高考理数提高班1、2班身高x(cm)160165170175180体重y(kg)6366707274根据上表可得回归直线方程y^=0.56x+a^,据此模型预报身高为172cm的高三男生的体重为(B)A.70.09kgB.70.12kgC.70.55kgD.71.05kg5、下表提供了某厂节能降耗技术改造后在生产A产品过程中记录的产量x(t)与相应的生产能耗y(t)的几组对应数据:x3456y2.5t44.5根据上表提供的数据,求出y关于x的线性回归方程为y^=0.7x+0.35,那么表中t的值为(A)A.3B.3.15C.3.5D.4.56、有甲、乙两个班级进行数学考试,按照大于等于85分的优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀非优秀总计甲班10b乙班c30总计105已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是(C)A.列联表中c的值为30,b的值为35B.列联表中c的值为15,b的值为50C.根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D.根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”7、某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)88.28.48.68.89销量y(件)908483807568(1)求回归直线方程ˆˆˆybxa,其中ˆ20b,ˆˆaybx;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)由于x=16(8+8.2+8.4+8.6+8.8+9)=8.5,y=16(90+84+83+80+75+68)=80,所以ˆˆaybx=80+20×8.5=250.从而回归直线方程为ˆy=-20x+250.(2)设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1000=-20x-3342+361.25,当且仅当x=8.25时,L取得最大值.高考理数提高班1、2班故当单价定为8.25元时,工厂可获得最大利润.8、考察黄烟经过药物处理跟发生青花病的关系,得到如下数据,在试验的470珠黄烟中,经过药物处理的黄烟有25珠发生青花病,60株没有发生青花病.未经过药物处理的有185株发生青花病,200株没有发生青花病,试推断药物处理跟发生青花病是否有关系.[解析]由已知得到下表经药物处理未经药物处理合计患青花病25185210无青花病60200260合计85385470根据公式k2=470×25×200-185×60
本文标题:回归分析和独立性检验(教师版)
链接地址:https://www.777doc.com/doc-4657680 .html