您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 回归分析与独立性检验复习
一、考纲要求1、会作具有相关关系两个变量的数据的散点图,会利用散点图认识变量间的相关关系。2、了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。3、了解独立性检验(只要求2乘2列联表)的基本思想、方法及其简单应用。4、了解回归分析的基本思想、方法及其简单应用。二、知识点1、两个变量的关系不相关相关关系函数关系线性相关非线性相关相关关系:对于两个变量,当自变量取值一定时,因变量的取值带有一定_____的两个变量之间的关系。随机性2、最小二乘法:_________________最小二乘估计下的线性回归方程:ˆˆˆybxaniiniiixnxyxnyxb12_21__^ˆˆaYbX最小使残差平方和niiiabxy12)(3、样本点中心:______________回归直线与样本点中心的关系是?回归直线过样本点中心4、散点图:表示具有相关关系的两个变量的一组数据的图形。它可直观判断两变量的关系是否是线性关系。若这些散点分布在从左下角到右上角的区域,则两个变量_________;若这些散点分布在从左上角到右下角的区域,则两个变量_________;的线性相关关系。有具与个单位,这表明就单位时,个每增加的估计值,说明是回归直线的则、若回归方程为______________1______849.0,712.85849.05^^xyyxbxy斜率增加0.849正6、回归分析:对具有________的两个变量进行统计分析的方法。7、线性回归模型:其中bx+a是确定性函数,x是______e是_______,y是________eabxy注:e产生的主要原因:(1)所用确定性函数不恰当;(2)忽略了某些因素的影响;(3)观测误差。0_____)(_______,)()4(2eDeE解释变量随机误差预报变量相关关系0iiieyy2nii1yyi残差样本编号18、残差(1)残差对于样本点(xi,yi)(i=1,2,…,n)的随机误差的估计值称为相应于点(xi,yi)的残差,___________称为残差平方和.(2)残差图利用图形来分析残差特性,作图时纵坐标为____,横坐标可以选为________,也可用其他测量值,这样作出的图称为残差图.(3),R2越接近于__,表示回归效果越好.n2ii2i1n2ii1yyR1yy___________^ie总偏差平方和回归平方和总偏差平方和残差平方和19.建立回归模型的步骤(1)确定研究对象:明确哪个变量是解释变量,哪个变量是预报变量.(2)画散点图:画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)模型选择:由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a).(4)求回归方程:按一定规则估计回归方程中的参数(如最小二乘法).(5)残差分析:得出结果后分析残差图是否有异常(如个别数据对应残差过大、残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.1.有什么区别?提示:yi是样本点(xi,yi)的纵坐标,是样本点的中心()的纵坐标,由可知是yi的估计值,其中,是a和b的估计值.iiyyy,,yiiybxaiya,bx,y2.若一组观测值(x1,y1),(x2,y2),…(xn,yn)之间满足yi=bxi+a+ei(i=1,2,…,n),若ei恒为0,则R2为_________.【解析】ei恒为0,说明随机误差对yi贡献为0.答案:13.假设关于某设备的使用年限x和所支出的维修费用y(万元)有如下的统计资料:使用年限x23456维修费用y2.23.85.56.57.0若由资料知,y对x呈现线性相关关系.试求:(1)线性回归方程中的的值;(2)残差平方和;(3)相关指数R2;(4)估计使用年限为10年时,维修费用是多少?ybxaa,b解(1)由已知数据制成下表:i12345合计xi2345620yi2.23.85.56.57.025xiyi4.411.42232.542112.3xi24916253690552iiii1i1x4y5x90xy112.3,,,,112.3545b1.2390544,aybx51.2340.08,y1.23x0.08.(2)∴残差平方和为(-0.34)2+0.032+0.52+0.272+(-0.46)2=0.651.12y1.2320.082.54y1.2330.083.77,,34y1.2340.085y1.2350.086.23,,5y1.2360.087.46,123e2.22.540.34e3.83.770.03e5.550.5,,,45e6.56.230.27e7.07.460.46.,(3)(4)回归方程=1.23x+0.08,当x=10时,=1.23×10+0.08=12.38(万元),即估计使用10年时,维修费用是12.38万元.2222220.651R10.9587.2.81.20.51.52yy4.对于指数曲线y=aebx,令U=lny,c=lna,经过非线性化回归分析后,可转化的形式为()(A)U=c+bx(B)U=b+cx(C)y=c+bx(D)y=b+cx【解析】选A.∵y=aebx,∴lny=lna+bx,∴U=c+bx.10、分类变量:_________________________________变量的不同取值表示个体所属不同的类别(5)n即列出两个分类变量的频率表其中为样.列联表本容量.Anb+da+c合计c+ddca+bbaB合计AB11、1x2x1y2y12、独立性检验:量的独立性检验。变”的方法称为两个分类“两个分类变量有关系以认为来确定在多大程度上可利用随机变量2K__________________2K))()()(()(2dbcadcbabcadn1.(2011·湖南高考)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列表:男女总计爱好402060不爱好203050总计6050110由得:22nadbcKabcdac(bd)2211040302020K7.8.60506050附表:参照附表,得到的正确结论是()(A)在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”(B)在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”(C)有99%以上的把握认为“爱好该项运动与性别有关”(D)有99%以上的把握认为“爱好该项运动与性别无关”10.8286.6353.841k0.0010.0100.050P(K2≥k)2.在研究某种药物对“H1N1”病毒的治疗效果时,进行动物试验,得到以下数据,对150只动物服用药物,其中132只动物存活,18只动物死亡,对照组150只动物进行常规治疗,其中114只动物存活,36只动物死亡.(1)根据以上数据建立一个2×2列联表;(2)试问该种药物对治疗“H1N1”病毒是否有效?解:(1)2×2列联表如下:存活数死亡数总计服用该药物13218150未服该药物11436150总计24654300(2)由(1)知故在犯错误的概率不超过0.01的前提下认为该种药物对“H1N1”病毒有治疗效果.223001323611418K7.3176.635.24654150150=>3、为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:患病不患病总计吸烟43162205不吸烟13121134总计56283339试问:在犯错误不超过0.01的前提下,能否认为50岁以上的人患慢性气管炎与吸烟有关.【解题设问】(1)该问题是独立性检验问题吗?___.(2)如何处理该问题?_________________.【规范答题】根据列联表中的数据,得K2=…………………………6分因为7.469>6.635,…………………………………………9分所以在犯错误不超过0.01的前提下,我们认为50岁以上的人患慢性气管炎与吸烟有关.……………………………………12分是先求K2然后下结论233943121162137.469205134562834.在一个2×2列联表中,由计算得K2=13.079,则判断“这两个变量有关系”时,判断出错的可能性是________.参考数据:P(K2≥k)0.150.100.050.0250.010.001k2.0722.7063.8415.0246.63510.828【解析】∵K2=13.079>10.828.∴判断出错的可能性是0.001.答案:0.001
本文标题:回归分析与独立性检验复习
链接地址:https://www.777doc.com/doc-5816304 .html