您好,欢迎访问三七文档
●3.1回归分析的基本思想及其初步应用问题1:现实生活中两个变量间的关系有哪些呢?两个变量的关系不相关相关关系函数关系线性相关非线性相关函数关系是一种确定性关系相关关系是一种非确定性关系回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.正相关负相关问题2:研究线性相关的两个变量的基本步骤是什么?问题3:求线性回归直线的基本方法是什么?画散点图求回归直线方程用回归直线方程进行预报---------------最小二乘法利用最小二乘法求回归直线的方程对于一组具有线性相关关系的数据1122,,,,,,nnxyxyxy,设回归直线为axby,则1122211()()ˆ()nniiiiiinniiiixxyyxynxybxxxnxˆˆaybx其中1111,nniiiixxyynn,回归直线必经过样本中心,xy编号12345678身高/cm165165157170175165155170体重/kg4857505464614359例1:从某大学中随机选取8名女大学生,其身高和体重数据如下表求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重.解:由于问题中要求根据身高预报体重,因此选取身高为自变量,体重为因变量。xy40455055606570150155160165170175180体重/kg身高/cm可以用线性回归方程来近似刻画它们之间的关系根据公式可得回归方程为所以,对于身高172cm的女大学生,由回归方程可以得到其预报体重为ˆˆ0.84985.712ba=,=,ˆ0.84985.712yx=,ˆ0.84917285.71260.316(kg).y==身高172cm的女大学生体重一定是60.316kg吗?40455055606570150155160165170175180体重/kg身高/cmybxae线性回归模型完整表达式.,0,2eDeEeabxy预报值与真实值之间的误差,与a,b之间的误差aˆbˆ随机误差e产生着随机误差的原因是什么呢??思考:应该怎样研究随机误差呢?在实际应用中,我们用回归方程ˆˆˆybxabxaeybxaˆˆeyy1122nnxyxyxy,,,,,,ˆˆˆˆ12iiiiieyyybxain,,,,12iiieybxain,,,,称为相应于点(xi,yi)的残差ˆie女大学生身高与体重的原始数据以及相应的残差数据编号12345678身高/cm165165157170175165155170体重/kg4857505464614359残差712.85849.0ˆxy373.6712.85165849.048ˆˆˆˆ11111axbyyye-6.3732.6272.419-4.6181.1376.627-2.8830.382-8-6-4-202468012345678残差编号越大残差平方和越小2R我们还可以用来刻画回归的效果,在含有一个解释变量的线性模型中恰好等于相关系数的平方.2R2Rr时,表示回归的效果越好1模型拟合效果越好22121ˆ1niiiniiyyRyy常数残差平方2R用身高预报体重时,需要注意以下问题:1.回归方程只适用于我们所研究的样本的总体.2.我们所建立的回归方程一般都有时间性.3.样本取值的范围会影响回归方程的适用范围.4.不能期望回归方程得到的预报值就是预报变量的精确值.一般地,建立回归方程的基本步骤为:1.确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.2.画出解释变量和预报变量的散点图,观察它们之间的关系.3.由经验确定回归方程的类型.4.按一定规则估计回归方程中的参数.5.得出结果后分析残差图是否有异常,若存在异常,则检查数据是否有误,或模型是否合适等.例2:一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于下表中,试建立y关于x的回归方程温度/℃21232527293235产卵数/个71121246611532505010015020025030035020253035产卵数/个温度/。C解:根据收集的数据做散点图yzln其中为待定系数21ecxyc10.2723.849ˆ0.2723.849ˆexzxy12ln,zbxaacbc12,ccx21232527293235z1.9462.3983.0453.1784.1904.7455.784红铃虫的产卵数和对应的温度的平方543.202367.0ˆ)2(ty543.202367.0ˆ2)2(xy05010015020025030035040060080010001200tyt44152962572984110241225y7112124661153257,,2,1,ˆˆ849.3272.0)1()1(ieyyyeixiiii222ˆˆ0.367202.543,1,2,,7iiiiieyyyxix21232527293235y7112124661153250.557-0.1011.875-8.9509.230-13.38134.67547.69619.400-5.832-41.000-40.104-58.26577.968210.98R220.80R对于给定的样本点),(,),,(),,2211nnyxyxyx(含有两个未知参数的模型),(bxgy220)(,)(DE其中a和b(a,b可以是向量)都是未知数,可以按照如下的步骤来比较它们的拟合效果.eaxfy),(21)(,0)eDeE((1)分别建立对应于两个模型的回归方程bxgyaxfyˆ,ˆ,ˆ,ˆ21eaxfy),(21)(,0)eDeE(),(bxgy220)(,)(DE(2)分别计算这两个模型的和(3)若,则第一个模型的拟合效果比第二个的好;反之,第二个好.21R22R21R22R小结:本节课我们共同学习了回归分析的相关内容,对于回归分析估计的可信度,用残差来评价拟合的效果是否可靠,残差越小拟合效果越好;在实际应用中,对于不同模型的选择,我们常选用,越大,拟合效果越好.2R2RB1.下列四个命题正确的是()①线性相关系数r越大,两个变量的线性相关性越强;反之,线性相关性越小;②残差平方和越小的模型,拟合的效果越好;③用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好.④随机误差e是衡量预报精确度的一个量,它满足E(e)=0.A.①③B.②④C.①④D.②③ADCBC2.在用线性回归方程研究四组数据的拟合效果中,分别作出下列四个关于四组数据的残差图,则用线性回归模式拟合效果最佳的是()
本文标题:31回归分析的基本思想及其初步应用-海南省华东师范大学第二附属中学乐东黄流中学人教版高中数学选修2-
链接地址:https://www.777doc.com/doc-7539675 .html