您好,欢迎访问三七文档
第二节回归分析河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理相关系数只能说明现象间相关关系的方向和程度,关系密切与否,但不能说明一个现象发生一定量的变化,另一个现象一般也会发生多大的变化。回归分析是研究变量与变量之间相关关系的一种统计推断方法。它是在试验观测数据的基础上,寻找被随机性掩盖了的变量之间的相互依存的关系,以一种确定的函数关系去近似替代比较复杂的相关关系。SirFrancisGalton(1822-1911)高尔顿(FrancisGalton)1822-1911河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理弗兰西斯·高尔顿于1822年生于英格兰,与达尔文是表兄弟关系,他从小智力超常、聪颖过人,被誉为神童,是著名的优生学家、心理学家,差异心理学之父,也是心理测量学上生理计量法的创始人,享年89岁。高尔顿一生在统计学方面贡献很多,首次引入了“Regression回归”一词,第一次使用了相关系数(correlationcoefficient)的概念,并采用字母“r”来表示。高尔顿设计的用来研究随机现象的高尔顿钉板模型,更是被广泛用来描述正态分布的经典例子。高尔顿(Galton)钉板试验试验模型如下所示:自上端放入一小球,任其自由下落,在下落过程中当小球碰到钉子时,从左边落下与从右边落下的机会相等.碰到下一排钉子时又是如此,最后落入底板中的某一格子.因此,任意放入一球,则此球落入哪一个格子,预先难以确定.但是如果放入大量小球,则其最后所呈现的曲线,几乎总是一样的.“Regression(回归)”一词是由英国著名人类学家、气象学家和统计学家高尔顿于1885年在其《身高遗传中的平庸回归》一文中首次引入的,他在研究身高与遗传之间的联系时,观察了1078对夫妇的二人的平均身高X以及其一个成年后代的身高Y,从中发现在直角坐标系下,二者之间的关系近乎是一条直线,并且得到如下数学关系:33.730.516YX河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理一、回归分析的涵义1、高尔顿试验结果解释父辈平均身高每增加或减少一个单位,其成年后代的身高平均增加或减少0.516个单位。高尔顿的结论是:从人类遗传上来说,父母个子高这一基因会遗传给他们的后代,导致产生高个子的下一代,但子代的身高并不会象其父辈,出现越来越高的现象,而是趋向于比他们父辈身高更加平均的水平。高尔顿将人类这种遗传现象称为“回归”。人类也正是由于这种回归,才能生生不息的繁衍下去。河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理2、何谓回归分析回归分析-----是对具有相关关系(显著相关以上相关)的两个或两个以上的变量之间所具有的变化规律进行拟合,确立一个相应的数学表达式(经验公式),通过一个或多个变量的变化去解释另一变量变化的方法,以便从定量的角度由已知量推测未知量,为估算预测或控制提供重要依据。简单的说,回归分析就是一种处理具有相关关系的变量与变量之间关系的数学方法与工具。河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理3、回归分析的内容和步骤回归分析需要研究和解决的问题主要有以下几方面:(1)根据理论和对实际问题的分析判断,区分自变量(即解释变量或预报变量)和因变量(即被解释变量或响应变量)。(2)从一组试验数据出发,判断二者之间是否存在相关关系,如果存在的话,设法找出其合适的数学表达式(即回归模型)用来描述变量之间的内在联系。(3)对建立的回归模型可信程度进行统计检验和推断,并从影响因变量的诸多自变量中找出影响显著或不显著的变量。(4)依据回归模型,通过自变量的取值来预测或控制因变量的取值,并给出这种预测或控制的精确程度。一个预报变量两个及两个以上预报变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理4、回归模型的分类按变量的个数按回归曲线的形态河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理5、回归数学模型(1)一般回归模型122(,,,),:..,1,2,,()0,()kiiYfXXXRVXikEDX其中式中:①ε是不可观察的随机误差,其分布是与控制变量X1,X2,…,Xk无关的随机变量。②f(X1,X2,…,Xk)称为回归函数,它是一个未知的多元函数。③Xi称为控制变量(解释变量、预报变量),Y称为响应变量。1212()(,,,)()(,,,)kkEYfXXXEfXXX④为n元线性回归模型。0110112()()0,()()nnnnYXXEYXXED未知如果响应变量Y和控制变量X1,X2,…,Xk呈现线性相关关系的情形,即1201122(,,,)nnnfXXXXXX注:当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型。河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理(2)线性回归模型则称回归模型6、回归数学模型相关分析回归分析区别变量之间地位对等,无主从之分。有因变量(处在被解释的地位)和自变量(控制变量,用于预测因变量的变化)之分。涉及到的变量都是随机变量。因变量是随机变量,自变量可以是随机变量,也可以是非随机的确定变量。主要描述变量之间相关关系的密切程度与方向。不仅可以揭示自变量对因变量的影响大小,还可利用回归模型进行预测和控制。联系回归分析和相关分析的理论和方法具有一致性,相关系数和回归系数的方向一致,可以互相推算。回归分析和相关分析是互为补充、密切联系的两个不同概念,回归分析是建立在相关分析基础上的。相关系数的大小决定是否需要进行回归分析。同时相关系数还是检验回归模型效果好坏的标准。无相关就无回归,相关程度越高,回归效果越好,所得到的统计推断、预测,控制等精确度就越高。注回归分析并不是建立变量之间的一个必然因果关系的过程,建立的回归方程只表明:变量是如何或者是以怎样的程度彼此相互联系在一起的。河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理二、一元线性回归分析1、一元线性回归数学模型2()()0,()YabXEYabXED其中:X是可控(或可观察)的非随机变量,常称为自变量,或预报变量。a,b,2都是未知参数,且都不依赖于X。ε是是随机因素,是不可观察的随机变量,是许多不可控制或不了解的随机因素的总和,且满足2()0,()ED任务:估计线性回归方程中的未知参数因为具有显著相关关系y不仅受x影响,还受其它因素影响,因此,x、y形成的点不一定全在直线上,而是分在直线上下波动,呈现线性相关的趋势,所以需要在这些分散的相关点之间配合一条最合适的直线,用来模拟两变量之间具体的变动关系河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理2、未知参数的估计建立线性回归方程的关键是估计未知参数,具体步骤如下:(1)采集样本数据(x1,x2,…,xn)通常借助于n次独立试验或观察,获得试验数据,并利用其相应的观测值去估计1122(,),(,),,(,)nnxyxyxy2(),1,2,,()0,()iiiiiiiiyabxEyabxinED其中:是相互独立,(2)几何图示xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}εi=yi-yi^yabx河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理①使因变量的观察值与估计值之间的离差平方和达到最小,即21(,)[()]niiiQabyabx2211ˆ()nniiiiyyMin(,)0(,)0QabaQabb河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理(3)借助于最小二乘原理进行统计估计②利用多元函数极值优化211nniiiiinanxbnynaxbxxy正规方程组1111,nniiiixxyynn其中:③根据最小二乘原理,解正规方程组,可求得估计值:yabx由此可得二个变量的一元线性回归方程:回归系数河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理回归系数意义:当自变量增加或减少一个单位,因变量将增加或减少个单位。b用最小二乘法拟合出的这个线性方程(直线)来代表X与Y之间的关系与实际数据的误差比其他任何直线都小。引入记号:xyxxLL2222111(),(),nnnxxiyyixyiiiiiLxnxLynyLxynxy则回归系数可简化为:1221()niiiniixynxybxnx河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理编号123456789脂肪含量%15.417.518.920.021.022.815.817.819.1蛋白质含量%44.039.241.838.937.438.144.640.739.8试求出y与x的关系。例2.1为了研究大豆脂肪含量x和蛋白质含量y的关系,测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量,得到如下数据x解:(1)散点图、相关性(2)建立回归模型、回归计算(3)回归效果检验河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理168.3364.518.7;40.599xy16775.02918.740.541.13nxyiiiLxynxy2221()3192.75918.745.54inxxiLxnx2221()14813.2940.550.95inyyiLyny0.9032xyxxLbL57.3891aybx故所求的回归方程为:0.903257.3891yx河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理(4)线性回归模型的评价原因:由样本得到的Y关于X的线性回归方程()YabXYbXX是一条经过点,且斜率为的直线。(,)XYb由于任何杂乱无序,且无任何相关关系的散点都可以借助于直线或曲线去年拟合,但这种拟合是否有意义呢?因此,需要对回归的实际效果进行检验。河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理回归效果的好坏取决于回归方程的显著性检验。①相关系数法(5)显著性检验的方法相关系数r越接近于1,表明变量y与x线性相关程度越高,但r究竟多大时,就能说明变量y与x之间存在线性相关性,从而用线性函数去拟合才算是合理的,因此,必须对相关程度进行显著性检验。注:利用相关系数检验回归的效果通常与所给的样本容量密切相关,往往只有当样本容量较大时,才能得出真正具有实际意义的回归方程。河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理1222211()()niiinniiiixynxyrxnxyny河南工业大学shiyanshujuchulishiyongfangfa试验设计与数据处理例如:例题2.1回归方程的有效性0.8539xyxxyyLRLL0.010.7977R2927dofn查相关系数临界值表因为0.01RR所以回归方程在的检验水平下有统计意义。0.
本文标题:回归分析
链接地址:https://www.777doc.com/doc-1756468 .html