您好,欢迎访问三七文档
第八章相关与回归分析学习目的:1.理解现象之间存在的相关关系;2.能利用相关系数对相关关系进行测定分析;3.明确相关分析与回归分析的主要内容以及它们各自的特点;4.掌握一元线性回归的基本原理和参数的最小二乘估计;5.能够对回归方程的显著性进行检验,并利用回归方程进行估计和预测。8-1第一节相关分析一、变量间的关系函数关系是变量之间一种完全确定的关系。如,圆的面积与圆半径之间的关系即函数关系。相关关系(correlation)指变量之间的数量变化受随机因素的影响而不能惟一确定的相互依存关系,其一般数学表达式为,其中代表随机因素。如,居民受教育程度与收入的关系及相关关系。由于客观上常会出现观察或测量上的误差等原因,函数关系在实际工作中往往通过相关关系表现出来。而在研究相关关系时,为了找出变量之间数量关系的内在联系和表现形式,又常常需要借助函数关系的形式加以描述。8-22rsxfy互动地带第一节相关分析二、相关关系的种类根据相关变量之间的密切程度不同,可分为不相关、完全相关和不完全相关。根据相关变量的变化方向划分,可分为正相关和负相关根据相关变量的多少划分,可分为单相关和复相关。根据变量间依存关系的形式划分,可分为直线相关和曲线相关。三、相关关系的描述与测度散点图(scatterdiagram)用直角坐标的横轴表示变量x的值,纵轴表示变量y的值,每组数据在直角坐标系中用一个点表示,n组数据在直角坐标系中形成的n个数据点称为散布点或散点,由坐标及其散点形成的二维数据图。8-3第一节相关分析散点图与相关的类型8-4互动地带第一节相关分析相关系数(correlationcoefficient)是测度变量之间相关关系密切程度和相关方向的代表性指标。对两个变量之间线性相关程度的度量称为简单相关系数。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为;若是根据样本数据计算的,则称为样本相关系数,记为。两个变量的线性相关系数或8-5r2222yynxxnyxxynr22)(11)(11))((11yynxxnyyxxnsssryxxy例8.1第一节相关分析相关系数的取值范围在-1和+1之间,即:–1≤≤1。若0<≤1,表明和之间存在正线性相关关系;若-1≤<0,表明和之间存在负线性相关关系;若=1,表明和之间是完全正线性相关关系;若=-1,表明和之间是完全负线性相关关系。=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,比如它们之间可能存在非线性相关关系。通常认为,当n较大时:0≤︱︱<0.3为微弱相关;0.3≤︱︱<0.5为低度相关;0.5≤︱︱<0.8为显著相关;0.8≤︱︱<1为高度相关。•相关系数的显著性检验;统计量服从自由度为n-2的t分布8-6rrrrrrrrrr0:0H0:1H212rnrt互动地带例8.2根据对25家银行的调查数据计算不良贷款额与贷款余额的相关系数为0.8436。试检验不良贷款额与贷款余额之间的相关系数是否显著。解:(1)提出原假设和备择假设;(2)取显著性水平=0.05,根据自由度,查分布表得:临界值(3)计算检验的统计量(4)由于﹥,所以拒绝,表明不良贷款与贷款余额之间存在显著的正线性相关关系。0:0H0:1H232252ndft069.223,025.02,2/ttn5344.78436.012258436.01222rnrtt2,2/nt0H8-7互动地带附表6第二节一元线性回归分析自变量与因变量在回归分析中,通常把被解释(预测)变量称为因变量(dependentvariable),也叫响应变量(responsevariable),一般假设为随机变量;把用来解释(预测)的一个或多个变量称为自变量(independentvariable),也称为回归变量(regressor),它可以是随机变量,也可以是非随机变量。•回归的类型如果回归分析时只有一个自变量,则称为一元回归;含有两个或两个以上回归变量时称为多元回归。若响应变量与回归变量之间为线性关系就称为线性回归分析,否则称为非线性回归分析。•回归模型(regressionmodel)描述响应变量与回归变量和误差项之间的因果关系的数学表达式称为回归模型。8-8第二节一元线性回归分析一、一元线性回归模型理论回归模型式中A和B是未知常数,称作回归系数(coefficient);回归变量可以是随机变量,也可以是可以控制其取值的非随机的普通变量;是不可观测的随机变量,表示和的关系中不确定因素的影响,我们称之为随机误差;响应变量为随机变量。模型的三个假定1.随机误差的期望值为0,即2.对于所有的值,的方差都相同;3.随机误差是一个服从正态分布的随机变量,且各次观测的随机误差相互独立。回归方程8-9eBxAyxxyye0)(eEeeexneee,,,21BxAyE)(第二节一元线性回归分析估计的回归方程总体回归参数A和B是未知的,我们必须利用样本数据去估计它们。用样本统计量和代替回归方程中的未知参数A和B,可以得出估计的一元线性回归方程式:式中,是估计的回归直线在轴上的截距;是直线的斜率;是的估计值,也称为的回归值(regressandvalue)或拟合值(fittedvalue)。为每变动一个单位时,的平均变动值。二、参数的最小二乘估计在根据散布点去拟合回归直线时,应使得直线所代表的估计值和与其对应的实际观测值之间的差为最小,即残差(residual)最小。即:8-10abbxayˆayyyyˆyˆbbxybxayˆyyˆ最小值2)(),(bxaybaQ互动地带第二节一元线性回归分析利用数学求极值的方法,由条件且可得关于参数和的方程组(称为标准方程组或正规方程组):解得:8-110aQ0bQ2xbxaxyxbnayxbynxbnyaxxnyxxynb22例8.3根据表的数据,求不良贷款对贷款余额的回归方程。分行编号各项贷款余额(观测值)不良贷款额(观测值)不良贷款额(估计值)残差-1234567891011121314151617181920212223242567.3111.3173.080.8199.716.2107.4185.496.172.864.2132.258.6174.6263.579.314.873.524.7139.4368.295.7109.6196.2102.20.91.14.83.27.82.71.612.51.02.60.34.00.83.510.23.00.20.41.06.811.61.61.27.23.21.72083.38825.72632.23246.7381-0.21563.24046.19622.81221.92921.60334.18021.39115.78699.15572.1755-0.26871.95570.10654.453013.12332.79703.32376.60543.0433-0.8208-2.2882-0.92630.96761.06192.9156-1.64046.3038-1.81220.6708-1.3033-0.1802-0.5911-2.28691.04430.82450.4687-1.55570.89352.3470-1.5233-1.1970-2.12370.59460.1567xyyˆyyˆ8-12解:作散点图判断回归类型为直线回归。代入公式求回归系数其回归方程为:这表明:银行贷款余额越多,则不良贷款额越高;贷款余额每增加1亿元,不良贷款平均增加0.0378947亿元。0378947.07.300637.516543252.937.300614.1708025222xxnyxxynb82952.0257.30060378947.0252.93xbyaxy0378947.082952.0ˆ8-13互动地带第二节一元线性回归分析三、一元线性回归模型的检验离差平方和的分解总平方和等于回归平方和与残差平方和之和。即:SST=SSR+SSE式中,回归效果的显著性检验1、判定系数对于一元回归,越接近于1,表明回归直线与各观测点越接近,回归直线的拟合程度就越好;越接近于0,表明回归方程的拟合程度越差。8-14222)(ynyyySST2222)()ˆ()ˆˆ(xxbyyyySSR2222)()()ˆ(xxbyyyySSE22222ˆ1ˆyyyyyyyySSESSRR22rR2R2R第二节一元线性回归分析2.估计标准误差(standarderrorofestimate)估计标准误差越小,说明各观测点越靠近直线,回归直线对各观测点的代表性就越好,用于预测的可靠性越高。3、回归系数的显著性检验(t检验)检验提出的假设:检验使用的统计量:其中,若>,则拒绝H0,回归系数等于零的可能性小于,说明两个变量之间存在显著的线性关系;若<,则不拒绝H0,回归系数有可能为零,不能证明两个变量之间存在显著的线性关系。8-15222ˆ22.nSSEnxybyaynyySxyxyS.0:0BH0:1BH222.22.)(xnxSxxSSxyxyb2~0nbbbtSbSbSBbttt)2(2/nt)2(2/nt互动地带互动地带第二节一元线性回归分析4、回归方程的显著性检验(F检验)检验提出的假设:两个变量间的线性关系不显著两个变量间的线性关系显著检验所用的统计量:若>,则拒绝H0,说明两个变量之间的线性关系是显著的;若<,则不拒绝H0,不能证明两个变量之间存在显著的线性关系。例8.4根据例8.1的数据,求利润总额对销售收入回归的判定系数,并对回归系数进行检验。解:由于,均说明了不良贷款与贷款余额之间的线性关系是显著的。8-16:0H:1H2,122~)2()ˆ()ˆ(21nFnyyyyMSEMSRnSSESSRFF)2,1(nF)2,1(nFF%15.73731464.09.12465585.911812ˆ222yyyyR533513.700503015.00378947.0bSbt753844.56920192232.34859787.222)2()ˆ(1/)ˆ(22nyyyyF533513.7t0687.2)23(025.0)2(2/ttn753844.56F28.4)23,1(05.0F互动地带第二节一元线性回归分析四、一元线性回归模型预测点预测利用估计的回归模型,对于给定的变量的任一值,用回归值作为变量的预测(估计)值。区间预测1、的平均值的置信区间估计对于给定的,在给定置信水平条件下的预测区间为:2、的个别值的预测区间估计当给定置信水平时,值的预测区间为:8-17bxayˆ0x0ˆyy0yy0x)(0yE1)()()(1ˆ0220.)2(2/0yExxxxnStyxyn220.)2(2/0)()(1ˆxxxxnStyxyny10y220.)2(2/0)()(11ˆxxxxnStyxyn0220.)2(2/0)()(11ˆyxxxxnStyxyn例8.7根据例8.3的估计回归方程,求出(1)贷款余额为100亿元时,不良贷款95%的置信区间;(2)贷款余额为80.8亿元那个分行不良贷款的预测区间。解:已知:,查表得(1)当时,不良贷款的点估计值为:的置信区间为:(2)贷款余额为
本文标题:一元线性回归分析
链接地址:https://www.777doc.com/doc-3521732 .html