您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > ch9相关与回归分析
9-1第9章相关与回归分析§9.1相关与回归分析的概述§9.2一元线性相关分析§9.3一元线性回归分析9-2§9.1相关与回归分析的概述§9.1.1相关关系的概念§9.1.2相关系数的类型§9.1.3相关图§9.1.4相关关系分析的基本内容9--3§9.1.1相关关系的概念变量间的相互依存关系有两种类型:——函数关系——相关关系1.函数关系与相关关系9--4函数关系2.当变量x取某个数值时,y有确定的值与之对应,则称y是x的函数y=f(x)•通常将作为变动原因的变量x称为自变量,作为变动结果的变量y称为因变量3.所有观察点全都落在一条线上。XY1.指变量之间确定性的数量依存关系;9--5函数关系(例)圆的面积(S)与半径之间的函数关系S=R2里程(D)与速度(V)、时间(t)之间的关系D=Vt企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系y=x1x2x39--6相关关系2.一个变量的取值不能唯一地由另一个变量来确定。当变量x取某个值时,与之相关的变量y的取值可能有若干个(按某种规律在一定范围内变化)y=f(x,μ)•μ为随机变量;XY1.指变量间数量上不确定的依存关系;3.各观察点分布在直线(或曲线)周围。9--7相关关系(例)单位成本(y)与产量(x)的关系……父亲身高(y)与子女身高(x)之间的关系社会商品零售额(y)与居民可支配收入(x)之间的关系收入(y)与文化程度(x)之间的关系商品销售量(y)与广告费支出(x1)、价格(x2)之间的关系9--8变量之间的函数关系和相关关系并不是绝对的,在一定条件下二者可以相互转化。如果考虑存在对变量的测量误差,其函数关系往往会以相关关系表现出来;从而能够把影响变量变动的所有其他因素全部都控制不变,这时原来的相关关系也可能会趋近于函数关系。因此,相关关系经常可以用一定的函数关系去近似地描述。9--9其它有关概念假相关(伪相关)没有本质联系,只是表面数字的偶然的巧合;如上证股票价格综合指数与气温的关系。因果关系原因与结果之间、影响因素与被影响因素之间的关系。相关关系比因果关系包括的范围更广泛。即,因果关系属于相关关系,但相关关系不一定是因果关系。统计只能说明现象间有无数量上的关系,不能说明谁因谁果9--10§9.1.2相关关系的种类1.按涉及变量多少分为:单相关(一元相关)复相关(多元相关)2.按相关关系的表现形式分为:直线相关(线性相关)曲线相关(非线性相关)3.按相关方向分为:正相关负相关9--11广告投入和销售之间的关系9--12§9.1.3相关图(散点图)散点图将两个变量成对的观测数据在坐标图上标示出来,变量x的值为横坐标,另一个变量y对应的数值为纵坐标,一对观测值对应一个点,样本数据若有n对观测值,则相应的n个点形成的图形就称为散点图。如果一个是解释变量另一个是被解释变量,则通常将解释变量放在横轴。有助于分析者判断相关的有无、方向、形态、密切程度。9--13相关关系的图示线性正相关完全线性负相关完全线性正相关线性负相关9--14相关关系的图示(续)曲线相关不相关(零相关)9--15§9.1.4相关关系分析的基本内容相关分析——说明变量之间有无相关关系、相关的方向、关系的密切程度。绘制相关图(散点图)计算相关系数回归分析——揭示具有相关关系的变量之间具体的数量变化关系。根据样本数据建立回归方程;对样本回归方程进行检验;利用所求的回归方程进行分析、预测。9--16相关与回归分析的联系变量之间相关关系的分析:相关分析__表明变量间相关关系的性质和程度回归分析__确定变量间相关的具体数学形式•只有当变量间相关程度较高时,进行回归分析才有实际意义;•多变量相关分析中,相关系数的确定则是建立在回归分析基础上的。9--17回归分析与相关分析的区别1.变量的地位•相关分析中,变量x、y处于对等(对称)地位。•回归分析中,y为因变量,处在被解释的地位;x为自变量,用于解释和预测因变量变化。2.变量的性质•相关分析中所涉及的变量x和y都是随机变量;•回归分析中,因变量y是随机变量,通常假定自变量是非随机变量。9-18§9.2一元线性相关分析§9.2.1简单线性相关系数§9.2.2简单线性相关系数的检验§9.2.3等级相关系数9--19§9.2.1简单线性相关系数相关系数——测度变量之间关系密切程度的指标;对不同类型的相关关系,其相关系数的计算方法也不同,主要介绍:简单相关系数(简单线性相关系数)对两个变量(定量变量)之间线性相关程度的度量。也称直线相关系数,常简称相关系数。等级相关(秩相关)对两个定序变量之间线性相关程度的度量。9--20相关系数(Pearson’scorrelationcoefficient)有总体相关系数与样本相关系数之分:•总体相关系数ρ——根据总体数据计算的YXXYYXCov),((9.1)9--21样本相关系数r22)()())((yyxxyyxxSSSryxxy或化简为:2222yynxxnyxxynr——根据样本数据计算的。r—Pearson积矩相关系数9--22相关系数的特点•r的取值范围是[-1,1]•|r|=1,为完全(线性)相关;r=1,为完全线性正相关r=-1,为完全线性负相关•r=0,不存在线性相关;•r0,负相关;0r,正相关•|r|→1关系越密切(相关程度越高);|r|→0关系越不密切(相关程度越低)9--23【例9-1】计算表序号广告费X销售额YXYX2Y2130300900090090000240350140001600122500340490196001600240100455500275003025250000572600432005184360000685610518507225372100790700630008100490000895660627009025435600合计50742102908503665923603009--24【例9-1】计算结果广告费X和销售额Y的相关系数为0.939,为高度线性正相关关系。2222yynxxnyxxynr见EXCEL939.03255.2048341923304210236030085073665984210507290850822r9--25§9.2.2简单线性相关系数的检验提出假设:H0:;H1:0确定检验的统计量:当X,Y均为正态随机变量时,)(~2122ntrnrt计算检验统计量的值或P值,确定显著性水平若tt或P值,拒绝H0(即总体线性相关显著)反之,不能拒绝H0(即总体线性相关不显著)9--26【例】对上例的相关系数进行显著性检(0.05)•提出假设:H0:;H1:0•计算检验统计量的值及其P值:3.=0.05,临界值为t(n-2)=t0.025(6)=1.9434.结论:拒绝H0,广告费和销售量之间线性相关显著P值=2×P{t(6)6.685}=0.00054320.9389582=6.68510.93895t9--27§9.2.3等级相关系数主要适用于定序变量也可以用于定量变量未知其总体分布时先计算等级(排序位次)差di:iiidqs9--28【例9-2】序号广告费(万元)销售额(十万元)广告费排序销售额的排序位次差didi213030011002403502.520.50.253404902.53-0.50.2545550044005726005500685610660079070078-118956608711合计5074210363602.59--29Spearman等级相关系数计算公式:2261(1)isdrnn表9.2的计算结果:表明该公司广告费与销售量之间的等级正相关程度很高。262.510.9708(81)sr9--30等级相关系数rs的特点rs的取值范围是[-1,1]•|rs|=1,为样本等级完全(线性)相关;•rs=0,样本等级不相关(不存在线性相关);•rs0,负相关;0rs,正相关•|rs|→1等级相关关系越密切;|rs|→0等级相关关系越不密切。9--31Spearman等级相关系数是简单线性相关系数r的特例qiSiqi1Si0.9701广告费的排序位次销售额的排序位次112.522.5344556678879-32§9.3.1一元线性回归方程的估计§9.3.2一元线性回归方程的拟合效果§9.3.3一元线性回归方程的显著性检验§9.3.4利用一元线性回归方程进行预测§9.3一元线性回归分析9--33“回归”的古典含义与现代含义“回归”的古典意义——相对于一定身高的父母,子女的平均身高有朝向人类平均身高移动或回归的趋势。英国生物学家高尔顿在遗传学研究中提出现代意义的回归——一个变量(因变量)对另外一个或多个变量(自变量)依存关系的研究,用适当的数学模型去近似地表达或估计变量之间的平均变化关系,其目的是要根据已知的或固定的自变量的数值,去估计因变量的总体平均值。9--34回归分析的主要内容和程序1.确定变量间相关关系的数学表达式——建立总体回归模型;2.从一组样本数据出发,估计总体回归模型的参数;3.对这些关系式的可信程度进行各种统计检验;•多元回归分析中找出哪些变量的影响显著、哪些不显著4.利用所求的回归模型进行分析,预测或控制。•并给出这种预测或控制的精确程度9--35回归的类型1.按涉及变量多少分为:简单回归(一元回归)复回归(多元回归)2.按回归曲线的形态分为:直线回归(线性回归)曲线回归(非线性回归)主要介绍一元线性回归——直线回归9--36§9.3.1一元线性回归方程的估计当自变量X取某固定值时,Y的取值是随机的,会形成一定的分布(即在X取某固定值时Y的条件分布)。对该条件分布确定其期望或均值,称为Y的条件期望或条件均值坐标图上Y的条件期望随X而变化的轨迹所形成的直线或曲线称为回归线,该回归线的数学表达式称为回归模型)(iXYE)()(iiXfXYE9--371.总体回归方程(PRF)一元线性回归的总体回归函数有两种表现形式:(1)个别值表现形式(随机设定形式)iiiXYEXYE)()(iiiXYε—随机误差项,代表自变量以外的所有因素对Y的影响。(2)条件均值表现形式9--38总体回归方程参数iiiXYEXYE)()(模型参数:α(截距)—X以外的所有因素对Y的平均影响数量,即X=0时Y的平均值;β(斜率)——X每增加一个单位,Y平均增加β个单位。9--39一元线性回归模型的基本假定εiid~N(0,σ2)假定1:零均值:E(εi)=0或•即在给定X的条件下,误差项ε是一个期望值(条件期望值)为0的随机变量。假定2:同方差:•即在给定X的条件下,误差项ε的条件方差为某个常数σ2(对于所有x值,ε的方差相同)0)(iiXE2)(iiXD9--40一元线性回归模型的基本假定(续)假定3:无自相关:•即随机扰动项ε的逐次值互不相关假定4:随机扰动与自变量不相关:假定5:正态性即误差项ε服从正态分布。综上所述,εiid~N(0,σ2)完全满足以上基本假定的线性回归模型称为古典线性回归模型。0),(jiCov0),(iiXCov9--412.样本回归方程(SRF)实际中只能通过样本信息去估计总体回归方程的参数。一元线性回归的样本回归方程的形式:iiibxaxyˆˆˆ是与xi相对应的Y的条件均值的估计;baˆ,ˆ是样本回归方程的截距和斜率;iyˆ9--42样本回归方程与总体回
本文标题:ch9相关与回归分析
链接地址:https://www.777doc.com/doc-1283911 .html