您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 应用统计学(第四版)第8章-相关分析与回归分析
1第8章相关分析和回归分析相关分析与回归分析是研究现象的相互关系、测定它们联系的密切程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行经济分析、政策评价、预测和控制的重要工具。3•相关分析(掌握)•线性回归分析(掌握)•回归模型的统计检验和预测(掌握)•非线性回归模型(了解)主要内容和学习目标函数关系:变量间的确定性数量依存关系相关关系:变量间的非确定性数量依存关系变量之间的关系银行存款中,本利和(S)与本金(A)之间的关系可表示为S=A(1+r)n某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3函数关系的例子函数关系的特点当变量x取某个数值时,变量y依确定的对应关系取相应的值表现形式:y=f(x)各观测点落在一条线上相关关系的例子父亲身高(y)与子女身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系相关关系的特点当变量x取某个值时,变量y的取值可能有几个表现形式:y=f(x)+μ各观测点在一条线的周围9•8.1.1相关关系的概念和种类1.相关关系的概念•在社会经济发展变化中,客观现象总是普遍联系和相互依存的,客观现象(变量)之间的数量依存关系可分为两种类型:确定性关系和相关关系。•相关关系是指现象之间客观存在的非确定性的数量依存关系。8.1相关分析10如:商品的消费量(y)与居民收入(x)之间的关系变量间关系是不能用函数关系精确表达的,一个变量的取值不能由另一个变量唯一确定。各观测点分布在直线周围。112.相关关系的种类(1)按相关的方向可以分为正相关和负相关。(2)按相关的程度可分为完全相关、不完全相关和不相关。(3)按涉及的变量或因素的个数可以分为单相关与复相关。(4)按相关的表现形式可分为线性相关与非线性相关。相关关系的种类按变量个数按表现形式按密切程度单相关复相关线性相关非线性相关完全相关不完全相关不相关相关关系的分类线性相关:按其变化方向可分为正相关与负相关函数关系13相关关系单相关线性相关正相关负相关非线性相关复相关多元线性相关多元非线性相关相关关系的种类的关系图相关分析的主要内容与方法判断变量之间是否存在相关关系(定性分析法)分析变量间相关关系的形态特征(制作散点图)分析变量间相关关系的密切程度(计算相关系数)对总体相关关系进行显著性检验(假设检验法)相关分析的概念研究两个或两个以上的变量之间相关关系的形态和程度的一种统计方法。简单线性相关关系定性分析相关图分析相关系数分析相关分析的方法定性分析相关系数分析相关图分析计算相关系数绘制相关图进行定性分析相关系数检验简单线性相关分析的基本程序定性分析是指对事物的质的规定性的认识和分析要借助相关的社会经济理论、专业知识、实践经验和判断能力如果定性分析判断现象之间没有相关关系,就不需要进行定量的描述和测度了美国印第安纳州的地区教会想要筹款兴建新教堂,提出教堂能洁净人们的心灵,减少犯罪,降低监狱服刑人数的口号。为了增进民众参与的热诚和信心,教会的神父收集了近15年的教堂数与在监狱服刑的人数进行统计分析。结果却令教会大吃一惊。最近15年教堂数与监狱服刑人数呈显著的正相关。那么是否可以由此得出,教堂建得越多,就可能带来更多的犯罪呢?经过统计学家和教会神父深入讨论,发现监狱服刑人数的增加和教堂数的增加都与人口的增加有关。教堂数的增加并非监狱服刑人数增加的原因。至此,教会人士总算松了一口气。案例:教堂数与监狱服刑人数同步增长208.1.2相关分析的图表和意义1、相关图表•相关表和相关图可直观地表达变量之间的相关关系的程度。•相关表是将具有相关关系的原始数据,按某一顺序平行排列在一张表上,以观察它们之间的相互关系。21表8-1高校人数和周边饭店季营业额饭店学生人数(千人)x季营业额(千元)y饭店学生人数(千人)x季营业额(千元)y125861613726105720157388882016948118922149512117102620222•相关图也称为分布图或散点图,它是在平面直角坐标中把相关关系的原始数据用点描绘出来,通常以直角坐标的横轴代表自变量x,纵轴代表因变量y。相关图所反映的变量之间的相关关系的方向和程序比相关表更为清晰,也更为直观。23图8-1学生人数和季营业额相关图24258.1.3简单线性相关1.相关系数•相关系数是描述相关的两个变量之间相关关系密切程度的数量指标。早在1890年,英国著名统计学家KarlPearson便提出了一个测定两个变量线性相关的计算方法,通常称为积差相关系数或简单相关系数。262.相关分析的意义(1)相关分析可以确定变量之间相关关系的(2)相关分析可以衡量回归估计的精确程度相关系数是对变量之间相关关系密切程度的度量对两个变量之间线性相关程度的度量称为简单相关系数若相关系数是根据总体全部数据计算的,则称为总体相关系数,记为若相关系数是根据样本数据计算的,则称为样本相关系数,记为r相关系数分析28总体相关系数:XYXY式中:XY——是变量X和Y的协方差X——是变量X的标准差Y——是变量Y的标准差样本相关系数:22()()iiiixxyyrxxyy样本相关系数的计算公式22)()())((yyxxyyxxr2222yynxxnyxxynr30Excel在相关系数计算中的应用方法一:利用统计函数中的“CORREL”函数计算;方法二:利用统计函数中的“PEARSON”函数计算;方法三:利用分析工具库中的“相关系数”工具计算。取值意义线性正相关关系线性负相关关系完全线性正相关关系完全线性负相关关系没有线性相关关系线性相关程度越高线性相关程度越低1r1r10r0r01r0r1r相关系数的性质33取值范围相关程度高度相关中度相关低度相关弱度相关0.50.8r0.81r0.3r0.30.5r相关程度的划分35根据给定的显著性水平和自由度n-2,查找t分布中的相应临界值。如果,就否定原假设,认为r在统计上是显著的,即总体相关系数不为零,总体变量间存在线性相关关系。3.相关系数的显著性检验提出假设:01:0,:0HH计算t检验统计量:2t2||tt22(2)1ntrtnr36•计算学生人数和季营业额的相关系数1246081191401100.9611(2207119119)(28180114011401)1010r【例8.2】利用表8-1的数据,计算学生人数x(万人)和季营业额y(万元)的相关系数。37•检验高校学生人数与周边饭店季营业额之间的相关系数是否显著,显著性水平=0.05。•第一步:提出假设•第二步:构造并计算检验统计量01:0;:0HH221020.9610.04110.960.96ntrr38•第三步:确定临界值。根据给定的显著性水平=0.05和自由度10-2=8,查找t分布表或利用Excel计算,得到临界值。•第四步:决策。由于所以拒绝原假设,说明高校学生人数与周边饭店季营业额之间存在着显著的正线性相关关系。0.025(8)(0.05,8)2.31tTINV0.025||10.40(8)2.31tt39•8.2.1回归分析•回归分析是根据已知变量估计未知变量的一种统计方法,它是以对未知变量(因变量)同其他变量(自变量)相互关系的观察为基础,在某种精确度下,预测未知变量的数值。8.2线性回归分析40回归分析的内容和步骤:•①选择适当的回归模型。•②进行参数估计。•③进行模型的检验。•④进行预测。即根据回归方程进行适当的经济预测,这是回归分析的最终目的。411.总体回归方程与样本回归方程•例:研究家庭消费支出与家庭收入之间的关系,一个总体由50户家庭组成,并按人均月收入水平划分成组内收入水平大致相同的10个组。42024680246810收入X消费支出Y图8-4不同收入水平的家庭消费支出散点分布图总体回归线PRL随机试验所有可能结果的集合称为总体或样本空间第一节古典回归模型•由图中看出总体回归直线是线性的,用函数的形式来表示:(1)这是直线的数学表达式,在式(1)中,E(Y|Xi)表示给定X值相应的(或条件的)Y的均值,称为Y的条件期望或条件均值下标i代表第i个子总体。如,x=2时,y的条件均值为即收入水平为2000元的4个家庭的平均消费支出为1500元。11111.101.401.701.801.55555第一节古典回归模型注意:•E(Y|Xi)是Xi的函数(在此例中是线性函数)。这意味着Y依赖于Xi,一般称之为Y对X的回归。回归可简单地定义为在给定X值的条件下Y值分布的均值。换句话说,总体回归直线经过Y的条件期望值。式(1)是总体回归函数(PopulationRegressionFunction,PRF)的数学形式。在本例中,总体回归函数是线性函数。第一节古典回归模型•为参数(parameters),也称回归系数(regressioncoefficients)。•又称为截距(intercept),是当X为0时Y的均值•又称为斜率(slope),斜率度量了X每变动一单位,Y的均值的变化率。•例,如果斜率为0.5,那么,当收入x每增加1单位(千元),Y的(期望)均值将增加0.5个单位(千元);即,平均而言,消费支出将增加0.5千元。0101,1第一节古典回归模型模型的随机设定•从图中可看出单个家庭的消费支出与平均消费支出之间存在着一定的离差,即•(2)其中,表示随机误差项(stochastic,randomerrorterm)或简称为误差项。47表8-4从表8-3的总体中抽取一个随机样本XYXY10.7763.2021.1074.0031.7084.3041.6594.5052.50106.0048图8-5总体回归线与样本回归线024680246810总体回归线样本回归线第一节古典回归模型•得到一条很好地“拟合”了样本数据的直线,称之为样本回归线(sampleregressionlines,SRL)。•可能从K个不同的样本中得到K条不同的样本回归直线,所有的这些样本回归线不可能都相同。每一条直线也最多是对真实总体回归线的近似。第一节古典回归模型•用样本回归函数(sampleregressionfunction,SRF)来表示样本回归线。(3)表示总体条件均值,E(Y|Xi)的估计量;表示的估计量;表示的估计量;0ˆ^iY11ˆ0第一节古典回归模型•建立随机的样本回归函数:(4)•其中ei为残差项(residualterm),或简称为残差(residual)。01ˆˆiiiYXe第一节古典回归模型•回归分析的主要目的是根据样本回归函数来估计总体回归函数,01ˆˆiiiYXe532.相关分析与回归分析的联系与区别(1)相关分析与回归分析的联系•①相关分析和回归分析具有共同的研究对象•②相关分析和回归分析需要相互补充•③相关分析是回归分析的前提•④回归分析是相关分析的拓展54(2)相关分析与回归分析的区别•①变量的地位不同•②变量的性质不同•③研究的目的不同•④研究的方法不同•⑤所起的作用不同558.2.2一元线性回归模型1.回归模型的基本假定•回归模型是描述因变量如何依赖自变量和随机误差项的方程。一元线性回归模型只涉及一个自变量,可表述为:01yx第一节古典回归模型①随机误差项是服从正态分布的实随机变量。②
本文标题:应用统计学(第四版)第8章-相关分析与回归分析
链接地址:https://www.777doc.com/doc-5686862 .html