您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 第08章相关分析与回归分析(新)
1第8章相关分析与回归分析【案例导入】宏观经济认为,影响财政收入的因素有很多。考察90年代以来我国的财政收入与人均GDP、就业人口数、第三产业产值(%)三变量的关系,分析它们的变动趋势及规律,在此基础上,可提出增加我国财政收入的政策建议。我国1991-2007年财政收入及有关指标如下年份财政收入(百元亿元)人均GDP(美元/人)第三产业产值(%)就业人口数(亿人)19913.248633.75.8419923.557534.85.9419934.461733.76.1219945.269033.66.7219956.275732.96.7919967.482432.86.8919978.789234.26.9619989.995336.26.70199911.4101637.77.06200013.4109439.07.21200116.4117640.57.30200218.9127441.57.37200321.7139341.27.44200426.4152440.47.52200531.6167340.17.58200638.8185840.07.64200751.3206940.17.70问题1.已知第三产业产值(%)、就业人口数与财政收入的相关系数分别为0.74和0.81,人均GDP与财政收入的相关程度有多大?2.人均GDP每增加一美元,财政收入将如何变化?3.根据以上分析,你认为人均GDP、就业人口数和第三产业产值(%)三变量中哪个变量是预测财政收入的最佳变量?要求依据这一最佳变量建立与财政收入的回归模型,并预测2010年的我国财政收入数额。4.以上分析结论对我国增加财政收入,提高政府宏观调控能力有何启示?本章的学习将掌握解决上述问题的方法。第一节相关分析的意义和种类一、相关关系的概念和特点1.相关关系概念一切客观事物都是互相联系和互相制约的。客观现象间的互相联系,可以通过一定的数量关系反映出来。而这种数量关系可以分为两种类型,即函数关系和相关关系。函数关系。指现象之间存在着严格依存的、确定的关系,即变量之间依一定的函数形式形成的一一对应的关系称为函数关系,这种关系可以通过精确的数学表达式来反映。例如:圆面积与圆半径之间的关系2rS。2相关关系:又称统计关系,是指两个变量之间存在某种依存关系,但变量y并不是由变量x唯一确定的,它们之间没有严格的一一对应关系。例如:居民收入水平与消费品需求量之间,居民收入水平提高,人们对消费品的需求量也相应提高,但这种提高不是严格的一一对应关系,人们对消费品需求的多少不仅受到收入水平的影响,还要受到许多其他因素的影响,如消费习惯、消费预期等。2.相关关系特点相关关系具有如下两个特点:⑴现象之间确实存在着数量上的依存关系。⑵现象之间数量上的关系不是确定的。应当注意,函数关系与相关关系虽然是两种不同类型的变量关系,但它们之间并无严格的界限,由于有测量误差等原因,确定性关系在实际中往往通过相关关系表现出来;反之,当人们对事物的内部规律了解更深刻后,相关关系又可能转化为确定性关系。(如圆周长与圆半径关系)二、相关关系的种类1.根据相关关系的方向划分,有正相关与负相关。正相关:变量之间的变化方向一致,自变量x增加,因变量y也增加。负相关:变量之间的变化方向相反,自变量x增加,因变量y则减少。2.根据自变量的多少划分,有单相关与复相关。单相关:只反映一个自变量和一个因变量的相关关系。复相关:反映两个及两个以上自变量和一个因变量的相关关系。3.根据相关的形式不同划分,有线性相关和非线性相关。线性相关:即直线相关,当相关关系的一个变量变动时,另一个变量也相应地发生大致均等的变动。非线性相关:即曲线相关,当相关关系的一个变量变动时,另一个变量也相应地发生变动,但这种变动是不均等的。4.根据相关关系的程度划分,有不相关、完全相关和不完全相关。不相关:如果两个变量彼此的数量变化互相独立,没有关系,这种关系为不相关。完全相关:如果一个变量的数量变化由另一个变量的数量变化所唯一确定,这时两个变量间的关系称为完全相关。这种情况下,相关关系实际上是函数关系,因此,函数关系是相关关系的一种特殊情况。不完全相关:如果两个变量之间的关系介于不相关和完全相关之间,称为不完全相关。大多数相关关系属于不完全相关。三、相关分析的主要目的和内容1.相关分析的主要目的相关分析的主要目的是对现象之间的相互关系的密切程度和变化规律,有一个具体的数量的观念,进一步找出相互关系的模式,以便进行统计预测和推算,为制定计划、进行决策提供统计资料。2.相关分析的主要内容⑴确定现象之间有无关系。⑵确定相关关系的表现形式。⑶测定相关关系的密切程度和方向。3相关分析的内容较多,本章仅介绍直线相关最主要、最基本的内容。第二节相关关系的判断相关关系的判断方法主要有表格法、图示法和相关系数法,下面分别介绍之。一、表格法表格法是根据两个相关变量,即自变量X与因变量Y的对应关系的数值编制而成的数据表,一般称为相关表。通过相关表可以初步看出各变量之间的相关关系,同时相关表还是绘制相关图和计算相关系数的基础。1.简单相关表简单相关表的编制方法是:先将自变量的值按照从小到大的顺序排列出来,然后将因变量的值对应列上而编排成的表格。例如:将40亩地的耕作深度与亩产量资料列表如下。序号耕作深度(cm)亩产量(kg)序号耕作深度(cm)亩产量(kg)1123002116360212320221638031230023163804123402416380514320251638061434026183607143402718360814340281836091436029183801014360301838011163203118380121632032183801316340331838014163403418400151634035184001616340362038017163403720400181636038204001916360392042020163604022420仔细观察表中数据就可以发现,随着耕作深度的加深,亩产量有提高的趋势。2.分组相关表如果原始数据很多,运用简单相关表来表示就很难使用了。为了排除偶然因素的影响和使资料表达更简明,就要将原始资料进行分组,然后编制相关表,这种相关表称为分组相关表。分组相关表包括单变量分组表和双变量分组表两种。⑴单变量分组表。单变量分组表是依据自变量进行分组,并列出每组变量值出现的资料和因变量值的统计表,如:按耕作深度分组(cm)亩数平均亩产量(kg)124320146343161535318103784204400221420合计40361从上表也可以看出,平均亩产量随耕作深度的增加有增加的趋势。⑵双变量分组表。对两种有关变量都进行分组,交叉排列,并列出两种变量各组间的共同次数,这种统计表称为双变量分组相关表。例如,根据某汽运公司的汽车运木材成本和运量的资料,编制双变量分组相关表如下:运木材成本y(元/立方米)木材运量x(万立方米)1~1111~2121~3131~4141~51合计16~2121311~165341136~1133118合计7772124上表显示,当木材运量较小时,相应运木材成本较高;当木材运量较大时,运木材成本则较低。二、图示法将现象之间的关系通过图像来表示,这种图像称为相关图。在坐标图上,以横轴表示自变量,纵轴表示因变量,标出每对变量值的坐标点(散布点),表示其分布状况的图形即为相关图。相关图称为散点图、散布图。通过相关图可以大致看出两个变量之间有无相关关系。以及相关的形态、方向和密切程度。⑴强正相关。⑵弱正相关。⑶强负相关。Oyx••••••••••••••Oyx•••••••••••••••••5⑷弱负相关。⑸非线性相关。⑹不相关。Oyx•••••••••••••••••Oyx•••••••••••••••••Oyx•••••••••••••••••6若通过对客观现象和事物的定性分析,判明了它们之间没有什么关系,就用不着进行相关分析了。然而,定性分析往往不准确,如果现象之间确实存在着依存关系时,必然会贻误我们对现象的认识和研究。因此,在搞好定性分析的基础上,对现象之间有无相关关系作用出这量判断,特别是相关的程度是否密切,是相关分析十分重要的一项工作。在统计上,一般是通过计算相关系数来测定现象的相关程度。三、相关系数法1.相关系数的意义相关系数是在直线相关条件下,说明两个现象之间相关关系密切程度的统计分析指标。通常用r表示。相关系数的数值范围是在-1到+1之间,即-1=r=1。计算结果,r0为正相关,r0为负相关。相关系数r的数值越接近于1,表示相关关系越强,越接近于0,表示相关关系越弱。如果r=1或r=-1,则表示两个现象完全直线相关。如果r=0,则表示两个现象不是直线相关。应当注意,r只是表示x与y的直线相关密切程度,当r很小甚至为零时,并不表示x与y之间就不存在其他非直线类型的相关关系。为了在判断时有个标准,一般认为:相关系数的绝对值在0.3以下是无直线相关的,0.3以上是有直线相关,0.3~0.5之间是低度直线相关,0.5~0.8之间是显著相关(中等程度相关),0.8以上是高度相关。2.相关系数的计算相关系数的定义公式为:22222)()())((/)(/)(/))((yyxxyyxxnyynxxnyyxxryxxy式中,n表示资料项数;nyyxxxy/))((2,表示x和y两个变量数列的协方差。nxxx2)(,表示x变量数列的标准差;nyyy2)(,表示y变量数列的标准差;由于它是通过将各个离差相乘的方法来说明相关程度的,所以通常把这种相关系数的公式叫Oyx•••••••••••••••••••••••••••••••••••7做“积差法”相关系数公式。可以看出:r取正值或负值决定于分子,当其为正时,r为正,反之为负。要注意理解相关系数r中协方差的作用和变量x、y标准差的作用。⑴协方差的作用a.显示x与y是正相关还是负相关。相关系数的正负号完全决定着协方差的正负号。b.显示x与y相关程度的大小。协方差的绝对值小,相关程度低,反之就高。⑵标准差的作用在相关系数定义公式中,将协方差除以变量x的标准差与变量y的标准差的乘积,它的实际作用在于对x与y各自平均数的离差,分别用各自的标准差为尺度加以标准化,然后再求标准化变量的协方差。即:nyyxxnyyxxryxyxyxxy))((2经过以上处理,其主要作用有两个方面:a.x,y协方差是名数(即有单位),不同现象的变异情况不同,相关程度不能直接以协方差大小加以比较。标准化结果使协方差化为不名数,相关系数可以比较不同现象相关程度的高低。b.x,y协方差的值可以无限增加或减少,不便于说明问题,将变量离差标准化,使相关系数的绝对值不超过1。在实际问题中,如果根据原始变量的数值计算相关系数,可运用相关系数简捷法计算公式:2222yynxxnyxxynr此式可以不用计算两个变量数列的平均值与标准差,节约工作量,而且可以减少计算平均值除不尽所带来的误差。[例7.1]某公司10家连锁店月销售额和利润率的养料如表所示,要求计算其相关系数。序号销售额(万元)x利润率(%)yx2y2xy16012.63600158.7675625010.42500108.1652038018.56400342.2514804103.01009.00305408.1160065.6132467016.34900265.69114176012.33600151.297388306.290038.441869306.690043.56198107016.84900282.241176合计500110.8294001465.006549解:将表中计算资料代入相关系数计算公式得:8987.
本文标题:第08章相关分析与回归分析(新)
链接地址:https://www.777doc.com/doc-2241318 .html