您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 统计学课件-第七章-相关分析
第七章相关分析§1相关分析的意义和任务§2简单线性相关§3回归分析§4估计标准误差§1相关分析的意义与任务一、函数关系与相关关系例如:半径与圆面积的关系工资水平与社会商品零售额的关系良种比重与收获量的关系沸点(100度)(a+b)2=a2+2ab+b2砖头的抗压强度与抗折强度函数关系函数关系函数关系相关关系(因果)相关关系(因果)相关关系现象之间的关系一般可以区分为两种不同的类型:函数关系:当一个或几个变量取一定值时,另一个变量有确定值与之相对应,这种关系称为确定性的函数关系。[在函数关系中,一般把作为影响因素的变量称为自变量(x);把发生对应变化(结果)的变量称为因变量(y)。]相关关系:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。函数关系与相关关系是两种不同类型的关系,但两者之间并不存在严格的界限。由于在观察或实验中出现的误差,函数关系也就通过相关关系反映出来;而当对现象之间的内在联系和规律性了解得更加清楚的时候,相关关系就可能转化为函数关系。在相关关系中,通常存在一定的因果关系。但也应该知道,在相关关系中,有时两个变量之间只存在相互联系而并不存在明显的因果关系。二、相关关系的种类按相关的程度划分为:完全相关(函数关系)、不完全相关和不相关;按相关的方向划分为:正相关和负相关;按相关的形式划分为:线性相关(直线关系)和非线性相关;按所研究的变量多少可分为:单相关、复相关和偏相关。按相关程度划分为:•完全相关:当一个现象的数量变化完全由另一个现象的数量变化所决定时,这两种现象间的关系就为完全相关(函数关系)。如:半径与圆面积之间的关系。•不相关:当两个现象彼此互不影响,其数量变化各自独立时,这两种现象间的关系就为不相关。如:股票价格与人的平均寿命之间的关系。•不完全相关:当现象之间的关系介于完全相关和不相关之间时,这两种现象间的关系就为不完全相关。如:居民的收入水平与恩格尔系数之间的关系。按相关的方向划分为:•正相关:当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关。如:职工的工资水平应随劳动生产率的提高而增加。•负相关:当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关。如:随着销售额的增加,流通费用率下降按相关的形式划分为:•线性相关:当两种相关现象之间的关系大致呈现为线性关系时,称之为线性相关(直线相关)。如:人们的消费水平与收入水平之间的关系。•非线性相关:当两种相关现象之间近似于某种曲线方程的关系时,则这种相关关系称为非线性关系。如:产品的平均成本与产品产量之间的关系。按所研究的变量多少划分为:•单相关:两个现象的相关,即一个变量对另一个变量的相关关系。如:投资额与国内生产总值之间的关系。•复相关:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。如:某种商品的销售额与其价格水平和人们收入水平之间的相关关系。•偏相关:在某一现象与多种现象相关的场合,假定其它变量不变时,其中两个变量的相关关系称为偏相关。如:在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。三、相关分析与回归分析:这是两种研究现象相关关系的基本方法。(一)、相关分析所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。(二)、回归分析所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。回归(Regression):回归一词,最初是英国生物学家F.Golton在研究遗传学的论文中所采用的词汇(1877年)。他在研究中发现,具有较高身躯的双亲,或具有较矮身躯的双亲,其子女的身高均表现出退回(即回归)到人的平均身高的趋势。他在这一研究中所建立的数学公式被称为回归方程式,其涵义应是关系方程式或估计方程式,但基于历史的原因,通常仍沿用回归方程式这一提法。(三)、相关分析与回归分析的联系相关分析与回归分析不仅具有共同的研究对象,而且在具体应用时,常常必须相互补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式。回归分析需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。因此,相关分析与回归分析被合称为广义的相关分析。(四)、相关分析与回归分析的区别:研究目的不同:相关分析是研究变量之间相关的方向、相关程度和相关形式。回归分析是研究变量之间相互关系的具体形式,即:当一个变量发生数量上的变化时,另一个变量平均会发生什么样的变化。研究方法不同:相关分析是通过计算相关系数或相关指数来判断变量之间的相关关系。回归分析是通过数学模型来确定变量之间的具体的数量关系。变量的性质不同:在相关分析中,不用确定谁是自变量,谁是因变量,且所有变量都是随机变量。在回归分析中,必须事先确定在具有相关关系的变量中,谁是自变量和谁是因变量。一般来说,自变量是给定的非随机变量(一般变量),因变量是随机变量。四、相关表和相关图(一)、居民消费和收入的相关表消费支出15203040425360657078可支配收入18254560627588929998单位:百元0102030405060708090020406080100120可支配收入消费支出(二)、消费与收入的相关图§2简单线性相关分析相关系数:用于判断线性相关关系。用积差法进行计算。相关指数:用于判断所有相关关系,包括线性和非线性的相关关系。但要用回归系数b判别其相关方向。一、相关系数(r):相关系数是在直线相关的条件下,说明两个现象之间相关关系密切程度的统计指标。相关系数的取值范围,是在-1和+1之间。计算结果r0为正相关,r0为负相关。相关系数的数值越接近于1(+1或-1),表示相关关系越强。越接近于0,相关关系越弱。如果r=0,则表明两个现象之间完全没有直线相关关系。(但并不表明两个现象之间没有非线性相关)相关系数的绝对值r在0.3以下是无直线相关,在0.3—0.5是低度直线相关,在0.5—0.8是显著相关,0.8以上是高度相关。计算相关系数的方法(积差法):00)(,000)(,000)(,000)(,0)()()(在第四象限中:)()()(在第三象限中:)()()(在第二象限中:)()()(在第一象限中:)()(积差法的计算公式是:yyxxyyxxyyxxyyxxyyxxyyxxyyxxyyxxyyxx············(xy)ⅠⅡⅢⅣ根据计算结果可以知道:在第一、三象限中,∑(x-x)(y-y)0,为正值;在第二、四象限中,∑(x-x)(y-y)0,为负值;但∑(x-x)(y-y)的大小受变量值个数多少的影响,同样的两个现象会因为变量值个数的多少而出现计算结果的不一致。因此,需要消除计算结果受变量值个数多少的影响。方法就是:将计算结果除以变量值的个数n。两个变量的协方差)与(表示yxyyxxnxy12协方差的作用:显示x与y是正相关,还是负相关。相关系数的正负完全取决于协方差的正负。显示x与y相关程度的大小。协方差的绝对值小,表示相关程度低;协方差的绝对值大,表示相关程度高。但x与y的协方差是名数,不同现象的变异情况不同,相关程度不能直接以协方差大小加以比较。需要以x与y的标准差加以标准化,使协方差化为无名数,使相关系数可以比较不同现象相关程度的高低。而且以x与y的标准差加以标准化以后,使相关系数的绝对值不超过1。222222212112yynxxnyxxynryyxxyyxxyyxxyyxxrnnnyxxy计算式:举例说明相关系数的计算:编号xyxyx2y21541926420381274832659127692287962689725910227101022811106311212331131293414138381515836合计15164234463216365412311例:观察收入水平提高对用于食品支出的影响。设:收入水平为x,食品支出为y。根据资料做散点图:051015202530354045020406080100120140160180收入水平食品支出9414.0423123111515161636541542315164463215222222yynxxnyxxynr从计算结果可以知道,收入水平与用于食品的支出成高度的正相关。§3一元线性回归分析在相关分析中,已知两个变量之间有直线相关关系。就需要确定一个数学表达式反映因变量与自变量之间的关系。有了这种数学表达式就便于进行解析,当有了自变量的一定数值,就可以估计因变量的数值平均来说将会有怎样的变动。这样的数学表达式称为回归方程式。由于变量之间关系的复杂性,回归方程式也有多种类型和形式。一元线性回归方程式是指一个自变量且相关形式为直线。举例说明其研究方法:编号xyxyx2yc1541919.722642021.523812724.584832624.945912726.386922826.567962627.288972527.4691022728.36101022828.36111063129.08121233132.14131293433.22141383834.84151583638.44合计151642344632163654422.88设:x(自变量)为人均月收入水平,y(因变量)为人均月食品支出额。从前面的相关分析中,已经看出两个变量之间是线性趋势,因此,可以通过一个线性方程式来表达这种关系:a、b是回归方程的待定参数,其中b称为回归系数。bxayˆ对研究线性关系来说,回归方程式应当满足这样的要求:根据方程所确定的估计值应能代表所有观察值y的全体,而按照求出的估计直线与各观察点之间应达到最大限度的接近,也就是说,用这条直线来代表y与x的关系,它和实际数据的误差比任何其他直线都小,这样一来,根据回归方程所求的直线就是反映y与x之间的关系的较为合理的一条直线。yˆyˆ利用最小二乘法估计待定系数a和b:a:是截距,表示当x等于0时,y=a;b:是斜率,表示x每增加一个单位时,y所平均增加的数值。也是回归系数,它与相关系数r的取值方向一致:b为正值时,r为正,表示正相关;b为负值时,r为负,表示负相关。xbyaxxnyxxynbbabxayyy2222min)(min)ˆ()(得到两个标准方程组:零。求偏导数,并令其等于和分别对一元线性回归方程的具体求法:xyxbyaxxnyxxynbbabxay18.099.9ˆ99.915151618.01542318.015161636541542315164463215ˆ222回归方程式:第三步:建立一元线性(元)(元))(:和法,求解系数第二步:利用最小二乘回归方程式:第一步:建立一元线性a=9.99元,表示当没有任何收入时,人均用于食品的支出需要9.99元。b=0.18元,表示每增加一元的收入,人均用于食品的支出平均会增加0.18元。b为正值,表示收入水平与食品支出的关系为正相关。将人均收入水平(x)代入回归方程式,计算得到估计值,将其结果填入统计表。我们可以看到因变量(y)的观察值和估计值并不一致,存在差异。这个差异的大小就是衡量直线方程式对所有观察点的代表性的标准。§4估计标准误差与相关指数回归方程反映了因变量与自变量之间的变动关系。但它本身并不能反映拟合程度的好坏,在建立方程之后,需要进一步分析估计直线的代
本文标题:统计学课件-第七章-相关分析
链接地址:https://www.777doc.com/doc-5476367 .html