您好,欢迎访问三七文档
相关与回归分析目的:在于提供从数量上研究现象之间联系的分析方法。要求掌握:1、相关的意义,现象相关的主要形式以及相关分析的基本内容2、相关系数的设计原理,怎样利用相关系数来判断现象相关的密切程度。3、回归和相关的区别和联系,建立回归方程的根据是什么?回归方程的参数说明什么;相关与回归分析第一节相关分析第二节一元线性回归分析第一节相关分析一、相关关系的概念和种类二、相关分析一、相关关系的概念和种类一、函数关系与相关关系(一)函数关系1.定义当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。2.函数关系特点(1)是一一对应的确定关系;(2)设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量(3)各观测点(x,y)落在一条线上xy3.函数关系举例函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)圆的面积与半径之间的关系可表示为S=r2企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x31.定义:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间的这种关系称为具有不确定性的相关关系。现象之间客观存在的不严格、不确定的数量依存关系。(二)相关关系2.相关关系特点(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;当变量x取某个值的时候,变量y的取值可能有几个;(3)各观测点(x,y)分布在某条线的周围。xy相关关系的例子商品的消费量(y)与居民收入(x)之间的关系商品的消费量(y)与物价(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系3.相关关系举例二、相关关系的种类相关关系按相关程度分类按相关方向分类按相关形式分类按所研究变量多少分类(1)完全相关:当一种现象的数量变化完全由另一种现象的数量变化所确定时,称这两种现象间的关系为完全相关。(2)不相关:当两种现象互不影响,其数量变化各自独立时,称为不相关现象。(3)两种现象之间的关系介于完全相关和不相关之间,称为不完全相关。1.按相关的程度可划分为:完全相关,不完全相关和不相关(1)当两种相关现象之间的关系大致呈现为线性关系时,称之为线性相关。(2)当两种相关现象之间的关系不表现为直线关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关。2.按相关的形式可划分为:线性相关,非线性相关)1()2()3()4()为非线性相关。)、()为线性相关,()、(图中(4321(1)正相关:两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。例如收入与消费的关系。(2)负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。例如物价与消费的关系。3.按相关的方向可划分为:正相关,负相关(1)当只研究两个变量时,它们之间的相关,称为单相关。(2)当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。例如,某种商品的需求与其价格水平以及收入水平之间的相关关系便是一种复相关。4.按相关关系涉及的变量多少可划分为:单相关,复相关相关关系的图示不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关(1)确定现象之间有无相关关系,以及相关关系的表现形态。(2)确定相关关系的密切程度。(3)确定相关关系的数学表达式,即回归方程(4)确定估计值的误差。),,2,1,(nixxi或设为之间相关密切程度与相关方向的一种统计分析方法。是研究一个变量(设为y)与其它变量相关分析:二、相关分析主要内容包括定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。相关关系的判断(一)相关表相关表是一种反映变量之间相关关系的统计表。将自变量x的数值按照从小到大的顺序排列,然后再将与其相关的因变量y的对应数值平行排列,便可形成简单的相关表。例:为了研究分析某种产品完成量与其单位产品成本之间的关系,调查30个同类公司得到的原始数据如表。完成量(小时)203020204030408080504030208050单位成本(元/小时)181616151615151414151516181414完成量(小时)205020305020504020804020508030单位成本(元/小时)161618161518151416141516141515整理后有完成量(小时)202020202020202020303030303040单位成本(元/小时)151616161618181818151515161614完成量(小时)404040405050505050508080808080单位成本(元/小时)151515161414151515161414141415(二)相关图相关图也称散点图,是在平面直角坐标系中,以横轴表示变量x,纵轴表示变量y,将两者对应的数值形成的坐标点(x,y)在图中标出,即可看出变量之间关系密切程度。如下图(销售收入与广告费相关图)广告费(万元)3033334056586572808090年销售收入(百万元)1212121314142022262630010203040020406080100广告费(万元)销售收入(百万元)销售收入与广告费相关图(三)相关系数及其计算1.相关系数早在1890年,英国统计学家皮尔生(Pearson)便提出了一个测定两个变量线性关系的计算公式,通常称为积距相关系数。计算公式:式中:分子是两个变量x和y的协方差;分母是两个变量的标准差。yxxyr22.相关关系的测度(相关系数)样本相关系数的计算公式22)()())((yyxxyyxxr或化简为2222yynxxnyxxynr表1我国人均国民收入与人均消费金额数据单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。收集到1981~1993年的样本数据(xi,yi),i=1,2,…,13,计算相关系数。解:根据样本相关系数的计算公式有人均国民收入与人均消费金额之间的相关系数为0.9987222222139156173.9912827.574571316073323.7712827.513522639974570.9987nxyxyrnxxnyy3.相关系数取值及其意义(1)r的取值范围是[-1,1](2)|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关(3)r=0,不存在线性相关关系(4)-1r0,为负相关;0r1,为正相关(5)|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切4.相关程度评价标准0|r|≤0.3为微弱相关0.3|r|≤0.5为低度相关0.5|r|≤0.8为显著相关0.8|r|≤1为高度相关某企业10名工人的工龄和年工资资料如下:职工编号12345678910工龄X(年)44567889910工资Y(百元)42465060646874728084要求:计算相关系数,已知条件如下2247545324281670640xyxyxy第二节一元线性回归分析一、一元线性回归的基本问题(一)回归的来源“回归”这个统计学术语,最早采用者是英国遗传学家高尔登,他把这种统计分析方法应用于研究生物学的遗传问题,指出生物后代有回复或回归到其上代原有特性的倾向。高尔登的学生皮尔逊继续研究,把回归与数学方法联系起来,把代表现象之间一般数量关系的直线或曲线称为回归直线或回归曲线。(二)什么是回归分析1.从一组样本数据出发,确定变量之间的数学关系式;2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。(1)在相关分析中,不必确定自变量和因变量;而在回归分析中,必须事先确定哪个为自变量,哪个为因变量,而且只能从自变量去推测因变量,而不能从因变量去推断自变量。(2)相关分析不能指出变量间相互关系的具体形式;而回归分析能确切的指出变量之间相互关系的具体形式。相关分析与回归分析的关系1.区别它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。简单说:1、相关分析是回归分析的基础和前提;2、回归分析是相关分析的深入和继续。2.联系(三)回归模型的类型一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归1.一元线性回归模型(1)当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归。(2)对于具有线性相关关系的两个变量,可以用一个线性方程来近似表示它们之间的关系。(3)描述因变量y如何依赖于自变量x的方程称为回归模型。二、一元线性回归模型(一)回归方程1.描述y的平均值或期望值如何依赖于x的方程称为回归方程。2.简单线性回归方程的形式:方程的图示是一条直线;a是回归直线在y轴上的截距,是当x=0时y的期望值;b是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值。bxYˆ一元线性回归方程的几何意义)(YEXbXYˆ截距斜率一元线性回归方程的可能形态b为正b为负b为0最小ninibxayyybaQ1212)ˆ(),(1.使因变量的观察值与估计值之间的离差平方和达到最小来求得a和b的方法。即2.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。(二)参数a和b的最小二乘估计对应X某一数值的Y有多个实际值,通过X和Y的各对数值也就有可能有多条直线,其中,最具代表性的应该是实际值同这条直线平均离差最小的直线。最小二乘法(和的计算公式)解方程组可得求解a和b的标准方程如下:baxbynxbnyaxxnyxxynb22)(例:某种食品的需求量与人口增长量之间关系,数据:编号人口增长量(千人)x年需求量(十吨)y127416221801203375223420513158667626516979881833019291951161053551143025212372234132361441415710315370212合计36262261
本文标题:相关与回归分析
链接地址:https://www.777doc.com/doc-2075945 .html