您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 统计学相关与回归分析-59页PPT文档
相关回归第九章相关与回归分析南京财经大学统计学系相关分析与回归分析是现代统计学中非常重要的内容,在自然、管理科学和社会经济领域有着十分广泛的应用。在分析变量之间关系的时,常用的基本模型:(1)相关模型;(2)回归模型实践中到底使用哪种模型取决于研究者的研究目的和数据的收集方式和条件。相关分析:变量X和Y都被视为随机变量,服从二元分布;经典的回归分析:通常变量x不是随机变量,在事先选好的值中取值,变量Y是随机变量,在变量x的给定值处有相应的观测值。例1:太阳镜的日销售数量Y与日最高气温X之间的关系例2:人均消费与人均GDP的关系相关分析与回归分析相关分析用一个指标来表明现象间相互依存关系的密切程度。回归分析根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间关系。相关分析所研究的变量是对等关系;回归分析所研究的两个变量不是对等关系。因果年份人均国内生产总值人均消费金额yearxy199548542236199655762641199760542834199863082972199965513138200070863397200176513609200282143818200391014089180023002800330038004300430053006300730083009300人均GDP人均消费本章内容一、相关关系的概念和分类二、线性相关关系的识别三、一元线性回归分析四、多元线性回归分析五、非线性回归分析相关分析NewNew一、相关关系的概念和分类一、函数关系和相关关系二、相关关系的分类相关程度、相关方向、相关形式、变量多少、相关性质二、线性相关关系的识别(一)散点图(例子)最简单、最直观的识别方法,但难以给出相关的程度.(二)直线相关系数直线相关系数的设计思想总体相关系数与Pearson相关系数相关系数的检验三、一元线性回归分析xy10变量y对x的一元线性回归总体模型xxYE10)|(一元线性回归方程xy10ˆˆˆ一元线性经验回归方程估计方法:普通最小二乘估计、标准误差—的估计模型评价:可决系数、显著性检验12预测方法:点预测,区间预测将代入回归方程得=181.5830+0.4414×10000=4595.5628(元)一元线性回归模型的概念New四、多元线性回归分析基本概念:回归系数、被解释变量(因变量)、解释变量(自变量)、多元回归、随机误差项。多元线性回归模型的样本形式:nnppnnnppppxxxyxxxyxxxy........................2211022222211021112211101写成矩阵形式为:XYεnpnnppxxxxxxxxxX......1......................................1......1212222111211;nyyyY......21;p......10;n......21基本假设解释变量是确定性变量,不是随机变量,且要求矩阵X中的自变量列之间不相关,样本容量的个数应大于解释变量的个数。独立、同分布、零均值正态分布的假定条件:niNi,,2,1,),0(~2参数估计•与一元线性回归方程的参数估计原理一样,应该使得估计值与观测值y之间的残差在所有样本点上达到最小,即使Q达到最小•参数的最小二乘估计值为:•另外,YXXX')'(ˆ1β)ˆ()ˆ()(1221^XYXYeyyQTTniiniiiee1)(ˆ2^)(1pnyySiixxyp模型评价-拟合优度•一般不再用可决系数•而是用修正的可决系数222ˆyyyySSTSSRrii11)1(122pnnrra模型评价-显著性检验1•整个回归方程的检验(1)提出假设0:210pH,pH,:11不全为0.(2)根据表10.4构建F统计量,见表10.4(3)给定显著性水平α,查F分布表,得临界值)1,(pnpF。(4)若)1,(pnpFF,则拒绝0H,说明总体回归系数i不全为零,即回归方程是显著的;反之,则认为回归方程不显著。表10.4多元线性回归模型的方差分析表方差来源平方和自由度均方F值回归SSRppSSRMSR误差SSEn-p-11pnSSEMSE总计SSTn-1MSEMSRF模型评价-显著性检验2(1)要检验的假设:0:0iH;0:1iH(i=1,2,……,p)(2)t检验的计算公式为:iiSti^,其中iS是回归系数标准误,t值应该有p个(3)给定显著性水平α,确定临界值)1(2/pnt(4)若2/tti,则拒绝0H,即总体回归系数0i有多少个回归系数,就要做多少次t检验。•单个回归系数的检验EXCEL演示和解释五、非线性回归分析线性回归模型的结构特点:(1)被解释变量是解释变量的线性函数—变量线性(2)被解释变量也是参数的线性函数—参数线性根据实际分析建立的模型往往不符合上述线性特点,称为非线性模型。如:柯布—道格拉斯生产函数处理非线性回归模型的方法有两种:(1)把非线性关系转化为线性关系,然后再运用线性回归的分析方法进行估计。(2)利用非线性最小二乘法直接估计非线性模型转换成线性模型的常用方法:直接和间接代换法KALY函数关系:对一个或几个变量任意一个取值,另一个变量都有唯一确定值与之相对应,这种关系确定性的关系称为函数关系。如某种商品的销售额Y与该商品的销售量X以及价格P之间的关系可以表示为Y=PX,这就是一种函数关系。一般把作为影响因素的变量称为自变量;把发生对应变化的变量称为因变量。Y是因变量,P与X是自变量。函数关系相关关系:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化,这种不确定的相互关系,称为相关关系如:劳动生产率与工资水平的关系,家庭支出和收入的关系,人的体重和身高的关系。相关关系不能用函数精确表达,但经常用一定的函数形式去近似地描述。相关关系按相关程度划分完全相关:当一种现象的数量变化完全由另一个现象的数量变化所确定时,这两种现象间的关系为完全相关。即函数关系。不相关:当两个现象彼此互不影响,其数量变化各自独立时,称为不相关。不完全相关:两个现象之间的关系介于完全相关和不相关之间,称为不完全相关。(主要表现形式,主要研究对象,常简称为相关,即狭义的相关)正相关:当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关。如家庭支出随家庭收入的提高而增加。负相关:当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关。如商品流转的规模越大,流通费用水平则越低。按相关方向划分按相关形式划分线性相关:当两种相关现象之间的关系大致呈现为直线关系时,称之为线性相关。如人均消费与人均收入通常呈线性关系非线性相关:如果两种相关现象之间,并不表现为直线的关系,而是近似于某种曲线关系,则这种关系称为非线性相关。散点图单相关:一个变量对另一个变量的相关关系,称为单相关。复相关:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。如某种商品的需求与其价格水平及人们收入水平之间的相关关系就是一种复相关。偏相关:在某一变量与多种变量相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为偏相关。按变量多少划分真实相关:当两种现象之间的相关确实具有内在的联系时,称之为“真实相关”。虚假相关:当两种现象之间的相关只是表面存在,实质上并没有内在的联系时,称之为“虚假相关”。按相关性质划分散点图:又称相关图,它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量相对应的数值用坐标点的形式描述出来,用来反映两变量之间相关关系的图形。散点图相关图数据散点图散点图设计思想YXYiNiXiNYX/))((1总体相关系数二维随机变量总体(X,Y),随机变量X和Y的总体相关系数:(数)性质:(1)(2)的充分必要条件是存在常数和使得以概率1成立。)()(),(),(YVarXVarYXCovYXCorrXY协方差1||1||XY(1)的取值范围是从-1到1;||的大小揭示了变量X和Y间线性相关关系的强弱,变量间的线性相关关系程度随着||的减小而减弱,1时,变量X和Y之间具有完全线性关系;0说明变量X和Y之间没有线性相关关系,称为不线性相关或线性无关(2)的符号说明变量间的线性相关关系的方向,0,X和Y正线性相关,0,X和Y负线性相关(3)相关系数是说明线性联系程度的,相关系数很小的变量间可能存在非线性联系(4)注意:变量X和Y不线性相关与X和Y独立是两个不同的概念。如果X和Y独立,则必有X和Y不线性相关;但是若X和Y不线性相关,却不一定有X和Y独立,它们之间可能存在着非线性相关关系。但是,若),(YX服从二元正态分布,X和Y不线性相关和独立是等价的。21122112111)()(niiniiniiniiniiniiniiiYYnXXnYXYXnR21122112111)()(niiniiniiniiniiniiniiiyynxxnyxyxnr(随机变量)(数)如果二维随机变量),(YX的概率分布完全知道,则变量X和Y的相关系数可以由(9.1)式计算出来;往往不知道要研究变量),(YX的概率分布,这时将无法利用(9.1)式计算出相关系数。估计方法:可以从总体),(YX中随机地抽取容量为n的样本),(,),,(11nnYXYX,变量X和Y间的相关系数,可以由样本通过niiniiniiiYYXXYYXXR12121)()())((样本相关系数例9.2Pearson相关系数,样本相关系数例子9938.02873494547496961395433057667928734613952022998529222222yynxxnyxxynrEXCEL:pearson()correl()图9.5从二元总体中抽取的一个随机样本为什么要检验?98.00r相关系数检验1.要检验的假设:或2.检验方法一—t检验检验统计量(原假设成立时)0:;0:10HH0:1H0:1H)2(~122ntRnRt对0:1H,若)2(||2/ntt,就拒绝原假设,接受备择假设,认为总体相关系数显著不为零,总体变量间确实存在线性相关关系;反之,则不能拒绝原假设。或者计算p值)|(|0tTPH,如果p值小于显著性水平,则拒绝原假设。对0:1H,则当)2(ntt时,拒绝原假设,接受备择假设,否则不能拒绝原假设;对0:1H,则当)2(ntt时,拒绝原假设,接受备择假设,否则不能拒绝原假设。例9.33.检验方法二——直接利用R的分布总体相关系数检验更简单的方法:直接查R分布的临界值表,即相关系数临界值表(附表九).先计算Pearson样本相关系数r,然后再查相关系数临界值表,查表时,要根据备择假设的情况和2n与,查出相应的临界值。(1)对备择假设0:1H,若)2(2/nrr,则拒绝原假设,接受备择假设,否则不能拒绝原假设;(2)对备择假设0:1H,若)2(nrr,则拒绝原假设,接受备择假设,否则不能拒绝原假设;(3)对备择假设0:1H,若)2(nrr,则拒绝原假设,接受备择假设,否则不能拒绝原假设。例9.3例9.3法一:t统计量显著性水平0.05,查表得到临界值:由于
本文标题:统计学相关与回归分析-59页PPT文档
链接地址:https://www.777doc.com/doc-1347219 .html