您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 本科“统计学”第八章相关与回归分析
2-110-1第十章相关与回归分析第一节变量间的相关关系第二节一元线性回归第三节可化为线性回归的曲线回归第四节多元线性回归2-210-2学习目标1.掌握相关系数的含义、计算方法和应用2.掌握一元线性回归的基本原理和参数的最小二乘估计方法3.掌握回归方程的显著性检验4.了解可化为线性回归的曲线回归3.利用回归方程进行预测4.掌握多元线性回归分析的基本方法5.用Excel进行回归分析2-310-3第一节变量间的相关关系一.变量相关的概念二.相关系数及其计算2-410-4相关与回归分析的任务和内容相关分析的主要任务,概括起来是两个方面:1.研究现象之间关系的密切程度,即相关分析;2.研究自变量与因变量之间的变动关系,即回归分析。注意:相关分析和回归分析只是定量分析的手段,仅从数量上反映现象之间的联系形式及其密切程度,但无法准确判断现象内在联系的有无,也无法单独以此来确定何种现象为因,何种现象为果。只有以实质性科学理论为指导,并结合实际经验进行分析研究,才能正确判断事物之间的内在联系和因果关系。否则就可能导致荒谬的结论,成为‘伪相关’或‘伪回归’。2-510-5俄国领导人的“秃头浓发交替”列宁——秃头斯大林——浓发赫鲁晓夫——秃头勃列日涅夫——浓发安德罗波夫——秃头契尔年科——浓发戈尔巴乔夫——秃头叶利钦——浓发普京——秃头梅德韦杰夫——浓发2-610-6美国总统的“零年当选必死”?1840年——威廉·亨利·哈里森当选总统,就职演说当天非常冷,他因此感冒,一月后因肺炎死亡。1860年——亚伯拉罕·林肯当选总统,不久就被枪杀。1880年——詹姆斯·加菲尔德当选总统,上任四个月后遭枪杀。1900年——威廉·麦金莱当选总统,一年半后被枪杀。1920年——沃伦·G·哈定当选总统,但突发心脏病死亡。1940年——富兰克林·D·罗斯福第三次当选总统,但在第四次当选总统后不久就因病不治身亡。1960年——约翰·肯尼迪当选为美国最年轻的总统,但于1963年遭枪杀1980年——罗纳德·里根当选总统,在任上曾遭遇刺杀。据说南希组织很多人,包括印第安人为自己的丈夫祈祷,里根终于从那次灾难中活了下来,但最后还是死于外伤造成的阿尔兹海默氏症。因此,一些人认为他也受到了这个诅咒的惩罚。2-710-7“特科抹人诅咒”“特科抹人诅咒”还被称作“蒂皮卡诺诅咒”或“零年份诅咒”。根据传说,1811年,美国将军威廉·亨利·哈里森在蒂皮卡诺大战中击溃了印第安人首领特科抹人的军队,并对印第安人实施了大屠杀。面对强大的敌人,可怜的特科抹人只能用咒语来反抗,他们的酋长临死时诅咒说:我告诉你们,哈里森将死;继他之后每隔20年,每个在尾数是零的年份当选的总统都必须在任上死去;他们每个人的死都会让美国人记起我们的人民。由于美国的总统是每4年一任,所以每20年就有一任是在结尾数字是零的年份当选。后来的事实证明,“特科抹人诅咒”果然灵验,从哈里森开始,先后有8位总统是在每位数字为零的年份当选,他们无一例外,全都被“咒死”。2-810-8你愿意2000年竞选美国总统吗?——勇敢的乔治·W·布什2-910-9相关分析的主要内容包括以下五个方面:1.判断社会经济现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这是相关分析的出发点;2.确定相关关系的密切程度;3.测定两个变量之间的一般关系值;4.测定因变量估计值和实际值之间的差异,用以反映因变量估计值的可靠程度;5.相关系数的显著性检验。2-1010-10变量相关的概念——相关关系与函数关系2-1110-11变量间的关系——函数关系1.是一一对应的确定关系2.设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量3.各观测点落在一条曲线上xy2-1210-12变量间的关系——函数关系函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)圆的面积(S)与半径之间的关系可表示为S=R2企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x32-1310-13变量间的关系——相关关系1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量x取某个值时,变量y的取值可能有几个4.各观测点分布在曲线周围xy2-1410-14变量间的关系——相关关系相关关系的例子商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系2-1510-15一、相关分析的第一步:相关图不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关相关图,也称散布图(或散点图)。2-1610-16表10-1我国人均国民收入与人均消费金额数据单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148制作相关图——散点图图例【例10.1】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到1981~1993年的样本数据(xi,yi),i=1,2,…,13,数据见表10-1,考察人均国民收入与人均消费金额的相关程度。2-1710-17根据原始数据制作散点图,可见线性相关关系显著人均消费金额020040060080010001200140005001000150020002500人均国民收入人均消费金额2-1810-18相关系数及其计算二、当线性关系较为显著时,可进行相关分析的第二步:2-1910-19线性相关关系的测度——相关系数1.对变量之间关系密切程度的度量2.对两个变量之间线性相关程度的度量称为简单相关系数3.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为4.若是根据样本数据计算的,则称为样本相关系数,记为r2-2010-20线性相关关系的测度——相关系数2222221()()11()()()()()()1.xyxyxyxyrxxyynxxyynnxxyyrxxyy积差法:2-2110-21线性相关关系的测度——相关系数样本相关系数的计算公式22)()())((yyxxyyxxr或化简为2222yynxxnyxxynr2-2210-22表10-1我国人均国民收入与人均消费金额数据单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148相关关系的测度——相关系数算例【例10.1】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到1981~1993年的样本数据(xi,yi),i=1,2,…,13,数据见表10-1,计算相关系数。2-2310-23相关系数算例——计算结果解:根据样本相关系数的计算公式有人均国民收入与人均消费金额之间的相关系数为0.9987——或在EXCEL中利用“工具——数据分析——相关系数”进行计算。9987.074575226399135.1282777.160733231374575.1282799.915617313222222yynxxnyxxynr2-2410-24相关系数——线性相关关系的测度-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加2-2510-25相关系数取值及其意义1.r的取值范围是[-1,1],且只能反映变量间的线性相关程度2.|r|=1,为完全相关:r=1,为完全正相关;r=-1,为完全负正相关3.r=0,不存在线性相关关系4.-1r0,为负相关5.0r1,为正相关6.|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切2-2610-26相关系数的显著性检验1.相关系数检验——检验总体相关系数是否等于零样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。2.可以证明,如果X和Y都服从正态分布,在总体相关系数为0的假设下,与样本相关系数r有关的t统计量服从自由度为n-2的t分布——采用t检验3.检验的步骤为提出假设:H0:;H1:0)2(~122ntrnrt计算检验的统计量:确定显著性水平,并作出决策:若tt,拒绝H0;若tt,接受H02-2710-27相关系数的显著性检验对前例计算的相关系数进行显著性检(0.05)1.提出假设:H0:;H1:02.计算检验的统计量9809.649987.012139987.02t3.根据显著性水平=0.05,查t分布表得t(n-2)=2.201由于t=64.9809t(13-2)=2.201,拒绝H0,人均消费金额与人均国民收入之间的相关关系显著rrrr0.3时,没有关系;0.3≤0.5时,称低度相关;0.5≤0.8时,称显著相关(或中度相关);≥0.8时,称高度相关;一般标准如下:2-2810-28三、非线性关系的处理方法——线性化1.因变量y与x之间不是线性关系2.可通过变量代换转换成线性关系3.按照变换后的线性关系进行相关及回归分析4.但是,并非所有的非线性模型都能线性化拟合方法:统计上通常采用变量代换法把非线性形式转换为线性形式处理,使线性回归分析的方法也能适用于非线性回归问题的研究。2-2910-29几种常见的非线性模型指数函数2.线性化方法两端取对数得:lny=ln+x令:y'=lny,则有y'=ln+x1.基本形式:3.图像2-3010-30几种常见的非线性模型幂函数2.线性化方法两端取对数得:lgy=lg+lgx令:y'=lgy,x'=lgx,则y'=lg+x'1.基本形式:3.图像011=1-10-1=-12-3110-31几种常见的非线性模型双曲线函数2.线性化方法令:x'=1/x,则有y=+x'1.基本形式:3.图像002-3210-32几种常见的非线性模型对数函数2.线性化方法x'=lgx,则有y'=+x'1.基本形式:3.图像002-3310-33几种常见的非线性模型S型曲线2.线性化方法令:y'=1/y,x'=e-x,则有y'=+x'1.基本形式:3.图像2-3410-34某商店各个时期的商品流通费率和商品零售额资料如下:x商品零售额(万元)9.511.513.515.517.519.521.523.525.527.5y商品流通费率(%)6.04.64.03.22.82.52.42.32.22.10246881012141618202224
本文标题:本科“统计学”第八章相关与回归分析
链接地址:https://www.777doc.com/doc-2323768 .html