您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 第四讲-stata线性回归
第九章线性回归(LinearRegression)导论统计分析:根据统计数据提供的资料,揭示变量之间的关系,并由此推演为事物之间内在联系的规律性为什么学习回归分析回归分析探讨客观事物之间的联系,表现为变量之间的统计关系建立在对客观事物进行大量实验和观察的基础上,用来寻找隐藏在看起来不确定的现象中的统计规律的统计方法因因变量衡量方式的不同,回归分析可分为线性回归和非线性回归线性回归适用于因变量为连续衡量的场合非线性回归多适用于因变量为虚拟变量、多分类变量、计数变量等场合即便在这两大类中,分析方法又可区分为许多不同的类型根据处理的变量多少来看,回归分析又分为:简单相关和一元回归:研究的是两个变量之间的关系多元相关或多元回归:研究的是多个变量之间的关系本章主要内容9.1.变量间的相关关系(correlation)9.2.线性回归概述9.3.一元线性回归9.4.多元线性回归9.1.变量间的相关关系(correlation)1、函数关系回归分析前,首先必须掌握变量之间是否相关;只有变量之间存在关系,才有必要进行回归分析假若x增加时,y的取值发生相应变化,则x和y之间是相关的假若x增加时,y的取值没有确定的变化,x则y和之间是不相关的,或是没有相关关系的变量之间的相关关系归纳起来可以分为两种:函数关系和统计关系函数关系:当一个变量x取一定的值时,另一变量y可以按照确定的函数公式取一个确定的值,记为)(xfy,则称y是x的函数。换言之,y与x两个变量之间存在函数关系。函数关系是一一对应的确定性关系,比较容易分析和测度(比如,路程=时间速度);长方形的边长与面积之间的关系,等2、统计相关现实事物之间的联系不像函数关系那样容易确定现象之间存在关联;但无法确定具体关系,不能像函数关系那样,用一个公式将它们的关系准确地描述出来;当一个变量取一定的值时,另一个变量可能有多个取值当一个变量的值不能由另一个变量的值唯一确定时,这种关系称为统计关系统计关系不如函数关系直接和明确;但通过对大量数据的观察和研究,就会发现许多变量之间确实存在着某种关联,强弱各不相同3、相关关系的特点双向变化关系;一个变量的取值不能由另一个变量的取值唯一确定;当x取一定的值时,y可能有多个取值,因为还受到其他因素的影响;不确定关系难以用函数关系来衡量和描述,但这并不表示x和y之间无规律可循;类似定性描述相关分为线性相关和非线性相关。4、相关分析对两(多)个变量之间的关系进行描述,分析它们是否相关关系是否密切关系的性质是什么(是正相关还是负相关)随着x的变化,y值的变化程度就确定二者是否相关和相关的强度当x增加(减少)时,y的取值也随之增加(减少),则x和y之间呈正相关关系;相反,当x增加(减少)时,y的取值却随之减少(增加),则和之间呈负相关关系相关分析的方法包括散点图和相关系数相关散点图(scatterplot)0246810246810a_完全正线性关系0246810246810b_完全负线性关系02468100246810c_正线性关系02468102468d_负线性关系123450246810e_非线性关系02468100246810f_不相关相关系数图形虽然直观,但不够精确;对散点图的视觉分析带有很大的主观性;需要更精确和更客观的度量;相关系数可准确地描述变量之间的线性相关程度;线性相关系数是衡量变量之间相关程度的统计量,是描述两变量线性关系强度及方向的数值;若相关系数是根据总体数据计算的,称为总体相关系数,记为ρ;若是根据样本计算出来的,则称为样本相关系数,记为r;在统计学中,一般用样本相关系数来推断总体相关系数。相关系数:性质与方向相关系数r的取值在-1和1之间;变量的线性关系强度随r从0移向-1或1而增强r接近0表示两变量的线性关系薄弱r接近-1或1表示散点图的点近乎直线r等于-1或1表示散点图的点全在直线上相关系数为正值时,表示两变量正向关联相关系数为负值时,表示两变量负向联系niYiXisyysxxnr1))((11相关系数:程度根据经验,可以将相关程度分为几等:但这种解释必须建立在对相关系数进行显著性检验的基础之上。r0.8:变量之间高度相关0.5r0.8:变量之间中度相关0.3r0.5:变量之间低度相关r0.3:变量之间的相关程度极弱,可视为不相关相关系数:其它特征(a)r不区分DV和IV;相关关系不一定就是因果关系(b)r的计算以数值型变量为主,不适用于类别变量(c)r的计算使用Z值,与各数值型变量的度量单位无关(d)r仅能衡量变量的线性关系,无法衡量曲线关系强度i.r=0并不等于变量间无任何关系,而仅仅表示它们之间不存在线性相关关系;二者可能有非线性关系ii.当变量间的非线性关系程度较大时,可导致r=0iii.当r=0或很小时,不能轻易说二者不相关,而应该结合散点图做出合理的解释(图8.1e)(e)相关系数值受离群点(outliers)影响很大。基于平均的数据会中和个体之间的差异,并可能夸大相关系数相关系数的计算.correlate[变量名]①②①:.correlate也可写为corr,是生成变量之间相关系数矩阵、协相关矩阵、回归系数相关矩阵的基本命令;②:需要生成相关关系的变量名称如:corrageeduweightheight若要给出相关系数(每个变量的上行)及其假定检验的P指,使用命令:pwcorr[变量名],sig9.2.线性回归概述“回归”一词来自英国学者、优生学的创始人S.F.Galton(1822-1911)。Galton在对遗传现象进行研究后发现,当高个的夫妻或矮个的夫妻有了孩子时,这些孩子的身高趋于回归到更典型的、同一性别的人的平均身高。1、回归分析通过找出代表变量之间关系的直线图形或直线方程来描述变量之间的数学关系这条直线称为回归直线;该直线方程称为回归方程。一元线性回归是回归分析中最简单、最基本的回归分析,描述两个变量之间的关系。它是根据统计资料,寻求一个变量与另一个变量关系的恰当数学表达式的经验方程,来近似地表示变量间的平均变化关系的一种统计分析方法:其中一个变量作为DV或被解释变量,通常用y表示;另一个变量IV(预测变量或解释变量)通常用x表示。2、相关分析与回归分析之别依存关系与平等关系。回归反映两个变量的依存关系,一个变量的改变引起另一个变量的变化,是一种单向的关系;其y变量称为因变量,被解释变量;在相关分析中,变量和变量处于平等地位:双向关系关系程度与影响大小。相关分析主要是刻画两类变量间线形相关的密切程度;而回归分析不仅要揭示自变量对因变量的影响大小,还可以由回归方程进行预测和控制。因此,回归是对两(多)个变量作定量描述,研究变量之间的数量关系,从已知的一个变量的取值预测另一个变量的取值,得到定量结果。3、回归分析的目的从一组样本数据出发,确定解释变量(IV)与被解释变量(DV)之间的数学关系式;回归方程就是要找出一条最好地描述两个变量之间关系的直线方程。对该关系式的可信程度进行各种统计检验;从影响DV的一组IV中找出哪些变量的影响是显著的,那些是不显著的。利用直线方程(即所求的关系),根据一个或几个变量的取值来估计或预测DV的取值,并给出这种估计或预测的置信度。预测是有规律的。如,利用汽车的速度来预测它刹车所需要的距离利用学生的中学成绩来预测考上大学的成功率精确的y值是不可预测的,靠近实际值。4、回归分析的用途用于研究一个IV对一个数值型DV在数量上的影响程度。设有两个变量,x,y,其中,y的取值随x取值的变化而变化,故y是DV,x是IV。-5-214710131605101520agein2004对于这两个变量,通过观察或试验得到若干组数据,记为1,2,…,n)。若x以代表年龄,以y代表教育,则从散点图中,可以清楚地确认x与y存在线性关系线性回归模型:回归直线儿童的年龄与教育之间存在很强的正向相关关系线条就是回归直线(regressionline)如何将变量之间的相关关系用数学关系的代数表达式表达出来-5-214710131605101520agein2004线性回归的理论模型等式(9.1)称为一元线性回归模型,描述因变量y如何依赖于自变量x和误差项e而异。在该模型中,y是x的线性函数(β0+β1x部分)加上误差项e。其中,β0和β1是模型的未知参数,前者称为回归常数项(或截距,intercept);后者称为回归系数(coefficient);β0+β1x反映了由于x的变化而引起的y的变化,也称为边际变化(当变量x变化一个单位时,变量y改变的数量)e是被称为误差项的随机变量,代表因主观和客观原因而不可观测的随机误差,反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y的线性关系所揭示的变异性。xy10(9.1)线性回归模型的基本假定(1)零均值,即。误差项是一个期望值=0的随机变量在自变量取一定值的条件下,其总体各误差项的条件平均值为0。这意味着,在等式(9.1)中,由于β0和β1都是常数或系数,故有因此,对于一个给定的x值,y的期望值为(2)等方差,即对于所有的x值,e的方差σ2都相同(3)误差项服从正态分布,且相互独立,即独立性意味着,对于一个特定的x值,它所对应的与其它x值对应的不相关对于一个特定的x值,它所对应的y与其它x对应的y不相关0)(E00)(E11)(ExyE10)(),0(~2N(9.2)总体回归方程(equation)(I)根据回归模型的假定,误差项的期望值为0;因此,y的期望值等于一元总体回归方程:方程是一条直线,故也称直线回归方程(linearregressionequation)0是回归系数在y轴上的截距,是当x为0时y的取值1是直线的斜率,表示当x每变动一个单位时,y的变化值xyE10)(xy10(9.4)(9.3)总体回归方程(II)等式(9.4)从平均意义上表达了变量y与x的统计规律性如果回归方程中的参数0和1是已知的,对于一个给定的x值,利用等式(9.4)就能计算出y的期望值在实际研究问题中,由于所要研究的现象的总体单位数往往很多,有时甚至是无限的,故无法掌握因变量y总体的全部取值换言之,0和1是未知的;总体回归方程也是未知的,需要利用样本的信息对其进行估计样本回归方程的函数形式应与总体回归方程的函数形式一致(预测的)回归方程一元线性回归模型的样本回归方程可以表示为:xy10ˆˆˆ(9.5)yˆ(读成yhat)代表对应于一个特殊的x值的y的预测值;yˆ是y的估计值0ˆ和1ˆ是样本的统计量,分别代表总体的未知参数0和10ˆ为估计的回归直线在y轴上的截距1ˆ为估计的回归直线的斜率,它表示对于一个给定的x值,y的平均变动值回归分析的三种检验F检验——用于检验回归方程的显著性R2——用于测度回归直线对观测数据的拟合程度;也称判定系数、可决系数(coefficientofdetermination)t检验——用于检验自变量回归系数的显著性Source|SSdfMSNumberofobs=1749-------------+------------------------------F(1,1747)=10416.64Model|14779.6461114779.6461ProbF=0.0000Residual|2478.7312617471.41885018R-squared=0.8564-------------+------------------------------AdjR-squared=0.8563Total|17258.377417489.87321359RootMSE=1.1912---------------------
本文标题:第四讲-stata线性回归
链接地址:https://www.777doc.com/doc-1661151 .html