您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 实验设计与数据分析-5回归分析
1实验设计与数据分析城环学院硕士课程06授课人:阳春ExperimentalDesignandDataAnalysis2回归分析RegressionAnalysis3变量间的相互关系•函数关系:非随机变量之间的关系可以通过一个函数式准确表达出来。•相关关系:随机变量或者随机变量和一般变量之间存在的随机关系,不能够用准确的数学表达式表达出来。4相关变量间的关系•因果关系:某一个变量的变化受一个或多个变量的影响。•平行关系:变量之间互为因果,或者共同受到其它因素的影响。5回归分析(regressionanalysis)•统计学上用于研究呈因果关系的变量之间的关系。•回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制因变量(结果)。•一因一果:一元回归(线性、非线性);多因一果:多元回归(线性、非线性)6相关分析(correlationanalysis)•统计学上用于研究呈平行关系的变量之间的关系。•对两个变量间的直线关系进行相关分析称为简单相关分析(直线相关分析);•对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。7线性回归•对于两个相关变量,一个变量用x表示,另一个变量用y表示,通过试验或调查获得两个变量的n对观测值:(x1,y1),(x2,y2),……,(xn,yn)•为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图。8散点图9•散点图直观地、定性地表示了两个变量之间的关系。•为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。•回归方程就是内在关系的定量表达。10线性回归的数学模型•若绘制的散点图呈直线关系,又由于因变量y的实际观测值总是带有随机误差,因而因变量y的实际观测值yi可用自变量x的实际观测值xi表示为:•x为可以观测的一般变量(也可以是可以观测的随机变量);y为可以观测的随机变量;εi(残差)为相互独立,且都服从N(0,)的随机变量•直线回归的数学模型。我们可以根据实际观测值对α,β以及方差做出估计。iiixyεβα++=(i=1,2,…,n)2σ2σ11回归直线•在x、y直角坐标平面上可以作出无数条直线中最接近散点图中全部散点的直线用来表示x与y的直线关系,这条直线称为回归直线。••a是α的估计值,b是β的估计值设回归直线的方程为:bxay+=ˆ12回归直线•a、b应使回归估计值与实际观测值y的偏差平方和最小(最小二乘法),即:∑∑−−=−=22)()ˆ(bxayyyQ有最小值有最小值0)(2=−−−=∂∂∑bxayaQ∑=−−−=∂∂0)(2xbxaybQ13回归直线的求解•关于a和b的正规方程组(formalequations):•系数a和b:∑∑=+yxban∑∑∑=+xyxbxa2xxySSSPxxyyxxnxxnyxxyb=−−−=−−=∑∑∑∑∑∑∑222)())((/)(/))((xbya−=14回归直线的求解•式中的分子是自变量x的离均差与因变量y的离均差的乘积和,简称乘积和,记作。•分母是自变量x的离均差(偏差)平方和:记作SSX。•a叫做样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时,=a;))((∑−−yyxxxySP∑−2)(xxyˆ15回归直线的求解•b:样本回归系数(coefficientofregression),表示x改变一个单位,y平均改变的数量;b的符号反映了x影响y的性质,b的绝对值大小反映了x影响y的程度;•叫做回归估计值,是当x在在其研究范围内取某一个值时,y值平均数的估计值。yˆxβα+16•回归方程的性质:•回归方程的中心化形式:=−=∑2)ˆ(yyQ性质1最小;;0)ˆ(=−∑yy性质2;;),(yx性质3回归直线通过点。。)(ˆxxbybxxbyy−+=+−=17线性回归的偏离度估计•偏差平方和的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为离回归平方和。在直线回归分析中离回归平方和的自由度为n-2。于是可求得离回归均方为:•离回归均方是模型中σ2的估计值。•离回归均方的平方根叫离回归标准误,记为,即2)ˆ(∑−yy)2/()ˆ(2−−∑nyyyxS∑−−=)2/()ˆ(2nyySyx18离回归标准误•离回归标准误Syx的大小表示了回归直线与实测点偏差的程度;•是回归估测值与实际观测值y偏差的程度;•离回归标准误Syx用来表示回归方程的偏离度。yˆ19直线回归的显著性检验•若x和y变量间并不存在直线关系,但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程=a+bx。但回归方程所反应的两个变量间的直线关系是不真实的。•判断直线回归方程所反应的两个变量间的直线关系的真实性取决于变量x与y间是否存在直线关系。•先探讨因变量y的变异,然后再作出统计推断(F检验或者t检验)。yˆ20直线回归的变异来源21直线回归的变异的分解上式两端平方,然后对所有的n点求和,则有)ˆ()ˆ()(yyyyyy−+−=−∑∑−+−=−22)]ˆ()ˆ[()(yyyyyy)ˆ)(ˆ(2)ˆ()ˆ(22yyyyyyyy−−+−+−=∑∑∑)(ˆxxbybxay−+=+=Q)ˆ)(()ˆ)(ˆ(yyxxbyyyy−−=−−∴∑∑)]())[((xxbyyxxb−−−−=∑22•是y的总变异程度;总平方和:SSy•是y与x因为存在直线关系而产生的变异;回归平方和:SSR•是除y与x存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回归平方和(剩余平方和),记为SSr。∑∑∑−+−=−222)ˆ()ˆ()(yyyyyy∑−2)(yy∑−2)ˆ(yy∑2)ˆ-(yyrRySSSSSS+=23•变异的组成:•自由度的组成:•回归自由度的个数等于变量数:dfR=1;总自由度:dfy=n-1;离回归自由度:dfr=n-1-1=n-2。•使用F检验比较回归均方和离回归均方之比。rRySSSSSS+=rRydfdfdf+=24•F检验:HO:β=0,HA:β≠0;检验统计变量:dfR=1,dfr=n-2•t检验:HO:β=0,HA:β≠0;检验统计变量:)2/(//−===nSSSSdfSSdfSSMSMSFrRrrRRrR2,−==ndfSbtbxyxbSSSS=25线性相关(linearcorrelation)•又称简单相关(simplecorrelation),用于表示两变量间的相关程度。•线性相关分析的基本任务:根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量—相关系数r(coefficientofcorrelation)并进行显著性检验。26相关系数(correlationcoefficient)•相关系数是表示两个变量间相关关系的统计指标,反映两个变量线性关系的方向和密切程度的指标。•样本相关系数用r表示,总体相关系数用ρ表示。•应用条件:两个变量都是随机变量且呈正态分布。2)(2)())((YYXXYYXXr−Σ−Σ−−Σ=)2)(2)(2)(2())((nYYnXXnYXXYrΣ−ΣΣ−ΣΣΣ−Σ=27相关系数(correlationcoefficient)•相关系数无单位,-1r1;•r0,x和y正相关,变量x和y变化趋势相同;•r0,x和y负相关,变量x和y变化趋势相反;01r2完全相关无线性关系
本文标题:实验设计与数据分析-5回归分析
链接地址:https://www.777doc.com/doc-3426772 .html