您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 股票报告 > 环境统计学第三章一元线性回归
1环境统计学•授课教师:林红军•授课时间:2010学年第二学期(EnvironmentalStatistics)环境科学系办公地点:校8幢123室,17幢612室E-mail:hjlin@zjnu.cn,linhonjun@163.comCell:15958459856,6798562环境统计学•第1章绪论•第2章概率统计基础•第3章环境一元线性回归分析•第4章环境多元线性回归分析•第5章环境系统聚类分析•第6章环境模糊聚类分析•第7章环境判别分析•第8章环境主成分分析•第9章环境因子分析•第10章人工神经网络•第11章环境空间统计分析3随机事件随机试验随机事件事件的运算概率概率古典概率概率计算数学特征数学期望方差变异系数协方差相关系数概率数学特征随机事件概率分布正态分布t分布x2分布F分布概率分布统计推断参数估值点估计区间估计置信区间假设检验统计推断概率统计基础4变量间的关系•函数关系或确定性关系:研究的是确定现象非随机变量间的关系。•统计关系:研究的是非确定现象随机变量间的关系。变量之间的关系,大体可分为两类:银行的1年期存款利率为年息2.25%,存入的本金设为x,到期本息为y,则存在关系:(不考虑利息税)xxy%25.2水污染程度y与城市人口规模x之间的关系收入水平y与受教育程度x之间的关系环境一元线性回归分析5对变量间统计关系的考察主要是通过相关分析(correlationanalysis)或回归分析(regressionanalysis)来完成的:正相关线性相关不相关相关系数:统计依赖关系负相关11XY有因果关系回归分析正相关无因果关系相关分析非线性相关不相关负相关6几点注意不线性相关并不意味着不相关;有相关关系并不意味着一定有因果关系;相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系;相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。7回归分析是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。这里前一个变量被称为被解释变量(ExplainedVariable)或应变量(DependentVariable),后一个(些)变量被称为解释变量(ExplanatoryVariable)或自变量(IndependentVariable)。回归分析的基本概念水污染程度y与城市人口规模x之间的关系收入水平y与受教育程度x之间的关系8“回归”一词的历史渊源•“回归”一词最早由FrancisGalton引入。Galton发现,虽然父母的身高对子女的身高起到决定性作用,但给定父母的身高后,他们儿女辈的平均身高却趋向于或者“回归”到社会平均水平。Galton的普遍回归定律(lawofuniversalregression)。•Galton的朋友KarlPearson通过收集一些家庭的1000多名成员的父子身高数据,证明儿子确实“回归到中等(regressiontomediocrity)”9回归模型的类型线性回归非线性回归一元回归线性回归非线性回归多元回归回归模型10由于y与x之间不存在完全确定的函数关系,因此必须把随机波动产生的影响考虑在内.于是模型的一般形式为yi=f(xi)+ε其中y是随机变量,x是普通变量,ε是随机项.线性回归模型yi=f(xi)x,y之间函数关系表示为11若进行n次独立试验,得到变量y与x的一组观测值(xi,yi)(i=1,2,…,n),则有yi=f(xi)+εi(i=1,2,…,n)将点(xi,yi)画在平面直角坐标系中得到的图称为散点图(见图).oxy图14-1012如果所有的散点大体上散布在某一条直线附近(见图),就可以认为Y对x的回归函数的类型为直线型,即,称此方程为Y对x的回归直线方程,并称其中b的为回归系数,在y的上方加“^”,是为了区别于Y的实际观测值y.bxayˆ如果随机变量Y与非随机变量x之间存在着线性相关关系,则可用回归直线方程来描述.bxayˆoxy图14-1113散点图(scatterdiagram)不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关14一元线性回归分析的前提条件1)直线相关关系2)两个变量之间存在显著相关3)足够多的已知资料,并且自变量因变量明确4)值相互独立,且同方差,~N(0,σ2)15一元线性回归参数求解16最小二乘法设n次试验得到的观测数据为(x1,y1),(x2,y2),…,(xn,yn),则有iiibxay(i=1,2,…,n)即(i=1,2,…,n)iiibxay取全部误差的平方和为niiiniibxaybaQ1212)(),(17最小二乘估计(图示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)xbayˆˆˆi=yi-yi^niiiniibxaybaQ1212)(),(18上式中只有a,b是未知数,即Q是a,b的函数,要找出一条总的看来最接近这n个观测点的直线,就是要求出使Q取得最小值的a,b(记作,).由于平方又叫做二乘方,因此把这种使“偏差平方和为最小”的方法称为最小二乘法.这样求得的,称为参数a,b的最小二乘估计.aˆbˆaˆbˆ19,的求法如下aˆbˆ0)(20)(211iniiiniiixbxaybQbxayaQniiiniibxaybaQ1212)(),(20解此方程组,可得niiniiixxyyxxb121)(/))((ˆxbyaˆˆ为了方便记忆,引入记号niiiniiyxxbxnaynxnbna112__整理可得其中,niiniiynyxnx111,121niixxxxL12)(niiixyyyxxL1))((于是有xxxyLLb/ˆxbyaˆˆniiniiixxyyxxb121)(/))((ˆ212xnxniiyxnyxniii122•例1.某河流溶解氧浓度(单位:mg/L)随着流动时间而下降,现测得8组数据,如下表所示。求它们之间的关系。举例说明x流动时间/d0.51.01.61.82.63.23.84.7溶解氧浓度y/mg/L0.280.290.290.180.170.180.100.1223bxayˆ列出回归分析表:将这8对数字看作平面上点的坐标画出(见图),易见所有散点大体上分布在一直线的附近因此,可设DO量y对流动时间x的回归方程为00.050.10.150.20.250.30.350.40123456流动时间(d)DO(mg/L)2410.50.280.1400.2500.07821.00.290.2901.0000.08431.60.290.4642.5600.08441.80.180.3243.2400.03252.60.170.4426.7600.02963.20.180.57610.2400.03273.80.100.38014.4400.01084.70.120.56422.0900.014∑19.201.613.1860.580.3647ixiyixiy2ix2iyix流动时间/d0.51.01.61.82.63.23.84.7溶解氧浓度y/mg/L0.280.290.290.180.170.180.100.12回归分析表2550.144.2858.602212xnxLniixx0472.050.14684.0ˆxxxyLLb3145.0ˆˆxbya所求回归直线为xxbay0472.03145.0ˆˆˆ从而684.020125.04.2818.31yxnyxLniiixy解:将有关的数据代入公式,计算建立的标准曲线为例2:用分光光度法测定氨溶液中的铜氨离子,以水参比,在600nm测定铜氨显色溶液的吸光度A,得到结果如下:c/mol/L0.0020.0030.0050.0080.012A0.120.140.270.400.52试根据所得到的数据建立吸光度A与铜氨离子浓度c之间的回归方程。111221110.0027541.6670.00006610.29041.6670.0060.040nnniiinniixyxynbxxnaybx建立的标准曲线为0.04041.667Ac270.00.10.20.30.40.50.601234567890.00.10.20.30.40.50.60123456789线性回归的显著性检验281.偏差平方和的分解xbayˆˆˆ只反映了x对y的影响,所以回归值iixbayˆˆˆ线性回归的显著性检验就是中只受影响的那一部分,而就是除去iyixiiyyˆ了的影响后受其它种种因素影响的部分,故将ixiiyyˆ称为残差(或剩余),于是观测值可以分解为两部分iy=(回归值)+()(残差)iyiyˆiiyyˆ29将偏差平方和分解niiyyyyL12)(niiiiyyyy12)]ˆ()ˆ[(niniiiniiiiiyyyyyyyy11212)ˆ()ˆ)(ˆ(2)ˆ(0yyLniniiiiyyyy1122)ˆ()ˆ(30记niiiyyS12)ˆ(残于是Lyy=S回+S残niiyyS回12)ˆ(yyLniniiiiyyyy1122)ˆ()ˆ(31至于S残,则是在总偏差中已分离出x对y的线性影响之外的其余因素所产生的误差,它反映了观测值偏离回归直线的程度.在的假定下,S残完全是由随机项引起的,称S残为剩余平方和.bxayS回反映了回归值,,…,的分散程度.称S回为回归平方和.1ˆy2ˆynyˆ32niixxb2122)(ˆ沿用前面的记号Lxx和Lxy,便有xxLbS2ˆ回xxxxxyLLL2xxxyLL2xxxyyyyyLLLSLS2回残注意到niixbaxba12)]ˆˆ()ˆˆ[(niiyyS回12)ˆ(33不能描述随机变量Y,与非随机变量x之间的相关关系.xbayˆˆˆ在中,如果b=0,就说明线性回归方程bxay相关性检验的统计假设所以,为了判断y与x之间是否存在线性相关关系,应当提出的待检假设是H0:b=0显著性检验-F检验法34保留前面公式(i=1,2,…,n)中iiibxay对所做的假定,当H0:b=0成立时,统计量)2,1(~)2(nFSSnF残回显著性检验-F检验法越大,则越小,x对y的影响就越大;越小,则越大,x对y的影响就越小;因此,的相对比值就反映了x对y的影响程度的大小.Lyy给定后,,的大小就反映了x对y的影响程度,S残S回S残S回S回S残S残S回35对给定的检验水平,由F分布表,可查得满足)(FP的临界值.如果,就接受假设H0,05.0F认为Y对x的线性相关关系不显著;如果,01.005.0F就否定假设H0,认为Y对x的线性相关关系显著;如果01.0F,亦否定假设H0,而且认为Y对x的线性相关关系特别显著.这种检验方法称为F—检验.36显著性检验-F检验法•例1.某河流溶解氧浓度(单位:mg/L)随着流动时间而下降,现测得8组数据,如下表所示。求它们之间的关系。x流动时间/d0.51.01.61.82.63.23.84.7溶解氧浓度y/mg/L0.280.290.290.180.170.180.100.12检验方法:0714
本文标题:环境统计学第三章一元线性回归
链接地址:https://www.777doc.com/doc-6571495 .html