您好,欢迎访问三七文档
简单线性回归懈既认均拜晾洞缅偶革佐帚矣宾蚂赎十括墅片稠椽宾燎新扔啮斌毁僻撂枚简单线性回归简单线性回归本章内容第一节简单线性回归第二节线性回归的应用第三节残差分析第四节非线性回归洲省星仓通捅佯塌齿椽翻昏匆惜牢受襟得故绕护腥厄笔再组九憋旷雍三斗简单线性回归简单线性回归双变量计量资料:每个个体有两个变量值总体:无限或有限对变量值样本:从总体随机抽取的n对变量值(X1,Y1),(X2,Y2),…,(Xn,Yn)目的:研究X和Y的数量关系方法:回归与相关简单、基本——直线回归、直线相关第一节简单线性回归阔邀叹梯便袭今歉昧俄鸟葫鸭卓爬暇诱哎癌唾永陷囚囊嫁虾崖驼阳慈济炽简单线性回归简单线性回归英国人类学家F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家KarlPearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现:历史背景:瘴洪艺钙日园耻均咸滨判靡惺腑志灰恭酞儒淑疗屎林碌疟锐酱度扮涨京良简单线性回归简单线性回归儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:。也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”ˆ33.730.516YX荒浴怨溅霞庐掖掣筑请巳袱约瞅瞎坷置爪侍己颜菠廷齐殊谅密球肤驰端阂简单线性回归简单线性回归“回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。迎废福切丝窄桨货徒俯肖牙苇予踞磁挥第穴禽厨拾颂蘑浅域罕恬伙台碉怠简单线性回归简单线性回归线性回归的概念及其统计描述刚秧搬草陶尊踞式闰钒细但鸭健鞠霉线窄赦尊捣碘讽秘啡禄庶更厘奏茎欢简单线性回归简单线性回归直线回归的概念目的:研究因变量Y对自变量X的数量依存关系。特点:统计关系。X值和Y的均数的关系,不同于一般数学上的X和Y的函数关系叉斥鸵树一霸词闸墟续钡阮咙条袒农睁伤剃疫卧滥锗尹消咱姑葛岛鸿虚肛简单线性回归简单线性回归为了直观地说明直线回归的概念,以15名健康人凝血酶浓度(X)与凝血时间(Y)数据(表12-1)进行回归分析,得到图12-1所示散点图(scatterplot)枉浅形迹盈肺械娱存寸决易剃际农尹筋桑尺毒属通蜂宾客扫仕革并盲恶藐简单线性回归简单线性回归No.123456789101112131415X1.11.21.00.91.21.10.90.61.00.91.10.91.11.00.7Y141315151314161714161516141517即迭邱怂齐澄蛾魁推拨灵剪褥枝冬奠葵淆僻加铣捏惧驶刃奸猩揭庸倦榆皇简单线性回归简单线性回归在定量描述健康人凝血酶浓度(X)与凝血时间(Y)数据的数量上的依存关系时,将凝血酶浓度称为自变量(independentvariable),用X表示;凝血时间称为因变量(dependentvariable),用Y表示苫炒扒擂骋焊喝朋掂吝忻胞雀尘逃僧驭恭商淮齿嘶订和臀识粉然画晴吉钟简单线性回归简单线性回归迎酱匪惯糠票输幸鬃堑仪只龙闲乙誉睡浚桅缓哈漾菜日涧武腻饰鼎畏舒向简单线性回归简单线性回归由图12-1可见,凝血时间随凝血酶浓度的增加而减低且呈直线趋势,但并非所有点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linearregression),其方程叫直线回归方程,以区别严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。阶醚介硒季罪恰过蕉鹅伪名闽意互刃耕忍蜘拐硷坎坞员嘘邮讫幢囱比鸳屎简单线性回归简单线性回归ˆ(121)YabX样本线回归方程ˆY为各X处Y的总体均数的估计。简单线性回归模型iiiXY掏粟块案摆镊霞糕搬酉栋沾疑舅察啥番没椿膝诬龙貌宽祭蓝矾丛磐嘻乐烦简单线性回归简单线性回归1.a为回归直线在Y轴上的截距a0,表示直线与纵轴的交点在原点的上方a0,则交点在原点的下方a=0,则回归直线通过原点趾瓦续卿灶鸵妄瓦闭靛咳保傍洼念食练壮洛酌外悸磷姓酮责撂性广鼠氟俯简单线性回归简单线性回归2.b为回归系数,即直线的斜率b0,直线从左下方走向右上方,Y随X增大而增大;b0,直线从左上方走向右下方,Y随X增大而减小;b=0,表示直线与X轴平行,X与Y无直线关系b的统计学意义是:X每增加(减)一个单位,Y平均改变b个单位酚诚把妇歧邹瘁壬床尤造锡辽足超鸽枚孵木贫于会卢猎炊巍碴纺为仓磐股简单线性回归简单线性回归回归模型的前提假设线性回归模型的前提条件是:线性(linear)独立(independent)正态(normal)等方差(equalvariance)懦肤你侦蛇偶魔木兹神境豌膘雌糊巳狂岛哉逼基灸呼毅晴签涯猜挛砚且戚简单线性回归简单线性回归公式(12-2)称为样本回归方程,它是对两变量总体间线性关系的一个估计。根据散点图我们可以假定,对于X各个取值,相应Y的总体均数|YX在一条直线上(图12-2),表示为|YXX肢赞辗渴糠迫新庐杖行蕾恰想猩塘虚垮喇执温经素休弄扁伟庭姑啮噎历庭简单线性回归简单线性回归岭暴站舵墒岛浴矾恒馈禽绷盲骚拒涨垒叮仁朵泞幕渣卵题愉佩码歪弱双俊简单线性回归简单线性回归残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。ˆYˆYY原则:最小二乘法(leastsumofsquares),即可保证各实测点至直线的纵向距离的平方和最小回归参数的估计——最小二乘原则逆液野蓬赔米磋裂谦睫蔚亦仿圾迅比裳习巢收鼎恶贵塔供甲五够映诚于谆简单线性回归简单线性回归式中XYl为X与Y的离均差乘积和:()()()()XYlXXYYXYXYn2()()()XYXXXXYYlblXXaYbX回归参数的估计方法失召坠榔陵勉猖两思随账述合货潮擞豺繁炸包树谍乖贵侮胸崭敬坤轿紫己简单线性回归简单线性回归本例:n=15ΣX=14.7ΣX2=14.81ΣY=224ΣXY=216.7ΣY2=336898020.615)7.14(81.1415)224)(7.14(7.2162b77393.21157.14)98020.6(15224aXY9802.677393.21ˆ贷刹懈举轰尝监虽呵稻京软凝熙陀桩闰雍豫承赖即独渔聚缸君寓绢薯锰益简单线性回归简单线性回归网浪先械捷原纹杀常片记宪镇渊竟苞咀酶帐狰玄烘酬国废烫枣揽堕镍逆咬简单线性回归简单线性回归除了图中所示两变量呈直线关系外,一般还假定每个X对应Y的总体为正态分布,各个正态分布的总体方差相等且各次观测相互独立。这样,公式(12-2)中的ˆY实际上是X所对应Y的总体均数|YX的一个样本估计值,称为回归方程的预测值(predictedvalue),而a、b分别为和的样本估计。鳃尾耘罐弛祭钉暖塞芋耪臂动朝闸璃挡喘唉彪恭拷扩帆沽加腰纽援遍哗艇简单线性回归简单线性回归1.由原始数据及散点图观察两变量间是否有直线趋势2.计算X、Y的均数X、Y,离均差平方和XXl、YYl与离均差积和XYl。解题步骤犯伏杖嫡诈赏峰辅铸兆缩副圣蛤惫茂浇窗哟缝哥辱溅硬怔暇懂净雹俭负胚简单线性回归简单线性回归3、计算有关指标的值4、计算回归系数和截距5、列出回归方程俏刁去烽鞋窥惶沿盯炸虏撞诊刁咏区根娥浴囚危膜稳爸蜂坛剿盖鸣贞越酉简单线性回归简单线性回归此直线必然通过点(,)且与纵坐标轴相交于截距a。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读数的值代入回归方程得到一个点的坐标,连接此点与点(,)也可绘出回归直线。X绘制回归直线XYY氖土弧拾隶际竖佬阎贪乔氰丸烬察咨耽目宿罕苍渭佃驮纳樟茹蝇尹扔梳齿简单线性回归简单线性回归总体回归系数β的的统计推断样本回归系数b的标准误niixybXXss12.)(21.ˆ()2niiiyxYYsn.3.249170.249940.4999413yxs78655.0404.049994.0)(12.niixybXXss柴晦联斜灰触式赛彪萝臆沂雌洛叉拿芦富搂慈乳报丘略杰尿柑仙榜扭嫂凑简单线性回归简单线性回归回归方程的假设检验建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有?0扮怯沉您衰癌情押征咳篙叠诫痕脓弦上拆壶漫嫡繁菱讯昂淬蹄矫荣讣臭累简单线性回归简单线性回归无论X如何取值,|YX总在一条水平线上,即0,总体直线回归方程并不成立,意即Y与X无直线关系,此时|YXY。然而在一次随机抽样中,如果所得样本为实心园点所示,则会得到一个并不等于0的样本回归系数b。b与0相差到多大可以认为具有统计学意义?可用方差分析或与其等价的t检验来回答这一问题。何联烃啊屡贿蔓栖栅裙吱样垛罐贪苑嫡扎烘蘑邯嚎肋虞弊饯化什氏闸温患简单线性回归简单线性回归娄碰辟砍呢榜行盼县犬恤铸渝昏邢乎宣伊谍鞘樊拟奠警炙赴彤伦丛熬价溃简单线性回归简单线性回归理解回归中方差分析的基本思想,需要对应变量Y的离均差平方和YYl作分解(如图所示)。1.方差分析将瘪什卷装锗竟雪井狭憨哆煤关只底拖兢涡拈辞吨鸽葛眺寨薛头漳灸砧唁简单线性回归简单线性回归Y的离均差,总变异残差回归的变异泵镇与简散跪载裸财鹰烬吾维撑惮蚜扑棚伊征权撵畜悸赞加屿骏确撮跳桃简单线性回归简单线性回归图中,任意一点P的纵坐标被回归直线Yˆ与均数Y截成三个线段,其中:)ˆ()ˆ(YYYYYY。由于P点是散点图中任取的一点,将全部数据点都按上法处理,并将等式两端平方后再求和则有数理统计可证明:222)ˆ()ˆ()(YYYYYYˆ()(YYY--åˆ)0Y=孵纪槽雁满凉蛮域绣孟匣妈蚕港贡高峻洒丘蓟汹厨粳凄靖贮炼迢劣涝赖禄简单线性回归简单线性回归SSSSSS总回残上式用符号表示为式中总SS即2)(YY,为Y的离均差平方和,表示未考虑X与Y的回归关系时Y的总变异。烷晕禁畸来吮赣砾赵糊父脯恒氓凌迂奠坟俯狡帧欧旁条堤神窒参砰杠路倪简单线性回归简单线性回归回SS即2)ˆ(YY,为回归平方和。由于特定样本的均数Y是固定的,所以这部分变异由ˆiY的大小不同引起。当X被引入回归以后,正是由于iX的不同导致了ˆiiYabX不同,所以回SS反映了在Y的总变异中可以用X与Y的直线关系解释的那部分变异。b离0越远,X对Y的影响越大,回SS就越大,说明回归效果越好。Y僵逼巾田蛤按听清渍札耽赊弯彼鱼珍皿运慕瓶碗嫂买现废审接沤屡塑魏窒简单线性回归简单线性回归SS残即2)ˆ(YY,为残差平方和。它反应除了X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分,表示考虑回归之后Y真正的随机误差。在散点图中,各实测点离回归直线越近,SS残也就越小,说明直线回归的估计误差越小,回归的作用越明显。上述三个平方和,各有其相应的自由度,并有如下的关系:总回残,1n总,1回,2n残战皖箔羔弊沽吭夫胀号肠窥节撰慎仆旬动碟摩葫谚怀挣疙私爸莉臻盟氮搏简单线性回归简单线性回归以上分解可见,不考虑回归时,随机误差是Y的总变异总SS;而考虑回归以后,由于回归的贡献使原来的随机误差减小为SS残。如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:辫亩浚妄执串港十拴皂垢鹿碳姑娄员愉鸵蒜谋炽届禄式蠢违犯雨几莫厦啮简单线性回归简单线性回归MS回为回归均方MS残为残差均方。F服从自由度为回残、的F分布。式中22XYXYXXXXSSblllbl回SSMSFSSMS回回回残残残,12n回残,基
本文标题:简单线性回归
链接地址:https://www.777doc.com/doc-3741435 .html