您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 第七章 相关与回归分析概要
数据、模型与决策第七章相关与回归分析正相关关系与正比例关系假设速度为每小时5公里,则行驶总路程与行驶时间之间有正比例关系:行驶总路程(公里)=5(公里/小时)×行驶时间(小时)人的身高与脚印长度有这样的正相关关系:人的身高=6.876×脚印长度±误差脚印长度一样的人,长得并不一样高,这有多个方面的原因。他们来自不同的家庭,遗传基因不同、健康状况不同、饮食不同、运动习惯不同等都可能是造成脚印一样长但身高不一样的原因。每一个原因都可能产生误差,而正相关关系右边的误差是这一系列误差的总和。负相关关系美国纽约州的一所医院全年的289411份处方中905份处方有错误。平均每天发生2.5份错误处方。医生的工作年限和经验与处方的错误率有极为密切的关系。第一年工作的医生平均错误率为0.425%,第二年工作的平均为0.234%,第三年工作的平均为0.198%,第四年工作的平均为0.081%。医生的工作年限与错误率有负相关关系。不论医生的工作年限是长还是短,都有可能开错处方。总的来说,工作年限短的医生开错处方的可能性比工作年限长的医生大。父亲及其成年儿子的身高正相关英国著名生物和统计学家高尔顿(F.Galton,1822–1911)和他的学生,著名统计学家皮尔逊(K.Pearson,1856–1936)对测量得到的1078个父亲及其成年儿子身高的成对数据进行了研究。研究结果发现,他们之间有正相关关系。父亲比较高则其成年儿子往往也比较高,而父亲比较矮则其成年儿子往往也比较矮。这也就是说,若父亲比较高则其成年儿子总的趋势也比较高。同样道理,比较矮的父亲其成年儿子总的趋势也比较矮。父亲身高与儿子身高的1078对数据的散点图140160180200220140160180200220儿子身高父亲身高儿子身高的回归成年儿子的身高(厘米)其父亲的身高(厘米)±误差成年儿子的身高的分布为正态分布,均值其父亲的身高成年儿子的平均身高为其父亲的身高。成年儿子的身高超过与低于其父亲的身高的可能性都等于0.5。长得比较高的父亲其成年儿子往往比较高1)比父亲还高的儿子少一些;2)没有父亲高的儿子多一些。成年儿子的身高(厘米)其父亲的身高(厘米)±误差倘若某父亲比较高,例如身高180厘米,那么他的成年儿子的身高超过厘米的可能性正好等于0.5。由此可见,成年儿子的身高比他父亲身高180厘米还高的可能性不到0.5,而没有超过他父亲身高的可能性大于0.5。长得比较矮的父亲其成年儿子往往比较矮1)比父亲还矮的儿子少一些;2)没有父亲矮的儿子多一些。成年儿子的身高(厘米)其父亲的身高(厘米)±误差倘若某父亲比较矮,例如身高165厘米,那么他的成年儿子的身高超过厘米的可能性正好等于0.5。由此可见,成年儿子的身高比他父亲身高165厘米还矮的可能性不到0.5,而超过他父亲身高的可能性大于0.5。儿子身高的回归比父亲还高的儿子少一些没有父亲高的儿子多一些没有父亲矮的儿子多一些比父亲还矮的儿子少一些由父亲身高预测儿子身高成年儿子的身高(厘米)其父亲的身高(厘米)±9.51厘米,概率95%某父亲身高170厘米,则预测其成年儿子身高为厘米,上下误差不超过9.51厘米,概率95%。身高170厘米的父亲,其成年儿子身高的置信水平为95%的预测区间为(厘米),即区间的长度19.02厘米,太大了。身高遗传因素不可忽视。它能改变一个人身高的25%。受到经济状况制约。繁荣时期人类身体长高,危机时期人类身体长矮。上个世纪德国人长高,例如男性平均长高18厘米。然而东德人的身高比西德人增长得慢。在东德城市里的食品供应远好于农村,因而东德的农村居民比城市居民矮2.2厘米身高增长特别快的是日本人。美国人却往胖里长,甚至变矮成趋势。今天30岁的美国人比20岁的美国人高。由父母亲身高预测孩子身高成年儿子身高=56.699+0.419×父亲身高(厘米)+0.265×母亲身高(厘米)±3厘米,概率95%成年女儿身高=40.089+0.306×父亲身高(厘米)+0.431×母亲身高(厘米)±3厘米,概率95%倘若根据父亲和祖父的身高预测成年儿子的身高好不好?回归模型:y=ax+b+e回归模型中有两类变量:自变量和因变量。回归模型可用来根据自变量的数值预测因变量。在美国黄石国家公园间歇喷泉的例子中,可观察的“喷发的持续时间“称为是自变量,记为x。待预报的“到下一次喷发间隔时间”称为是因变量,记为y。线性回归模型(简称回归模型):y=ax+b+e其中a是斜率,b是截距,e是误差(error)。如果斜率a大于0,自变量x和因变量y直线正相关(简称正相关)。如果斜率a小于0,自变量x和因变量y直线负相关(简称负相关)。回归模型:y=ax+b+e回归模型:问题1)估计斜率a;问题2)估计截距b。有了斜率a与截距b的估计,就可以在知道自变量x之后,计算因变量y的预测值。通常假设误差e是正态分布。问题3)估计误差标准差。有了误差标准差的估计,就可以计算因变量y的概率例如为95%的预测误差。预测问题的第1步工作是收集数据1978年8月1日至8月8日清晨8时至午夜老忠实间歇喷泉的喷发持续时间(x分钟)和到下一次喷发的间隔时间(y分钟)的107对数据8月1日8月2日8月3日8月4日8月5日8月6日8月7日8月8日yxyxyxyxyxyxyxyx784.4743.9684.0764.0803.5844.1502.3934.7551.7764.9581.7744.6753.4804.3561.7803.9693.7573.1904.0421.8914.1511.8793.2531.9824.6512.0764.5823.9844.3532.3863.8511.9854.6451.8884.7511.8804.6491.9823.5754.0733.7673.7684.3863.6723.8753.8753.8662.5844.5704.1793.7603.8863.4714.0672.3814.4764.1834.3763.3552.0734.3562.9834.6571.9713.6723.7773.7551.8754.6733.5704.0833.7501.7954.6511.7824.0541.8834.4511.9804.6782.9813.5532.0894.3441.8784.1611.8734.7754.2733.9764.3551.8864.5482.0774.2734.4704.1884.1754.0834.1612.7784.6611.9814.5512.0804.8794.1预测问题的第2步工作制作交叉分组列表判断变量之间的相关性到下一次喷发的间隔时间91~100000001281~900003611471~8000151511861~70221043051~601711110041~5061000001.6~2.02.1~2.52.6~3.03.1~3.53.6~4.04.1~4.54.6~5.0喷发持续时间预测问题的第2步工作通常画散点图判断变量之间的相关性0204060801000123456喷发持续时间(分)到下一次喷发的间隔时间(分)喷发持续时间与到下一次喷发的间隔时间直线正相关关系0204060801000123456喷发持续时间(分)到下一次喷发的间隔时间(分)有了这条直线如何预报到下一次喷发的间隔时间01020304050607080901000123456喷发持续时间(分)到下一次喷发的间隔时间(分)回归模型:y=ax+b+e喷发持续时间与到下一次喷发的间隔时间之间的回归模型:到下一次喷发的间隔时间喷发持续时间,其中误差有正态分布。三个问题;1)计算斜率的估计;2)计算截距的估计;3)计算误差标准差的估计。预测问题的第3步工作计算斜率a和截距b的估计①建立数据文件,将喷发持续时间的数据放在A列的第1至第107个单元格,到下一次喷发的间隔时间的数据放在B列的第1至第107个单元格;②在其它任意两个单元格上分别输入:“=slope(b1:b107,a1:a107)”;“=intercept(b1:b107,a1:a107)”。则得斜率(Slope);截距(Intercept)。注意:首先输入待预报的因变量的数据b1:b107,然后输入可观察的自变量的数据a1:a107。输入的次序不能颠倒。预测问题的第3步工作:计算回归直线有了斜率和截距的估计,就有了回归直线:有了回归直线,我们就能根据喷发持续时间的观察值,预测到下一次喷发的间隔时间。倘若这一次喷发持续分钟,则到下一次喷发的间隔时间的预报值预报下一次喷发大概在66.05112分钟后发生。这说明喷发持续3分钟时,到下一次喷发的间隔时间可能超过66.05112分钟,有正误差;也可能不到66.05112分钟,有负误差;其平均为66.05112分钟。波动的幅度,误差的范围多大?预测问题的第4步工作计算回归标准误回归模型,误差有正态分布误差标准差用回归标准误来估计。输入“=yxste(b1:b107,a1:a107)”,则得因变量y关于自变量x的回归标准误(standarderror),它等于6.68261。这就是误差标准差的估计。注意:首先输入待预报的因变量的数据b1:b107,然后输入可观察的自变量的数据a1:a107。输入的次序不能颠倒。概率与系数2816.16449.19600.15758.22816.16449.19600.15758.2%80%90%95%99)1,0(N预测问题的第4步工作给出预测误差和概率得到因变量y关于自变量x的回归标准误为6.68261之后,就可以计算预报误差:预报误差在之间的概率(比例)为80%;预报误差在之间的概率(比例)为90%;预报误差在之间的概率(比例)为95%;预报误差在之间的概率(比例)为99%。概率越大,预报误差越大,区间长度越长。美国黄石国家公园间歇喷泉的预报问题到下一次喷发的间隔时间的预报值=(10.74097×这一次喷发持续时间+33.82821)±8.56443分钟,概率80%。到下一次喷发的间隔时间的预报值=(10.74097×这一次喷发持续时间+33.82821)±10.99223分钟,概率90%。到下一次喷发的间隔时间的预报值=(10.74097×这一次喷发持续时间+33.82821)±13.09792分钟,概率95%。到下一次喷发的间隔时间的预报值=(10.74097×这一次喷发持续时间+33.82821)±17.21307分钟,概率99%。使用回归模型进行预测的4个步骤①收集数据;②画散点图判断变量之间有没有相关性;③计算斜率和截距的估计,得到回归直线,给出预测值;④计算回归标准误,给出预测误差和概率。画散点图判断变量之间有没有相关性这个步骤能否省略?异常值异常值强影响力观察值异常值强影响力观察值成对数据有n对观察数据:变量一的(样本)均值、方差和标准差。变量二的(样本)均值、方差和标准差。计算变量一和变量2的(样本)相关系数:“=correl(起始格:终止格,起始格:终止格)注意:输入的次序可以先变量一,然后变量二。也可以先变量二,然后变量一。输入的次序可以颠倒。相关系数变量一和变量二的相关系数与量纲(单位)没有关系,其值一定在1和−1之间。变量一和变量二正相关时,相关系数大于0。相关系数越接近1,变量一和变量二就越正相关。变量一和变量二负相关时,相关系数小于0。相关系数越接近−1,变量一和变量二就越负相关。总之,越大,变量一和变量二就越相关。变量一和变量二相互独立时,相关系数等于0。相关系数越接近0,变量一和变量二就越相互独立。父亲及其成年儿子的身高著名统计学家KarlPearson(英国,1857-1936)曾进行了一项研究,研究家庭成员间的相似性。作为这项研究的一部分,他测量了1078个父亲及其成年儿子的身高。经计算,父亲平均身高为68英寸(即172.7cm),标准差为
本文标题:第七章 相关与回归分析概要
链接地址:https://www.777doc.com/doc-3618095 .html