您好,欢迎访问三七文档
统而计之——统计的故事统计及应用统计简介什么是统计(一)•Statistics•StateCarlFriedrichGauss(1777.4.30-1855.2.23)什么是统计(二)•统计学的定义•统计的起源统计的定义•统计学是收集和分析数据的科学与艺术(不列颠百科全书)•数理统计学是数学的一个分支,它是一门用有效的方法收集和分析带有随机影响的数据的学科,且其目的是解决特定的问题(陈希孺院士)•数理统计是一门应用性很强的学科,它是研究如何有效地收集、整理和分析受随机影响的数据,并对所考虑的问题作出推断或预测,直至为采取决策和行动提供依据和建议的一门学科。(茆诗松)统计学的起源(一)中国在周朝就设有统计官员,称为司书。设立“司书上士二人,中士四人,府二人,史二人,徒八人。”负责“邦之六典……,以周知入出百物,……,以知田野夫家六畜之数。”(见《周礼·天官·冢宰》)统计学的起源(二)《管子·问》中提到65个问,即65个调查科目,均为管理国家所需要的数据。比如,“问少壮而未胜甲兵者几何人?”“为一民有几年之食也?”等等。(平均数、众数?)统计学的起源--女士品茶试验20世纪20年代后期,在英国剑桥的一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学精英们,对这位女士的“胡言乱语”呲之以鼻。然而,在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很有兴趣。(实际上这位女士正确地分辨出了每杯茶)返回统计学的起源•对人口作统计,无论在中国还是在西方在公元前已开始,目的在于征税和征兵.用统计方法研究社会问题开始于17世纪.•格兰特(1622-1674)研究了伦敦的死亡记录,总结在《关于死亡公报的自然和政治观察》(1662)一书中.•此书对后世影响很大,一些统计学家建议,以该书的出版日作为统计学的诞生日.返回•统计学中最重要的一种曲线——正态曲线大约在1720年由法国数学家棣莫弗(1667-1754)所发现.正态曲线有很大的普适性,可用来描述自然科学与社会科学中的许多现象.•优生学的奠基人——英国的高尔顿在身高和智力遗传研究中得出结论:人的生理结构是稳定的,所有有机组织都趋于标准状态.这种效应称为回归效应.返回什么是统计(三)•统计学是关于收集数据与分析数据的学问.•数据来源于社会问题,比如•1.考虑一年每一日的平均气温;•2.考虑南昌市居民的平均收入;•3.某一只股票价格的走势;•………返回什么是统计(三)接下来我们会遇到几个问题:•1.数据怎么来的?•2.怎么去处理这些数据?•3.怎么样从数据中得到一定的信息?•4.得到的信息对我们的生活是否有特殊的意义?返回什么是统计(三)其实本质问题只有两个:•1.统计学能解释什么样的社会现象?•2.怎么样才能把社会现象解释清楚,完善处理?•这是统计学的任务,也是数十年来统计学家们追求的目标。返回什么是统计(三)•描述性统计(descriptivestatistics)•数理统计(mathematicalstatistics)返回什么是统计(三)•数理统计是现代统计的本质内容;•处理带有随机因素的数据;•主要分为参数统计推断(parametricstatisticalinference)和非参数统计推断(nonparametricstatisticalinference),非参数统计推断在现代计量经济,数理统计,金融研究中扮演着重要的角色;返回什么是统计(三)•点估计理论;(PointEstimation)•区间估计理论;(IntervalEstimation)•假设检验理论;(HypothesisTesting)•方差分析理论;(VarianceAnalysis)•相关分析理论;(CorrelationAnalysis)•线性回归分析;(LinearRegression)返回数据是什么?Data=¥¥数据的妙用(一)数据的妙用(二)数据的妙用(三)什么是统计(四)•SirRonaldAylmerFisher(1890.2.17-1962.7.29)•B.A.inMath.,CambridgeUniversity,1912•RothamstedExperimentalStation,1919-1933•ProfessorofeugenicsatUniversityCollegeLondon,1933-1943•BalfourChairofGeneticsatCambridge,1943什么是统计(五)实际问题数据收集试验设计抽样调查数据分析统计方法(估计与检验)结论建议与讨论什么是统计(例子)什么是统计(例子)实验设计对照实验总是做得对。将使一些人满意,而使其余的人惊讶。-------马克·吐温(1835-1910)基本概念一种新药的问世,怎样设计一个试验来测试它的效果呢?最基本的方法是比较。将药分给处理组病人,而把其他病人作为对照。病人将以随机的方式被分到处理组和对照组。脊髓灰质炎疫苗的现场试验1916年第一次脊髓灰质炎第一次袭击了美国。此后的四十年,在美国造成了成千上万的受害者,特别是儿童。这种疾病在我国通常被称作小儿麻痹症。到上世纪五十年代,才发现这种疾病的疫苗。脊髓灰质炎疫苗的现场试验JonasSalk培育的疫苗似乎最有希望。在实验室中,这种疫苗被证实是安全的。但还是需要大量临床试验去证明疫苗的疗效。1954年美国公共卫生总署决定组织这样一类试验共有200万名儿童被牵扯进这次试验。脊髓灰质炎疫苗的现场试验其中50万接种了疫苗,一百万故意不予接种,另外50万拒绝了试验。这就说明了对照方法。据此进行试验。试验中首先出现的问题是避免偏性。混淆是偏性的主要来源。脊髓灰质炎疫苗的现场试验为避免造成偏性,最终的方案是在同一年级的小学生中父母同意进行试验的人群中进行对比试验。还有一点需要注意,那就是双盲。静脉吻合分流术在肝硬化病例中,病人可能开始出现出血且直到死亡。所谓静脉吻合分流术是运用外科手术的办法使血流改变方向来避免出现死亡。得益是避免死亡。风险是花费时间且危险。静脉吻合分流术设计显著中等无无对照2471对照,但并不随机1032随机对照试验013观察研究你在那里所经历的不是一个实验,而是一种经验。R.A.Fisher爵士观察研究观察研究与对照研究的区别。一个例子就是吸烟对健康的危害。研究者的工作就是分离偏性。问题在美国,1985年所有病例中有210万人死亡,但是1960年只有170万,几乎增加了25%,是不是说明公众的健康状况变糟糕了?十八世纪,通过给病人放血去治疗黄热病是一种常用的方法。当时一名著名的医生在日记中写到:我从每一次抽少量的血开始。血的显露以及放血对身体的效应使我相信放血治疗的安全性和有效性。在这之前我从未经历过像现在那种在期待我的治疗成功中所感受的异常的兴奋。…….感谢上帝,在我出诊或给予配方的100个病人中,至今无人不幸。注意试验的主要任务是去掉偏性。这和样本空间以及简单随机抽样的定义是一致的。关联性不等于因果关系抽样抽样调查“数据!数据!”他不耐烦地喊道,“我不能做无米之炊.”-------SherlockHolmes基本概念通常存在着调查人员需要知道的关于总体的某些数值特征,这些数值特征称为参数。在预测美国总统选举中,有关的两个参数是:·全体合法选民的平均年龄。·当前登记投票的全体合法选民的百分数。参数由统计量或可根据样本算得的某些数值估计.两个重要问题:·选取样本的方法至关重要.·最好的方法包含有计划地应用机会.文学摘要民意测验1936年选举年,Roosevelt与Landon竞选下一任总统.文学摘要预测出现重大误差.反思:犯的两个错误1.选择偏性(以电话簿上的地址和俱乐部成员名单上的地址)文学摘要民意测验启示:当选择程序有偏时,抽取一个大的样本并无帮助.这只不过是在较大的规模下去重复基本错误.2.不回答误差(发出1000万封信,收到回信200万封)启示:不回答者可能非常有别于回答者,当出现高不回答率时,谨防不回答偏差.民意测验Dewey选举年三家主要的民意测验机构都预测失误.他们选取样本的方法:定额抽样方法当时的共和党人比民主党人较为富裕并受过较好的教育,相对较易访问.启示:在定额抽样中,样本被精心挑选以使在某些关键特征上与总体相似.这方法似乎合理,但并不怎么奏效.原因是无意的偏倚.统计与数学的区别统计与数学的区别统计与数学的区别统计学数学出发点数据定义和公理研究方法归纳演绎评价方法好与坏对与错统计与数学的区别统计在工业上的应用(一)•StatisticalQualityControl(Online)•TaguchiMethods(Off-line)•6SigmaMethodsBeginner,Blackbelt,Masterblackbelt,Greenbelt,Champion,Executive•ReliabilityStatisticalProcessControl(一)StatisticalProcessControl(二)ShewhartChart-3-223-3TaguchiMethods(一)TaguchiMethods(二)•SystemDesign•ParameterDesign•ToleranceDesignQualityissquaredlossfunction!6SigmaMethods•西格玛方法被引入摩托罗拉公司1987制定1992应达到西格玛目标1988马科姆·鲍德里奇全美质量大奖1991引入“黑带创意”1992每两年减少缺陷十倍,运作周期每五年降低10倍。1998公司重组1999行为准则,追求卓越和平衡的记分卡2002西格玛业务改进摩托罗拉公司六西格玛的发展2003数字六西格玛散布1规格上限规格的下限减少散布是6的核心。平均目标(Target)p(不良率)什么叫SixSigma?缩小不良的核心是减少散布。记号前的数值(Z值)越大,不良发生概率越小。目标目标规格限规格限不良可能性减少的不良可能性六西格玛近乎完美平均值每10亿零件中有2个零件Cp=2规范下限规范上限缺陷缺陷“西格玛水平”的定义是......利用统一的衡量尺度对“优秀”的测量。345676681062102333.4.02西格玛DPMO(百万出错机会缺陷率)•每年至少54,000次用药错误处方。•每周每电视频道出现27分钟的播出故障时间。•每天奥黑尔国际机场发生五次过短或过长着陆。•二十五年才有一次用药错误处方。•每周每电视频道出现2秒钟的播出故障时间。•全美国所有机场十年才发生一次过短或过长着陆。六西格玛品质等于三西格玛品质等于六西格玛好比什么...2西格玛-每轮6次不入洞.3西格玛-每轮1次不入洞.4西格玛-每9轮1次不入洞.5西格玛-每2.33年1次不入洞.6西格玛-每163年1次不入洞!!!每年100轮高尔夫球赛六西格玛好比什么...六西格玛方法是...•一种推动业务改进的总体性方法。•一套用以推动和实现某一组织内部过渡变革的、经实用检验的成套工具。•一次重点在于如下内容的持续改进过程:顾客需求,过程统一,严谨分析,及时执行。DMAIC与过程改进路线图1.0界定机会2.0衡量业绩3.0分析机会4.0改进业绩5.0控制业绩什么是最重要的?我们现在做得怎样?错在哪里?需要采取哪些措施?我们如何保证业绩?DMAIC界定(Define)什么是最重要的?测量(Measure)我们目前做得怎样?分析(Analysis)错在哪里?改进(Improve)需要采取哪些措施?控制(Control)我们如何保证业绩?
本文标题:统计的故事
链接地址:https://www.777doc.com/doc-7955221 .html