您好,欢迎访问三七文档
HowtoLiewithStatistics作者:[美]达莱尔·哈夫HowtoLie,Cheat,Manipulate,andMisleadusingStatisticsandGraphicalDisplays.(Also,howtodoitright,andmostimportantly,howtotellthedifference!)蒙提霍尔问题MontyHallproblem参赛者选择汽车(1/3概率)参赛者选择A羊(1/3概率)主持人挑出任一只羊主持人必须挑出B羊参赛者选择B羊(1/3概率)主持人必须挑出A羊参赛者最初选择时有1/3的相同概率选择汽车、A羊和B羊,转换后的获胜概率为2/3。霍桑效应HawthorneEffect霍桑研究是一系列对工人在改善各种条件下(薪酬、照明条件、工间休息等)其生产效率变化情况的研究。研究人员尝试增强照明,观察它是否有助于提高流水线工人的生产率。研究人员首先检测了工厂的生产率,尔后改变车间的照明强度,观察结果。结果是生产率在实验环境下的确提升了。该实验中生产率的提升不是因为照明强度的改变,而是因为工人们发觉他们被围观了。霍桑效应是心理学上的一种实验者效应,是指当被观察者知道自己成为被观察对象而改变行为倾向的反应。《统计数字会撒谎》序言1.内在有偏的样本2.精心挑选的平均数3.没有披露的数据4.毫无意义的工作5.令人惊奇的图形6.一维图形的滥用7.不完全匹配的资料8.相关关系的误解9.如何进行统计操纵10.如何反驳统计资料1.内在有偏的样本我们来看一则以前的新闻报道,“1924级的耶鲁毕业生平均年收入为25111美元。”好家伙,这些人干得真不赖!大家都把孩子送去耶鲁和牛津吧,那就是高薪的代名词,年纪轻轻就能享受幸福的生活。调查显示90%的人愿意回答调查问卷?这调查问卷基本是那些现在还能取得联系而且愿意回答这些问题的人“垄断”,基本没什么意义。1.内在有偏的样本人们在回答问题的时候也不会真的说真话,可能会美化自己的形象,或者迎合提问者的偏好。所以要想真的使统计数据有效,不要问别人他们会怎么做,想办法调查他们已经做了的。男性平均有3.6个性伴侣,女性则只有1.6个。结论:男生真的是花心?无论如何,只要有可能的误差(有形的无形的),你都应该对结论保持怀疑的态度可以刻意造成的误差:你调查问卷的年龄层,调查地点(大商场大多年轻人,高级酒店大多商务人士),调查时间(早、晚,四季)从总体中抽出的样本(第一次抽样)远不能称为随机抽样,因此可能对所有的总体都不具有显著的代表性。1.内在有偏的样本样本足够大,选择方法正确,在大多数情况下能够很好的代表整体有的人填了调查问卷,但是更要关注那些没有填写调查问卷的人统计中会出现两种趋势:夸大和缩小。两种趋势相互抵消的可能性极小。一般,一种趋势会强过另一种趋势,我们很难猜测哪种趋势胜出被调查的样本是否具有代表性,是否能代表未参加调查的样本人们不一定说的是真话根据样本得到的结论,不会比样本更精确。看到精确的统计数据时,要思考统计的过程是什么样的1.内在有偏的样本为了确保结论有价值,要采用有代表性的样本,这样才能排除各种误差心理学家说:人都点神经质从病例的数量来看,确实可以证明但病人在正常人中的比例是多少,正常人是不看心理医生的只要有可能产生误差,你就有必要对结论保持怀疑最基本的样本是随机样本,它是指完全遵循随机选择从总体中选出的样本。总体即形成样本的母体随机样本的检验方法是,总体中的每个名字或事物是否有相同的几率被选进样本纯随机样本有足够把握经受统计理论审查的样本样本选取难度大,成本昂贵分层随机样本准备好内部所有单位的名单,调查被随机抽中的单位民意调查带有一定方向的误差2.精心挑选的平均数富有的邻居:一个人声称社区平均收入为$150,000,同时另一个人则说社区平均收入是$35,000,二者都为真,是否可能?NeighborhoodIncomesGarnett$1,000,000Jackson$225,000Nelson$80,000Olson$60,000Smith$40,000Jones$30,000Howard$20,000Johnson$20,000Hamlin$15,000D’Amario$10,000Mean$150,000Median$35,000Mode$20,0002.精心挑选的平均数算数平均数(Arithmeticmean)中位数(median)众数(mode)正态分布的钟型曲线,三种数落在相同点上例如人类身高,体型长尾曲线,三种数值相差甚远收入的中位数,一般人挣得比它多,一半人挣得比他少说到平均收入时,首先要问问是什么平均,包括哪些人3.没有披露的数据“自从使用了多克斯牌牙膏,我们的蛀牙减少了23%。”让我再引用一篇文章的标题——《现在就来预测孩子将来长多高》。“只需要利用现有的身高,再查表中的比例即可。”标题如是写道。没有比这个“23%”和“身高表”更无聊的广告和报道了!可他们看起来是如此的煞有介事,问题出在哪?没有被披露的:1.样本容量2.实验过程3.事物整体范围的全距和与平均数偏离水平的数据3.没有披露的数据不充分的样本…统计角度的不充分数量小的样本,存在偶然因素信息来源的显著性程度,5%的显著性意味着有95%的概率保证是正确的要注意没有披露的数据另一种没有披露的数据:表明事物的变动范围和给定平均数的偏离水平正常的事情与期望的事情不能混为一谈;正常经常被误解成好的,对的,应该如此的等价物4.毫无意义的工作彼得和琳达做了公认最好的智力测验——斯坦福-比内测验,结果是琳达的智商为101,彼得的只有98。专家告诉我们智商的平均数是100,即100意味着“正常”。于是进一步推断,琳达是比较聪明的孩子,彼得是个笨孩子。假定测量的误差是3%,这样一个孩子的真正智商可能是98±3,也即95到101;而另一个孩子的真正智商可能是101±3,也即98到104,而且在此区间内的分布是相同的。在这种情况下,其实还有不小的可能那个“智商低”的孩子的智商比那个“智商高”的孩子要高。4.毫无意义的工作智力测试只是智力水平的抽样,智商值也具有统计误差,误差值将衡量该数值的准确度和可信度可能误差和标准误差,可以定量衡量你的样本以多大的精度代表总体任何抽样结果要注意它的范围所有抽样统计都有误差,并且不可忽略只有差别有意义时,才能称之为差别5.令人惊奇的图形一张图告诉你朴实的10%的增长,而另一张却看起来是让人振奋的100%的增长,别怀疑你的眼睛,截然不同的两幅图说的可是同一回事!“Oregon'sSATclassof2004againscoredsecondinthenationontheSATamongthe23statesthathadatleast50percentoftheirhighschoolgraduatestested.”Washington,aNorthwestrivalinSATtestperformance,outperformedOregonbythreepointsonthemathsectionandonepointontheverbalsectionofthetest.Source:OregonSchoolBoardAssociation20045.令人惊奇的图形直线类图形可以显示趋势改变一下横纵坐标的比例,就可改变图形图形更具有客观性的幻觉6.一维图形的滥用数字是2∶1,但视觉效果却是8∶1。嘴上说的是1.5倍,看起来却是3倍……或许你正在被这些图形所振奋着。6.一维图形的滥用柱状图也具有欺骗性使用钱袋的形象,虽然长宽高都是1:2,但给人的感觉是体积感,显示数值的比例是远远大于1:2的7.不完全匹配的资料一篇来自著名实验室的报告:在11秒钟内仅仅半盎司该药的剂量就杀死了试管中31108个细菌。随处可见某种榨汁机的广告:某品牌榨汁机,经过实验室的证明,该机榨汁功能增强了26%,并且得到了某某研究院的推荐。对著名内科医生香烟品牌的调查结果:27%的被调查者选择了喉宝——该品牌的比例高于其他品牌。听起来真不错,这是货真价实的“挂羊头卖狗肉”。7.不完全匹配的资料当无法证明某件事时,证明别的事情,并假装他们是一回事不完全匹配的资料很容易糊弄人事情表里不一,特别是在民意调查中留心财报中大的惊人的利润,和隐藏在其他名目下的利润许多不相匹配的数据不是故意欺骗,而是被报道故意歪曲通过照片对比也可以制造不匹配8.相关关系的误解抽烟与大学成绩;独身与上大学;身上的跳蚤与健康;房屋顶上白鹤鸟巢的个数与荷兰某个家庭中已出生孩子的人数;马萨诸塞州长老教会会长的收入与哈瓦那朗姆酒的价格……是风牛马不相及?还是亦步亦趋、息息相关?真实的结果一定让你大跌眼镜。8.相关关系的误解两个事物之间的关联关系并不能用于说明其中一个将引起另外一个的变化谬误:如果b紧跟着a出现,那么a形成了b抽烟导致低分?两个因素并不互为因果,而同为第三个因素的产物也许性格与分数相关,也许内向性格的学生更爱抽烟用相关系数证明事物之间的关联8.相关关系的误解一种相关是由偶然性产生的很小概率发生的事情,可以用很小的样本证明一种相关是互为因果收入越多,买的股票越多;买的股票越多,收入越多一种相关是所有变量相互间没有影响,但是存在显著的关系抽烟多与成绩低之间的关系,但可能涉及第三因素:性格超过相关关系的数据范围而得出的结论雨多,谷物长得好;但是要是下连续下暴雨呢不能超过度一种趋势通常不是一对一的理想关系有些可以证明是正相关,但是同样也可以证明其毫无意义数据是真实的,但是未必能得出一个可以证实的结论,也许完全建立在假设之上在胡乱使用相关性时,要分辨这种相关是事件变迁的产物或时代趋势的产物9.如何进行统计操纵怎样在一年内获得22500美元的总收入?你只需1个妻子(或丈夫)和13个孩子。“现在就购买圣诞礼物,你将节省100%。”精明的商家居然成了圣诞老人,开始免费馈赠了。有些人很害怕你知晓其中的“技巧”。斯坦福大学讲义示例MenWomenHistory1/52/8Geography6/84/5University7/136/13某大学历史系和地理系招生,共13男13女报名。历史系:5男报名,录取1男;8女报名,录取2女。地理系:8男报名,录取6男;5女报名,录取4女。整个学校统计:男生录取率(7/13)高于女生(6/13)按系统计:每个系的女生录取率却都高于男生录取率。9.如何进行统计操纵使用地图说明数据,会歪曲隐藏一些数据未经解释的平均数,不必在意小数可能只是近似,同样不太靠谱建立在小样本容量的百分数会产生误导,直接给出样本容量将更有意义变换基数还能产生增加折扣的幻觉把一些看似能相加的东西加起来,会产生大量的欺骗百分数不能随意相加10.如何反驳统计资料谁说的首先来找有意识的偏差当提到权威人士的时候,应看内容是不是权威的,而不是仅仅扯上大名他是如何知道的看样本是否有偏样本是否足够大,以保证结论值值得信赖最简单的层级,在查阅统计报告之前首先应该关注的是报告出处以及数据来源。以工业品和消费品为例主要的数据来源如下所示:10.如何反驳统计资料关于数据的来源我们需要注意四点:(1)数据发布机构是否权威?(代表性)国研网:行研报告,各类数据。国家统计局数据库:宏观数据、金融、教育、行业数据等,包含国家一级、31个省以及200多个市的数据。《中国统计年鉴》:历年统计年鉴以及普查数据、专题数据等。UnitedNationsStatisticsDivision:联合国数据库Data|TheWorldBank:世界银行数据库FederalReserveEconomicData:美联储数据库SocioeconomicDataandApplicationsCenter:美国航空
本文标题:统计数字会撒谎
链接地址:https://www.777doc.com/doc-5135468 .html