您好,欢迎访问三七文档
数据陷阱,你中招了吗?真实的谎言(一)大数据时代下,人们更愿意用数据去说明一些问题。然而,你知道吗?这些数据也会“说谎”。这个“谎言”,并不是说数据是假的,这个数据是真实的,每一个事实也都是真的,但是在不知不觉中,你已经落入了它的陷阱,成功地被它欺骗了。让我们一起看看下面的“数据陷阱”,你有没有中招~如果你生病了,医生给了你两个治疗方案:A治疗方案的痊愈率是69%,B治疗方案的痊愈率是64%,你会选择哪一个?当然是A治疗方案。不好意思,你选错了。看一看下面这张表,你可能就明白了。虽然治疗方案B的整体痊愈率要低于治疗方案A,但是无论是病情比较轻,还是病情比较严重,痊愈率都比A要高!这是某公司的招聘数据:大家从表格上可以看到,如果只看整体的录取率,那么男性的录取率是20%,女性的录取率是18%。根据数据我们会轻易得出结论--在招聘时该公司歧视女性。但是,如果把上面的数据按照职位拆分,再来看看招聘情况呢?整体上看确实是有性别歧视的存在,但是分开各个岗位来看,女性比男性的录取率还要高!所以你看,数据是真实的,然而你却被它欺骗了!数据资料仿佛天然拥有最神奇的化妆技巧,只要略施粉黛,就会得以巧妙的伪装。数据陷阱:辛普森悖论这是统计学中一个经典的悖论--辛普森悖论。1951年,英国著名统计学家E.H.辛普森提出了一个统计学现象:在某个条件下的,分组分别讨论和整体合并讨论,会得出两个截然相反的结论。出现这种现象的原因在于:总体和部分在结构上有很大的差异性。这也是我们经常看到的单因素和多因素关系的原因。比如,你是一家集团公司的总裁,在北京和上海均有业务,你要根据市场占有率情况进行重大的战略调整。两地的市场占有率如下表。所以,你会判断上海市场的业务要优于北京市场的,对么?此时,只考虑了地区的差异,把所有的数据看成了整体,看似确实是上海市场的业务优于北京市场。但如果考虑多因素分析,根据各项业务实际占有率,你会惊奇地发现:产品M的市场占有率,北京(49.33%)高于上海(47.13%),产品N的市场占有率,北京(40.4%)也同样高于上海(40%)。例如市场占有率的案例,仔细观察北京上海的两组数据,你会发现,两个地区的业务构成比重是有所差异的。当考虑的情况太少(如把地区看作整体)就可能发生“辛普森悖论”,而多因素分析考虑了多种情况(如根据业务因素进行分组分析),就成功跳过了陷阱。★在数据分析中,多多利用大数据,进行多因素分析。若要进行相关测算,应该考虑适当的权重。分析云可以帮助企业进行多因素分析,避免企业在做决策时做出错误的判断。就如上述第二个案例,是否男女性别差异是导致了录取结果的差异呢?这种情况,需要通过相关性分析进行进一步判断,不能轻易将统计中的偶然重合当作因果关系下结论。★在分组或多因素分析时,进行相关性分析,避免将统计中的偶然重合当做因果关系。这么一看,算术变成了魔术,数字变的有了魔力。所以,我们要练就火眼金睛,不要被“真实的谎言”所蒙骗,陷入早已布好的陷阱中。数钥分析云,助力企业数字化转型升级!
本文标题:真实的谎言(一)
链接地址:https://www.777doc.com/doc-7895487 .html