您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 五点解析:大数据与传统数据的核心区别
五点解析:大数据与传统数据的核心区别大数据表面的含义是“是很大的数据”,但主流的对大数据的定义是”无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集“。那传统数据的定义反着来进行,比如,可以用spss处理的数据就是传统数据。大数据确实是,一般都很大,多是些网页,音视频等,但大的不一定就是大数据,传统数据也可以做的很大。目前对大数据的范围认定有泛滥的趋势,把很多传统数据的事说成跟大数据有关。比如,啤酒和尿布案例,超市预测女孩怀孕案例(美国一家零售商比一位女孩的父亲更提早知道其上高中的女儿怀孕的消息)。先不说这些案例的真假,准确与否,从类型上看,这些案例是典型的传统数据并进行了分析,与大数据没有任何关系。只不过这些案例应用了关联分析(或相关分析),但绝对不能说用了关联分析就是大数据。这些数据都来源于零售POS机里的数据,是非常传统的数据,跟大数据真是不沾边。上面这个事实说明,一些人利用传统数据及分析思路来宣传和美化大数据,这本身就揭示,大数据与传统数据本身就没有特别本质的区别。我们来看看人们总结的几个大数据的核心特征。1.所谓的要相关不要因果,或者说大数据用来发现,而传统数据用来实证。一方面,并不是大数据才用相关,大量的传统数据,也是只能用相关来分析。比如,印度的统计学水平一直很高,在几百年前,有一个村子流行霍乱(当时还未发现这种病,可能世界也不懂病毒和细菌),人们不知所措。但统计学家通过收集数据发现,得病的人多数都喝过一口井的水,和这口井相关。封闭这口井以后,霍乱渐渐不再流行。尽管人们不知道霍乱和病毒之间的因果水平,但运用相关原理,还是取得了较好的效果。这就是在传统数据中运用相关。为什么在传统数据我们大量的应用相关而不用因果关系呢?有一个小故事说明了这个道理:一个人在黑天丢了钥匙,他跑到路灯下找来找去。人们问是否在路灯下丢了钥匙,他也不知道丢在哪了,哪都可能。那干嘛不去别的地方找找?其实不能去别的地方找,别的地方没路灯,只能在这找找了。传统数据也是这样,传统数据多数没设计成因果关系,或者受科技水平所限,不能进行因果分析。比如,如果房间里丢钱了,那么谁会偷钱呢?现在我们只知道每个人的富裕程度,在这种情况下如果一定要判断谁偷了钱,那么一般情况下就说穷的人偷了,这里面可能有一定的相关关系,进行数据分析只能到这了。但是在法院里不能这样判案,要进一步寻找证据。但是在企业做决策时,往往没有特别充足的数据来进行论证,在这种情况下也只能用相关分析进行大致的决策。因此,要相关,不要因果,不是不要,而是不能。对于大数据和很多传统数据分析,都是只能用相关,而不是用因果。传统数据一样会有大发现,而不仅仅是实证。比如,生男生女的概率并不一样,生男的概率大约是0.51,而生女的概率大约是0.49。为什么会这样,现在科学完全发现了这里的因果关系。这里面的道理跟男女的染色体组成差异有关。但是,在几百年前,染色体被发现之前,统计学家就发现了生男生女之间的比例关系,与利用染色体进行理论推断几乎一样。众多的事实说明,传统数据分析的一项重要任务就是进行发现,而不仅仅进行实证分析。另外,大数据过于强调相关也可能落入陷阱。因为大数据内有着复杂的关系,很多看着相关的关系,可能仅仅是假象而已。2.所谓的大数据很“大”,这会带来很大的好处。2014年美国总统办公室在一篇文章中,用一个例子说明了大数据的好处:在一项基因研究中,研究一种疾病与对应基因的关系(较小概率疾病)。当样本数量是3500个时,疾病这种基因的关系完全无法显示出来;当使用10000个样本时,只有轻微的关系;如果样本达到35000个时,疾病与基因的关系便突然显示出来了。这些道理说的都非常对,但这些道理在抽样理论中都说的很明白了,在传统数据研究中有时要求的数据量会非常大,但有时只要很小,可能全国抽查1千个就可以。比如,在50年代,人们研究出了小儿麻痹疫苗,最后要进行人体试验,看疫苗的效果。研究方法是因果研究,将试验的孩子随机分成两组:一组注射疫苗,一组注射安慰剂。那么这两组各需要多少人呢?1千人够不够?那肯定不够,因为小儿麻痹是一种较小概率疾病,如果只选1千人,那结果可能是两组人群都没有得病,或者是都只有几个人得病,看不出差异。最终,一共用40万人参加实验,每组20万人。结果是,注射了疫苗的组最终大约有60人得病;注射了安慰剂的组最终大约有150人得病,因此,疫苗是有效的。对于很多研究,比如全国民意研究,可能要不了这么多数据,1千多可能也够。而且,如果我们就是要研究比如环亚人对汽车的偏好,那整体就70多人,哪来的大数据,普查也不过70多条数据。因此,该大就大,该小就小,所谓的大就好是一种偏见,而且大数据中固有的偏差,是一种几乎不可能解决的弱势。3.大数据是“全数据”,而传统数据是一种抽样数据。我看大数据不是任何意义上的全数据,这是大数据研究者自己往脸上贴金,不能把能收集到的数据就叫全数据。传统数据也有各种各样的数据,也不一定就是抽样数据。4.传统数据是研究历史数据,大数据是预测,有类似的说法。完全不是这样。谷歌设计了大名鼎鼎的流感预测系统,其原理非常简单:如果在某一个区域某一个时间段,有大量的有关流感的搜索指令,那么,就可能存在一种潜在的关联:在这个地区,就有很大可能性存在对应的流感人群,相关部门就值得发布流感预警信息。其实,也需要通过分析历史数据来发现流感的搜索指令数量和流感人群数量的相关性。预测都是分析历史数据来对未来进行预测,我们不能想当然的认为搜索数量和流感病人数量相关。另外,这个系统实际上是比较失败的,预测的准确度那是相当的差。因此,以为大数据就可以仅仅依靠简单的关系来进行预测的想法是天真的。大数据和传统数据,与预测的准确性没有关系。5.大数据是多样性、多来源的数据。其实,在很多情况下传统数据也要多来源。比如,不能只调查有钱人,也要调查无钱的人。基于实用性,对大数据提出以下看法:1、大数据存在一定的偏差和弱势,一些研究只能用传统的调查方法做。比如,美国总统选举的民意支持率调查,台湾总统的民意支持率调查等等,都是用抽样方法进行的,没听说过用大数据来做。这么重要的调查,没有大数据的份,只能说明大数据一定有固有的弱势,有偏差。2、大数据和传统数据两者不是替代的关系。现在看不到研究说,大数据中包含的信息,能够涵盖传统数据,这个要有实证。比如,要研究一款新车,问卷中的相关信息是否可能在大数据中找到(先不考虑技术)?总之,大数据和传统数据就像两个矿山,都能挖出好东西来。多数分析方法都适合两种数据(但是技术不同,现有的数据库技术不能分析大数据)。特别是大数据,闲置也是浪费,进行分析得到价值总是好的。对大数据要持开放的态度,更好的利用大数据。也不能说大数据不能进行洞察,设计好了一样能洞察。研究大数据要数学家、经济学家、统计学家一起合作,才能真正把大数据有效的进行实用化。
本文标题:五点解析:大数据与传统数据的核心区别
链接地址:https://www.777doc.com/doc-1450518 .html