您好,欢迎访问三七文档
大数据那些事目录大数据时代1.背景历史、时代2.认知定义特点思维3.应用全方位大变革4.未来机遇挑战5.思考正在发生的未来6.学习菜鸟进阶2001年Gartner研究指出,现代信息社会的信息爆炸已经演变成了数据爆炸。2008年《Nature》杂志出版专刊“BigData”,分析了大量快速涌现数据给数据分析处理带来的巨大挑战。2011年《Science》推出关于数据处理的专刊“Dealingwithdata”,讨论了数据洪流(DataDeluge)所带来的挑战。5月麦肯锡全球研究院发布了《大数据:创新、竞争和生产力的下一个领域》研究报告。2012年3月奥巴马总统宣布美国政府投资逾2亿美元启动“大数据研究和发展计划(BDRDI)”。12月,维克托∙迈尔-舍恩伯格著作的《大数据时代:生活、工作与思维的大变革》。NO.1背景—历史、时代4•硬件成本的降低•网络带宽的提升•云计算的兴起•网络技术的发展•智能终端的普及•电子商务、社交网络、电子地图等的全面应用•物联网NO.1背景—历史、时代大数据时代到来的必然性:NO.1背景—历史、时代大数据时代真的来临了么?随着一系列标志性事件的发生和建立,人们越发感觉到大数据时代的力量。因此2013年被许多国外媒体和专家称为“大数据元年”。当今“大社会”,三分技术,七分数据,得数据者得天下。麦肯锡全球研究院(2011)对大数据的定义是从数据集的大体量入手的:大数据是指那些规模大到传统的数据库软件工具已经无法采集、存储、管理和分析的数据集。百度百科对大数据的定义是:大数据(BigData),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。维克托∙迈尔-舍恩伯格(2012)在《大数据时代》一书中主要从价值大的角度来定义大数据,他认为大数据是当今社会所独有的一种新型的能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。NO.2认知—定义、特点、思维大数据(BigData)的定义•数据体量巨大。从TB级别跃升到PB级别。Volume大量存储量麦肯锡估计,全球企业2010年硬盘上存储了超过7EB的新数据,消费者在个人电脑等设备上存储了超过6EB的新数据。(相当于美国国会图书馆中存储数据的4000多倍)太字节,记作TB,1TB=1024GB;拍字节,记作PB,1PB=1024TB;艾字节,记作EB,1EB=1024PB;泽字节,记作ZB,1ZB=1024EB。。。。NO.2认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、Value•数据体量巨大。从TB级别跃升到PB级别。Volume大量存储量+计算量广州超算中心16000个运算节点312万个计算核心整体总计内存1.408PB12.4PB的硬盘阵列NO.2认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、Value•数据体量巨大。从TB级别跃升到PB级别。Volume大量Velocity高速•处理速度快。1秒定律。•这一点也是和传统的数据挖掘技术有着本质的不同。数据更新、增长速度快Facebook上每秒有4.1万张照片上传,2011年以发图1400亿张成为世界最大照片库。NO.2认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、Value•数据体量巨大。从TB级别跃升到PB级别。Volume大量Velocity高速•处理速度快。1秒定律。•这一点也是和传统的数据挖掘技术有着本质的不同。Variety多样•数据类型繁多。不仅包括传统的关系数据类型,也包括以网页、音视频、文档等形式存在的未加工的、半结构化和非结构化的数据。NO.2认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、Value•数据体量巨大。从TB级别跃升到PB级别。Volume大量Velocity高速•处理速度快。1秒定律。•这一点也是和传统的数据挖掘技术有着本质的不同。Variety多样•数据类型繁多。不仅包括传统的关系数据类型,也包括以网页、音视频、文档等形式存在的未加工的、半结构化和非结构化的数据。Value价值•价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。NO.2认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、ValueNO.2认知—定义、特点、思维大数据的3个思维变革“更多”——不是随机样本,而是全体数据当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。“更好”——不是因果关系,而是相关关系知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。“更杂”——不是精确性,而是混杂性执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。商业领域社会管理领域医疗保健领域教育领域大数据公共服务电子政务企业管理商业智能生活娱乐NO.3应用—全方位大变革情报收集气候天气总统选举天文宇宙生物医学零售商电子商务NO.3应用—全方位大变革NO.3应用—全方位大变革预计2016年“百度大数据”上线对外付费试用里昂市用大数据治堵里昂市开发了一套决策支持优化器,实时地报告交通的情况,并且来侦测拥堵的时间。NO.3应用—全方位大变革利用短信、微博、微信和搜索引擎,可以收集热点事件,挖掘舆情,还可以追踪造谣信息的源头。Farecast通过对于机票数据的趋势变化情况,提供票价预测的服务,准确度高达75%,到2012年为止,Farecast系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。NO.3应用—全方位大变革NO.3应用—全方位大变革通过对全市的历史罪案以及出警纪录得出城市各种罪案高发区域,例如剁手区/掏包区/性侵区……等等,每天发布提醒,推送到市民的手机/平板等所有终端。我相信性侵区的流氓早晚会不堪重负而投案自首的。大数据在罪案预警的应用40天,36亿人次。这是2014年春运的总时间和总出行人数。在这场堪称人类历史上最大规模的短期迁徙中,人群从哪儿去了哪儿?哪些线路最热门?在以往,这些问题可能难以精确回答。但随着技术进步,通过应用“大数据”这一技术利器,人们已经接近“在迷宫中感受全局”地看见春运的全景。NO.3应用—全方位大变革大数据首次播报春运迁徙实况谷歌发现,某些搜索字词可以很好地标示流感疫情的现状。Google流感趋势使用了经过汇总的Google搜索数据库来测流感疫情。谷歌流感趋势项目NO.3应用—全方位大变革奥巴马的数据团队对数以千万计的选民邮件进行了大数据挖掘,精确预测出了更可能拥护奥巴马的选民类型,并进行了有针对性的宣传,从而帮助奥巴马成为了美国历史上唯一一位在竞选经费处于劣势下实现连任的总统。大数据帮助奥巴马成功实现连任NO.3应用—全方位大变革通过大数据你可以知道:一个学生成绩不好是由于他因为周围环境而分心了吗?期末考试不及格是否说明学生未掌握学习内容,还是因为他请了很多病假的缘故?在加拿大,教育科技公司“渴望学习”(Desire2Learn)已经面向高等教育领域的学生,推出了基于过去的学习成绩数据预测并改善未来学习成绩的大数据服务项目。通过监控学生阅读电子化的课程材料、提交电子版的作业、通过在线与同学交流、完成考试与测验,就能让计算程序持续、系统地分析每个学生的教育数据。老师得到的不再是过去那种只展示学生分数与作业的结果,而是像阅读材料的时间长短等这样更为详细的重要信息。这样老师就能及时诊断问题的所在,提出改进的建议,并预测学生的期末考试成绩。NO.3应用—全方位大变革新华社新媒体中心联合数托邦创意分析工作室抓取了新浪微博上提及“爸爸去哪儿”45.5万条原创微博,并对36.7万独立原发作者用户(去除疑似水军账户)、1300余万条用户微博及近1亿的关系进行数据分析。结果发现:《爸爸去哪儿》不仅成为名副其实的“口碑王”,还使娱乐节目发生了很多微妙变化。大爱在那儿!——《爸爸去哪儿》大数据解读NO.3应用—全方位大变革粉丝性别比例:“爸爸粉”女性占到八成。难道是因为星爸太帅?当然,这与微博中女性用户占比较高和她们更爱分享转评的习惯也有关。用户年龄分布:覆盖适龄婚育群体,观众气质更显成熟。不少适龄青年发微博称,“看到某某,我也好想结婚,想有个这样的儿子/女儿。”地区偏好排行:《爸爸去哪儿》的观众明显向GDP高地聚集。对湘派娱乐节目免疫力极强的京、沪、苏、蜀等地罕见上榜。《爸爸去哪儿》偏好度前十省份中,有5个GDP十强省份,涵盖3个直辖市。这是否能说明,一部分“先富起来”的人,对亲子关系有更深的焦虑和更多的期待?NO.3应用—全方位大变革赞助商潜在赞助商明星同类节目竞争者节目组观众大数据解读可能的受益者满足了自己“八卦”的需求。对这个节目有了深入的了解。从《爸爸去哪儿》的成功中可以学到什么?本次赞助是否成功?成功在哪里?为以后广告的投放提供了经验。了解了自己及孩子在观众心中的“热度”,为下一步转型及孩子未来的规划提供参考。根据之前的数据分析,大胆推出了低成本同名电影并大获成功!第二季的拍摄紧锣密鼓地进行着……为决策提供支持。若自己的目标客户与该节目的观众一致,可以考虑下一季的赞助。NO.3应用—全方位大变革赞助商热度:主冠名赞助商强势冒出,在几乎没有社交媒体营销配合下,微博热度强劲增长。英菲尼迪从第三期开始广告植入,话题增量立竿见影。思念水饺配合“爸爸吃神马”等互动促销,参与度有所增加。只是不知,三大赞助商的投入是否与这一结果完全契合?明星关注度:数据来自于每期节目播出后一周内5对父子的原发微博提及量(含昵称)。张亮父子低调亮相,关注度逐期上升,成功实现实现“逆袭”。NO.3应用—全方位大变革机遇•大数据技术促进国家和社会发展•大数据蓝海成为企业竞争的新焦点•大数据时代呼唤创新型人才挑战•大数据技术的运用仍有困难•大数据给信息安全带来新挑战NO.4未来—机遇与挑战大数据技术的运用前景是十分光明的。当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。NO.4未来—机遇与挑战机遇——大数据技术促进国家和社会发展大数据所能带来的巨大商业价值,被认为将引领一场足以与20世纪计算机革命匹敌的巨大变革。大数据正在对每个领域都造成影响,包括商业、经济等领域。大数据正在促生新的蓝海,催生新的经济增长点,正在成为企业竞争的新焦点。在今天的大数据时代,商业的生态环境在不经意间发生了巨大的变化:网民和消费者的界限正在变得模糊,无处不在的智能终端,随时在线的网络传输,互动频繁的社交网络让以往只是网页浏览者的网民的面孔从模糊变得清晰,对于企业来说,他们第一次有机会进行大规模的精准化的消费者行为研究:作为保持着持续变革欲望的企业,主动地拥抱这种变化,从战略到战术层而开始自我的蜕变和进化将会让他们更加适应这个新的时代,大数据蓝海成为未来竞争的制高点。NO.4未来—机遇与挑战机遇——大数据蓝海成为企业竞争的新焦点盖特纳咨询公司预测大数据将为全球带440万个IT新岗位和上千万个非IT岗位。麦肯锡公司预测美国到2018年需要深度数据分析人才44万——49万,缺口14万——19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。中国是人才大国,但能理解与应用
本文标题:大数据那些事
链接地址:https://www.777doc.com/doc-6919798 .html