您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据时代2016资料
大数据时代2016一、引言第一次信息革命第二次信息革命第三次信息革命第四次信息革命第五次信息革命第六次信息革命语言的创造猿→人信息得以交流和传递文字的出现信息可以被储存在文字中进行传播,解决了语言的时间和空间的局限性印刷术的发明扩大了信息的交流、传递的容量和范围无线电的发明电磁波传播信息,速度增长几十亿倍电视的出现声音、图片影像、文字实现同时远距离实时传播(摘自人民出版社《大数据领导干部读本》)计算机与互联网的使用突破了人类大脑及感觉器官加工利用信息的能力,人类进入信息社会时代第七次信息革命?现在我们正经历着一场信息革命。这不是在技术上、机器设备上、软件上或速度上的一场革命,而是一场“概念”上的革命。以往50年信息技术的重点在“技术”上,目的在于提升信息传播范围、传播能力和传播效率。而新的信息革命的重点将会在“信息”上。——彼得·德鲁克《21世纪的管理挑战》马云:天变了!!!二、大数据时代到来1.马云建“菜鸟”物流(一)案例——大数据里看网购2.阿里巴巴支付宝正式推出“余额宝”3.“双十一”创造了一个消费时点2013年11月11日,支付宝成交额达350.19亿元,刷新2012年“双十一”创下的191亿元的纪录,增加了83%,支付宝1.88亿的总交易笔数也远2012年的1亿笔。1小时67亿,6小时不到突破100亿;13小时实现191亿,追平2012年成绩;21小时达到300亿,超过阿里官方预期……350亿元,这一数字是2012年美国“网购星期一”121亿交易额的近三倍。而2013年10月份,我国日均的社会消费品零售额为693亿元,阿里的350亿超过了这一日均规模的50%。河南电商“双十一”统计数据河南电商“双十一”统计数据2013年11月11日,河南“双十一”总消费额为12.99亿元,排名全国第十,逸阳旗舰店单店突破2500万元,淘宝女装行业排名27位。更令人兴奋的是,河南网商园入园的21家电商销售额总计突破2亿元,创造河南网商新标杆。天猫双十一交易额571亿元河南成为十大“土豪”之一“双11”当天的火车站附近堪比周末、节假日广东、浙江、江苏、上海、山东、四川、北京、湖北、湖南、河南571亿的构成:移动终端42.6%571亿的构成:全球217个国家和地区571亿的构成:2分钟10亿14分钟50亿,30分钟85亿,38分钟100亿,60分钟122亿……571亿的构成:不含线下!571亿的构成:农村给力!2015年双十一成交额912亿元2015年双十一,其中有你多少?(视频)40天,36亿人次。这是2014年春运的总时间和总出行人数。在这场堪称人类历史上最大规模的短期迁徙中,人群从哪儿去了哪儿?哪些线路最热门?(二)案例——大数据里看春运“百度迁徙”发布的腊月二十六22时前的全国8小时最热线路图支付宝发布的春运路线热点图微信6亿人,每人每天发10个字,按每页1500字计算,产生的信息量将是400万页,如果按每本书400页计算,将是10000本书。“百度迁徙”发布的腊月二十六22时前的全国8小时最热线路图(二)案例——大数据里看微信•全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…•每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…•推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…•每天亚马逊上将产生6.3百万笔订单…•每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…•Google上每天需要处理24PB的数据…(视频)在web2.0(3.0)的时代,人们从信息的被动接受者变成了主动创造者TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。数据量增加数据结构日趋复杂这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临……三、大数据自然大数据:地球、宇宙,尤其是太空中的卫星。生命大数据:各种动物,尤其包括我们人类,这本身也是大数据。社交大数据:互联网,尤其是移动互联网。水不转,人在转。移动互联网时代的大数据挖掘主要是网络化环境下的非结构化数据挖掘,这些数据形态反映的是带毛的、鲜活的、碎片化了的、异构的、有情感的原生态数据。这种非结构化数据常常是低价值、强噪声、异构、冗余的而且是冰冷的数据,有很多数据放在存储器里一辈子没再用过。数据的形式化约束越来越宽松,越来越接近互联网文化、窗口文化和社区文化。(一)产生来源1大数据定义2大数据产业大数据是指利用常用软件工具捕获、管理和处理数据所耗时间和空间超过可容忍程度的数据集。或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软硬件工具在合理时间内达到存取、管理、处理、并整理成为帮助企业经营决策达到满意目的的信息。围绕大数据的产生与集聚、组织与管理、分析与发现、应用与服务,新兴的数据采集、数据存储、数据管理、数据挖掘、数据应用技术将不断涌现,从而形成了新的业态和新兴技术产业链。(二)大数据产业界定(三)大数据的五个特点1.类型多75%•网络日志、音频、视频、图片、地理位置信息•社交媒体中产生的数据25%“1、2、3、4”等传统数字以及符号非结构化数据结构化数据2.容量大•美国的国会图书馆5000•百度每天处理数据量根据IDC(国际数据公司)的监测统计,2011年全球数据总量已经达到1.8ZB,而这个数值还在以每两年翻一番的速度增长,预计到2020年全球将总共拥有35ZB的数据量,增长近20倍,相当于我们地球上所有海滩沙粒总数的57倍。(摘自涂子沛《数据之巅》《大数据》)截至2010年,人类拥有的信息总量大概是1.2Z存储数据量最大的图书馆之一。2011年4月,拥有235TB的数据一首歌4M×1024×1024一部电影1G×1024一图书馆藏书1T×1024谷歌每小时处理1P13亿中国人人手1本500页书的信息量总和=1E吉(G)兆(M)太(T)拍(P)艾(E)泽(Z)约为5000个美国图书馆总和•数据产生得快一台大型粒子对撞机里共有1.5亿个传感器每秒钟发生粒子对撞6亿次仅仅使用十万分之一一年积累25PB的数据1TB的硬盘×25000个剔除99.999%•数据处理速度快大数据通过云计算,以上数据储存仅需20分钟共计1PB,速度1G/s,还剩144小时已完成50%3.存取速度快4.应用价值大大数据之“大”,其实并不在于其表面的“大容量”,而在于其潜在的“大价值”。如果不能把拥有的数据转化为价值,那么拥有再多的数据也是毫无意义的。个人位置大数据服务8000亿美元的市场规模——麦肯锡研究院对美国的测算零售业大数据帮助企业增加60%的利润制造业大数据降低50%的产品开发制造装配成本5.具备大智能更加智能的社会传感器、可穿戴式设备等微小的计算设备将进一步普及“万物皆互联、无处不计算”实时收集数据确保安全行驶谷歌无人驾驶汽车大数据对于悲观者而言,意味着数据存储世界的末日,对乐观者而言,这里孕育了巨大的市场机会!1ZB=1万亿GB,2.8泽字节相当于3000多亿部时长2小时的高清电影,连着看7000多万年也看不完。(四)大数据计量单位1KB=1024B(Kilobyte千字节),1MB=1024KB(Megabyte兆字节简称“兆”),1GB=1024MB(Gigabyte吉字节又称“千兆”),1TB=1024GB(Terabyte太字节万亿字节),1PB=1024TB(Petabyte拍字节千万亿字节),1EB=1024PB(Exabyte艾字节百亿亿字节),1ZB=1024EB(Zettabyte泽字节十万亿亿字节),1YB=1024ZB(Yottabyte尧字节一亿亿亿字节),1BB=1024YB(Brontobyte一千亿亿亿字节).注:“兆”为百万级数量单位。大数据的本质还不在于“大”,而是以崭新的思维和技术去分析海量数据,揭示其中隐藏的人类行为等模式,由此创造新产品和服务,或是预测未来趋势。大数据是一种新的价值观和方法论,人们面对的不再是随机样本而是全体数据,不是精确性而是混杂性,不是因果关系而是相关关系。“现有的认知和体系是建立在稀缺数据上的成果,人们思维和工作方式必须发生变革以适应大数据时代的到来。”(五)大数据思维大数据本身是一个现象而不是一种技术,伴随着大数据的采集、传输、处理和应用的相关技术就是大数据处理技术,是使用非传统工具对大量的结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理技术。大数据可分为大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。大数据工程是指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。(六)大数据技术云计算及其分布式结构是重要途径。云计算将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算资源、存储空间和信息服务。云计算及其技术给了人们廉价获取巨量计算和存储的能力,云计算分布式架构能够很好地支持大数据存储和处理需求。1.(1)商业模式与架构1.大数据技术云数据库(CloudDB)提供了海量数据的存储和并行处理能力,提供支持在线分析处理(OLAP)和在线事务处理(OLTP)能力,提供超强性能的数据库云服务,并成为集群环境和云计算环境的理想平台。(2)存储和管理促进新型商业智能的产生。由于云计算模式、分布式技术和云数据库技术的应用,我们不需要复杂的模型,不用考虑复杂的计算算法,就能够处理大数据。所以实际是对传统商业智能的发展和促进,商业智能将出现新的发展机遇,面对风云变幻的市场环境,快速建模、快速部署是新商业智能平台的强力支撑。而不像过去那样艰难前行,难以承受商业运作的变化。(3)处理和使用2.云存储和云计算云存储(cloudstorage)是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。支持数据的集中和共享问题。云计算(CloudComputing)是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,主要是基于互联网的相关服务地增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务地交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。3.云计算与大数据白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!四、大数据可以做什么1234大数据让政府治理更精准透明大数据让公共服务更智慧大数据让商业创新更迅猛大数据让经济治理更有效大数据可以做什么1.大数据让政府治理更精准透明百度地图1用户去目的地前,用百度地图搜索地点和规划路线3提前1—2小时对即将到来的风险进行预警2百度地图通过分析大量数据,预测相关地点的人流量避免如上海外滩踩踏事件一类悲剧再度发生设计人员编入流感关键词,如温度计、流感症状、肌肉疼痛、胸闷等只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图预测出世界上不同国家和地区的流感传播情况2009年,甲型H1N1流感暴发的几周前,“谷歌流感趋势”成功预测了流感在美国境内的传播,其分析结果甚至具体到特定的地区和州,并非常及时,令公共卫生官员备感震惊。而传统上,美国疾病控制中心要在流感暴发一两周之后才可以做到这些。谷歌流感趋势谷歌工程师认为,
本文标题:大数据时代2016资料
链接地址:https://www.777doc.com/doc-3650621 .html