您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 阿里研究中心:大数据时代34
TheAgeofBigData大数据时代张文涛/酒已内容•什么是大数据•相关技术•大数据的来“缘”和影响•大数据的来“缘”和影响•发展动态及方向3/13/20122什么是大数据3/13/201233/13/201243/13/20125何为大?—数据度量1Byte=8Bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes3/13/20126《红楼梦》含标点87万字(不含标点853509字)每个汉字占两个字节:1汉字=16bit=2*8位=2bytes1GB约等于671部红楼梦1TB约等于631,903部1PB约等于647,068,911部美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB)美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB)中国国家图书馆:2631万册1EB=40001EB=40001EB=40001EB=4000倍倍倍倍美国国会图书馆存储的美国国会图书馆存储的美国国会图书馆存储的美国国会图书馆存储的信息量信息量信息量信息量600600600600美元的硬盘就可以存储全世界所有的歌曲美元的硬盘就可以存储全世界所有的歌曲美元的硬盘就可以存储全世界所有的歌曲美元的硬盘就可以存储全世界所有的歌曲MGIMGIMGIMGI估计估计估计估计,,,,全球企业全球企业全球企业全球企业2010201020102010年在硬盘上存储了超过年在硬盘上存储了超过年在硬盘上存储了超过年在硬盘上存储了超过7EB(1EB7EB(1EB7EB(1EB7EB(1EB等于等于等于等于10101010亿亿亿亿GB)GB)GB)GB)的新数据的新数据的新数据的新数据,,,,同时同时同时同时,,,,消费者在消费者在消费者在消费者在PCPCPCPC和笔记本等设备上存储了超过和笔记本等设备上存储了超过和笔记本等设备上存储了超过和笔记本等设备上存储了超过6EB6EB6EB6EB新数据新数据新数据新数据3/13/20127大数据•大数据4Vo大量(Volume)•存储大;•计算量大;o多样(Variety)•来源多;•来源多;•格式多;o快速(Velocity)•增长速度快•处理速度要求快o价值(Value)•浪里淘沙却又弥足珍贵数据没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务3/13/20128大数据•大数据与云计算o云计算的模式是业务模式,本质是数据处理技术。(肉体+灵魂)o数据是资产,云为数据资产提供存储、访问和计算。o盘活资产,使其为国家治理、企业决策、个人生活服务,是大数据核心议o盘活资产,使其为国家治理、企业决策、个人生活服务,是大数据核心议题,也是云计算的最终方向•海量数据:两个V(volume和value)3/13/20129数据来源•互联网企业:SNS、微博、视频网站、电子商务网站•物联网、移动设备、终端中的商品、个人位置、传感器采集的数据•联通、移动、电信等通信和互联网运营商•天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据等3/13/201210大数据相关技术3/13/201211大数据相关技术•分析技术o数据处理:自然语言处理技术o统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析o数据挖掘:关联规则分析;分类;聚类o模型预测:预测模型;机器学习;建模仿真•大数据技术o数据采集:ETL工具o数据存取:关系数据库;NoSQL;SQL等o基础架构支持:云存储;分布式文件系统等o计算结果展现:云计算;标签云;关系图等3/13/201212大数据相关技术•存储o结构化数据:•海量数据的查询、统计、更新等操作效率低o非结构化数据•图片、视频、word、pdf、ppt等文件存储•图片、视频、word、pdf、ppt等文件存储•不利于检索、查询和存储o半结构化数据•转换为结构化存储•按照非结构化存储•存储问题解决方案o在CAP理论指导下数据库技术适当“退化”•NoSQL技术:HDFS,HBASE,OceanBase,MongoDB等3/13/201213大数据相关技术•计算o因结构变化为导致计算模式变更o需求模式变化带来的计算碰到瓶颈•解决方案oHadoop(MapReduce技术)o流计算(twitter的storm和yahoo!的S4)3/13/201214大数据的来“缘”和影响3/13/201215从互联网社会化拉开序幕•YouTube、twitter、FaceBook、微博等社交网站出现o海量的视频、图片、文本、短消息以及社会间关系信息数据需求出现3/13/201216跟随互联网的演进•互联网需要更好的理解“消费者”的需求•消费者也反作用于互联网3/13/201217Google的精准化理解用户需求•通过免费软件及服务来更精确的理解用户行为和习惯•通过对用户的更精确理解来提供精确广告服务3/13/201218传统企业之殇•服装企业调查顾客对商品的购买意愿•任正非《让听得见炮火的人来决策》•张瑞敏:“一个型号几百万产量”到“几十万个型号”3/13/201219对软件开发和信息化•传统软件开发流程敏捷开发(快速演进)•互联网企业面向海量用户群建立自己的生态圈,吸引用户•企业信息化不只是订单系统上线,订单处理也需自动化跟上•通过分析师对一系列的数据、行为的分析后才能得到用户需求•等等3/13/201220•来“缘”o互联网大发展,特别是社交化网络的出现o信息化工作效果的积累o信息社会的基础设施建设积累来“缘”及发展影响o信息社会的基础设施建设积累•影响o传统企业与互联网进行融合o对大数据进行精准化分析和挖掘,大势所趋3/13/201221•麦肯锡评估报告中指出大数据在政府公共服务、医疗服务、零售业、制造业、以及涉及个人位置服务等领域都将带来可观的价值大数据带来的影响40%GDP3/13/201222来源于麦肯锡全球研究院来源于麦肯锡全球研究院3/13/201223•政府等公共职能管理o重视应用大数据技术,盘活各地云计算中心资产:把原来大规模投资产业园、物联网产业园从政绩工程,改造成智慧工程o在安防领域,应用大数据技术,提高应急处置能力和安全防范能力大数据带来的影响o在安防领域,应用大数据技术,提高应急处置能力和安全防范能力o在民生领域,应用大数据技术,提升服务能力和运作效率,以及个性化的服务,比如医疗、卫生、教育等部门o解决在金融,电信领域等中数据分析的问题:一直得到得极大的重视,但受困于存储能力和计算能力的限制,只局限在交易数型数据的统计分析o政府投入将形成示范效应,大大推动大数据的发展3/13/201224•大数据赋予我们洞察未来的能力o马云成功预测2008年经济危机o“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断大数据带来的机遇出世界贸易发生变化了。”o通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。3/13/201225大数据带来的影响——刀刃的另一面•更多的隐私、安全性问题o多少密码和账号是因为“社交网络”流出去的?o2011年4月索尼的系统漏洞导致7700万用户资料失窃o2011年4月,iOS被发现会按照时间顺序记录用户的位置坐标信息o2011年4月,iOS被发现会按照时间顺序记录用户的位置坐标信息o2011年CSDN密码泄露事件3/13/201226发展动态及方向3/13/2012273/13/201228发展动态•2011年5月:肯锡全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生•在2009年中,美国政府通过启动Data.gov网站的方式进一步开放了数据的大门,这个网站向公众提供各种各样的政府数据•在2009年,欧洲一些领先的研究型图书馆和科技信息研究机构建立了伙伴关系致力于改善在互联网上获取科学数据的简易性产力的下一个新领域》,大数据开始备受关注•2012年1月份:瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》(BigData,BigImpact)宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样•在2011年12月8日工信部发布的物联网十二五规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分3/13/201229发展动态•自2010年以来各大IT巨头在大数据领域的产品推出进度,包括EMC、惠普、IBM、微软、Oracle、SAP、Teradata在内的全球IT巨头纷纷通过收购大数据相关厂商来实现技术整合,亦可见其对大数据的重视。3/13/201230发展动态及方向3/13/201231大数据的方向发现和预测分析和挖掘云计算是基础设施架构大数据是灵魂资产分析、挖掘是手段分析和挖掘大数据数据分析、挖掘是手段发现和预测是最终目标中国欧美3/13/201232谢谢!谢谢!3/13/201233参考文献•1.•2.•3.
本文标题:阿里研究中心:大数据时代34
链接地址:https://www.777doc.com/doc-30544 .html