您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据与云计算-zhang
大数据与云计算钱进E-mail:qjqjlqyf@163.com2013.8.2不知道BIGDATA?你out了!雅虎提供静态的导航信息Google分析用户搜索信息,满足用户需求Facebook用户产生内容,创造需求。前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。互联网越来越智能Google精确掌握用户行为、获取需求微博为新浪带来巨大价值马云的判断来自于数据分析“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。”马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;新浪推出企业微博产品,提供精准的数据分析服务。Gartner2011年技术成熟度曲线,大数据处于高速发展期技术演進历史揭示未來是大数据驱动的智慧型经济模式什么才是大数据?指数型增长的海量数据•海量数据就是大数据吗?•大数据就是云計算嗎?大数据的4V特性体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效Value價值•挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息.•价值密度低,是大数据的一个典型特征.Variety多样性•企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源.•能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.Velocity速度•1s是临界点.•对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的.•实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一.Volume数据量PB是大数据层次的临界点.KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB对大数据的進一步理解大数据比云计算更为落地商业模式驱动应用需求驱动云计算本身也是大数据的一种业务模式大数据不仅仅是“大”多大?PB级比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值软件是大数据的引擎•和数据中心(DataCenter)一样,软件是大数据的驱动力.•软件改变世界!大数据生态:软件是引擎21社会的基础设施已经具备移动电话PCsTVsPDAsGPS导航汽车电子设备智能家电iPhoneDCs传感器。。。大数据的应用不仅仅是精准营销•通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景消费行业金融服务食品安全医疗卫生军事交通环保电子商务气象管理大数据“易”,理解大数据“难”•目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心.•非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等.大数据为什么重要?更高一层数据层面整合企业内外部更高数据层面整合利用用户”行为指纹”创造新商机用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,形成用户“行为指纹”,从而洞悉用户的潜在的、真实的需求,形成预判。这是传统企业花费重金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸。大数据组成和展現方式?▪基于SQL语言:面对OLAP的传统行和列▪不基于SQL或map-reduce的:由谷歌率先发起▪数据流:基于运行商数据直接生成任意图形新平台技术数据入口/汇聚数据平台分析不同范围的服务▪传统交付模式-单片或基于设备的解决方案▪云:能够充分利用物理设施的弹性,以实现处理快速增长数据的能力“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”-ForresteranalystJimKobielus新的传输方案新模式和新技术展现方式:大型控制中心、移动终端在多样性、体量、速度三大主要特征的指引下,大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合什么是BigData技术分析技术:•数据处理:自然语言处理技术•统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析•数据挖掘:关联规则分析;分类;聚类•模型预测:预测模型;机器学习;建模仿真大数据技术:•数据采集:ETL工具•数据存取:关系数据库;NoSQL;SQL等•基础架构支持:云存储;分布式文件系统等•计算结果展现:云计算;标签云;关系图等一些相关技术存储•结构化数据:海量数据的查询、统计、更新等操作效率低•非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储•半结构化数据转换为结构化存储按照非结构化存储解决方案:•Hadoop(MapReduce技术)•流计算(twitter的storm和yahoo!的S4)数据采集数据储存数据管理数据分析与挖掘大数据与云计算•云计算的模式是业务模式,本质是数据处理技术。•数据是资产,云为数据资产提供存储、访问和计算。•当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!大数据与云计算从技术上看,大数据根植于云计算虚拟化技术软硬件隔离,资源整合云计算平台管理技术大规模系统运营,快速故障检测与恢复MapReduce编程模型分布式编程模型,用于并行处理大规模数据集的软件框架海量数据存储技术分布式存储方式存储数据,冗余存储方式保证系统可靠海量数据管理技术NoSQL数据库,进行海量数据管理以便后续分析挖掘大数据的关键技术大数据技术与云计算有相同,也有差异大数据云计算总体关系云计算为大数据提供了有力的工具和途径,大数据为云计算提供了很有价值的用武之地相同点1.都是为数据存储和处理服务2.都需要占用大量的存储和计算资源,因而都要用到海量数据存储技术、海量数据管理技术、MapReduce等并行处理技术差异点背景现有的数据处理技术不能胜任社交网络和物联网产生的大量异构数据,但这些数据存在很大价值基于互联网的相关服务日益丰富和频繁目的充分挖掘海量数据中的信息通过互联网更好地调用、扩展和管理及存储方面的资源和能力对象数据IT资源、能力和应用推动力量从事数据存储与处理的软件厂商和拥有大量数据的企业生产计算及存储设备厂商、拥有计算及存储资源的企业带来的价值发现数据中的价值节省IT部署成本2012云计算,2013大数据?美国:•美国政府在2012年3月29日宣布投资两亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。中国:•中国商业联合会:副会长刘建沪介绍说,随着互联网的快速发展,中国的电子商务企业纷纷组建了数据分析部门。•2011年10月,工信部确认京沪深杭等5城市为“云计算中心”试点城市。而真正的问题或许不在于怎样建设“云计算中心”。国家信息中心常务副主任杜平直言不讳:“应对大数据的到来,需要不断建基础设施,但是建了干什么,有些数据需要存储,也有很多数据可能不需要储存。”大数据的市场有多大?中央财经大学中国经济管理研究院博士张永力说,国外大数据行业约有1000亿美元的市场,而且每年都以10%的速度在增长,增速是软件行业的两倍。行业拓展者,打造大数据行业基石:大数据的应用——企业在投入IBM:•IBM大数据提供的服务包括数据分析,文本分析,蓝色云杉(混搭供电合作的网络平台);业务事件处理;IBMMashupCenter的计量,监测,和商业化服务(MMMS)•IBM的大数据产品组合中的最新系列产品的InfoSpherebigInsights,基于ApacheHadoop。•该产品组合包括:•打包的ApacheHadoop的软件和服务,代号是bigInsights核心,用于开始大数据分析软件被称为bigsheet,软件目的是帮助从大量数据中轻松、简单、直观的提取、批注相关信息为金融,风险管理,媒体和娱乐等行业量身定做的行业解决方案微软:•2011年1月与惠普(具体而言是HP数据库综合应用部门)合作目标是开发了一系列能够提升生产力和提高决策速度的设备。EMC:•EMC斩获了纽交所和Nasdaq;•大数据解决方案已包括40多个产品。Oracle:•Oracle大数据机与OracleExalogic中间件云服务器、OracleExadata数据库云服务器以及OracleExalytics商务智能云服务器一起组成了甲骨文最广泛、高度集成化系统产品组合。政府职能变革•重视应用大数据技术,盘活各地云计算中心资产:把原来大规模投资产业园、物联网产业园从政绩工程,改造成智慧工程;•在安防领域,应用大数据技术,提高应急处置能力和安全防范能力;•在民生领域,应用大数据技术,提升服务能力和运作效率,以及个性化的服务,比如医疗、卫生、教育等部门;•解决在金融,电信领域等中数据分析的问题:一直得到得极大的重视,但受困于存储能力和计算能力的限制,只局限在交易数型数据的统计分析;政府投入将形成示范效应,大大推动大数据的发展。大数据的应用——政府“智慧大脑”智能感知互联互通智能运营协同共享大数据的应用——热点:智慧城市•美国奥巴马政府在白宫网站发布《大数据研究和发展倡议》,提出“通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化美国国土安全,转变教育和学习模式”;•中国工程院院士邬贺铨说道,“智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效,随着智慧城市的建设,社会将步
本文标题:大数据与云计算-zhang
链接地址:https://www.777doc.com/doc-3682548 .html