您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 大数据技术与产业发展-清华大学43
汪东升wds@tsinghua.edu.cn清华大学引言早在20世纪,瑞士心理学家荣格就发现了《易经》筮法中蕴涵的一种不同于因果原理的普遍联系法则,这同大数据技术的复杂相关性有着相似的地方。2012年3月,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,并且定义为“未来的新石油”,希望增强政府收集、分析和萃取海量数据的能力。2大数据挖掘与利用尿布&啤酒—沃尔玛在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。智能交通---交通蝴蝶效应英国布里斯托尔大学埃迪·威尔逊博士的一项研究结果显示,适当条件下,一名司机急刹车或超车可能引发一场“交通海啸”,受影响路段长达80公里。GOOGLE提前一个月预测电影上映首周的票房收入,准确度高达94%根据麦肯锡的估计,如果零售商能够充分发挥大数据的优势,其营运利润率就会有年均60%的增长空间,生产效率将会实现年均0.5%~1%的增长幅度。3关于大数据4没有标准的定义…“BigData”isdatawhosescale,diversity,andcomplexityrequirenewarchitecture,techniques,algorithms,andanalyticstomanageitandextractvalueandhiddenknowledgefromit…计算模型发展以人为本!6技術演進歷史揭示未來是大数据驅動的智慧型經濟模式大数据的特点8BankingandSecuritiesCommunications,MediaandServicesEducationGovernmentHealthcareProvidersInsuranceManufacturingandNaturalResourcesRetailTransportationUtilitiesWholesaleTradeVolumeofDataVelocityofDataVarietyofDataUnderutilizedDarkDataPotentialbigdataopportunityoneachdimensionis:Veryhot(comparedwithotherindustries)HotModerateLowVerylow(comparedwithotherindustries)大数据的3V特性之于存储Volume---经济存储Velocity---层次存储Variety---策略存储BigData:3V’s94V特性10Sina的抑郁症研究11存在抑郁倾向的微博用户与普通用户发博时间有明显差异,这部分人群发博高峰在23点,其夜间活跃度比普通用户平均约高出30%。该群体微博关键词为:死、抑郁症、生命、痛苦、自杀。有60%为女性,40%为男性,女性比例比男性略高大数据之于色情业12陈坤VS黄晓明:用大数据解读大明星13知其然而不知其所以然《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》关注“是什么(关联)”,而不是“为什么(因果)”“龙王”萧劲腾,83.3%•–2012年7月21日,北京演唱会•–8月8日,上海演唱会50年最大台风•–10月31日,纽约,飓风“桑迪”•–11月5日,天津演唱会雨太大延期14科学研究的第四范式科学实验理论科学(开普勒定律牛顿定律…)计算科学大数据完整的科学研究周期数据采集数据整理数据分析和数据可视化。1516数据处理的变迁OLTP:OnlineTransactionProcessing(DBMSs)OLAP:OnlineAnalyticalProcessing(DataWarehousing)RTAP:Real-TimeAnalyticsProcessing(BigDataArchitecture&technology)17大数据的源头Socialmediaandnetworks(allofusaregeneratingdata)Scientificinstruments(collectingallsortsofdata)Mobiledevices(trackingallobjectsallthetime)Sensortechnologyandnetworks(measuringallkindsofdata)TheprogressandinnovationisnolongerhinderedbytheabilitytocollectdataBut,bytheabilitytomanage,analyze,summarize,visualize,anddiscoverknowledgefromthecollecteddatainatimelymannerandinascalablefashion18生产/消费数据模型发生了变化…OldModel:Fewcompaniesaregeneratingdata,allothersareconsumingdataNewModel:allofusaregeneratingdata,andallofusareconsumingdata19IDC公司发布的数字宇宙研究报告称:全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB(1021)。IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。预计到2020年,全球将总共拥有35ZB的数据量2011年企业创造、采集、管理和储存信息的成本已经下降到2005年的1/6,而同期企业关于数据的总投资自2005年以来却反而上升了50%。数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来数据的类型,数据类型的增加导致现有数据空间维度增加,极大地增加了未来大数据的复杂度。20超越BI-Ad-hocqueryingandreporting-Dataminingtechniques-Structureddata,typicalsources-Smalltomid-sizedatasets-Optimizationsandpredictiveanalytics-Complexstatisticalanalysis-Alltypesofdata,andmanysources-Verylargedatasets-Moreofareal-time21大数据分析的价值Bigdataismorereal-timeinnaturethantraditionalDWapplicationsTraditionalDWarchitectures(e.g.Exadata,Teradata)arenotwell-suitedforbigdataappsSharednothing,massivelyparallelprocessing,scaleoutarchitecturesarewell-suitedforbigdataapps22大数据的挑战TheBottleneckisintechnologyNewarchitecture,algorithms,techniquesareneededAlsointechnicalskillsExpertsinusingthenewtechnologyanddealingwithbigdata23利用用户”行为指纹”创造新商机用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,形成用户“行为指纹”,从而洞悉用户的潜在的、真实的需求,形成预判。这是传统企业花费重金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸。大数据的构成大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以预测未来。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。2627Gartner2013年技术成熟度曲线28BD2013年技术成熟度曲线解读大数据正在由过热期转向低谷期物联网将成为新的热点话题云计算、内存分析和企业3D打印日益成熟29Gartner总结2014年十大科技趋势-第一、移动设备的多样性和管理Gartner暗示从现在起直到2018年,自发形成的“自带设备”办公(BYOD)引发种类繁多的移动设备层出不穷,不同的用户环境和交互模式将导致“任一设备、任一地点”的战略无法实现。引发的新问题便是企业如何针对自带设备制定新的政策,以便平衡好灵活性与保密和隐私需求。第二、移动应用和应用程序第三、万物互联(InternetofEverything)互联网的四个基本应用模型分别为管理、货币化、操作和扩展。这些模型可以应用于任何人、物、信息和场所,因此,“物联网”终将会被“万物互联”所取代。第四、混合云和IT成为服务经纪人Gartner暗示个人云和外部私有云服务整合势在必行。第五、云/客户端架构第六、个人云时代个人云技术的发展将导致设备向服务转移。在此情况下,设备的特性将不再重要,个人云数据可以在多种设备上访问,并将会取代传统设备所具有的部分功能。第七、软件定义一切第八、Web-scaleIT。第九、智能机器第十、3D打印30Gartner发布2014年及未来十大预测数字产业革命数字业务到2020年,数字化带来的劳动力缩减将导致社会不稳定,数个成熟经济体也将需要新经济模型。短期关注点:到2014年底,将会出现更大规模的“占领华尔街”型的运动,意味着社会动荡将开始推动政治讨论。到2017年,80%的消费者将收集、追踪和交易其个人信息,以实现成本节约、方便以及定制化。短期关注点:到2014年,基于Kickstarter的个人数据的拍卖数量将以三位数增长。到2020年,企业和政府将无法保护75%的敏感数据,并会取消保密等级,允许大范围人群/公众访问。短期关注点:到2015年,至少会出现一个斯诺登或维基泄密事件,意味着企业和政府对于他们不能保护所有敏感信息这一事实的情况呈上升趋势。企业和政府存储和使用的数据量在大规模地增加,要保护所有这些数据是不现实的。相比较承担保护所有数据这一无底的任务,企业和政府会更专注于保护其中一小部分,并且要保护得很好。智能机器物联网在当代社会,物联网结合了机器、人类和商业之间的互联。让“参与”这个词成为真正有价值的资产。2020年,从可穿戴设备获取的消费者数据将推动来自全球1000强的5%的销售。短期关注点:到到2015年,分享消费者数据的智能手机应用数量将增长两倍,意味着想要获取消费者个人数据的营销人员或所有者的数目在增加。五年内,消费者可穿戴产品将变得更加先进,他们可以捕捉用户所见,甚至通过生物响应进行倾听或感知。31智慧城市保增长智慧电网智能交通智慧金融智慧通讯食品安全医疗保障水源水质智能楼宇公共安全工作就业政府服务指挥中心保民生保稳定---IBM33云计算-物联网-大数据“云”、“物”的核心是“大数据”云
本文标题:大数据技术与产业发展-清华大学43
链接地址:https://www.777doc.com/doc-535123 .html