您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 企业架构中实施大数据解决方案41
在企业架构中实施大数据解决方案刘达liuda@cn.ibm.comIBM应用开发商合作部议程•大数据的现状、趋势和问题•IBM大数据解决方案介绍•IBM大数据解决方案技术背景分析以及优势•参考资源3世界上的新增数据信息每12小时就会增长一倍!2005年,全球RFID标签的数量为13亿个。而在2011年底,这个数量将变为300亿个DataVariety(数据多样性)2011上网人数为2billion300亿RFID标签(1.3Bin2005)46亿部手机拥有照相功能9亿GPS每年被销售2009年有7600万智能计量设备,2014年将为2亿个Twitter每天处理的数据量:7TBsFacebook每天处理的数据量:10TBs资本市场的数据,2003-2006年增长了:1750%,WorldDataCentreforClimate保存了220TBS主要数据以及9PBs的辅助数据16,000tps32,000tps64,000tps128,000tps2,000tps4,000tps8,000tps2亿用户每天产生超过9千万条记录。–纽约证交所每天产生1TB交易记录–Twitter每天产生7TB的记录数据Twitter持续创造着新的纪录从海量规模、多样性和快速流量的数据集中抽取有用的信息,这是原有方案和技术很难实现的目标。大数据带来的机会处理各种各样复杂结构的数据,包括:关系型数据、日志和文本数据流数据和大规模的数据改变超大容量的存储,从TB级到PB(1KTBs)级甚至是ZB(1BTBs)级。Variety:Velocity:Volume:大数据时代面临的问题•相当于不断拥有的数据而言,企业能够分析的数据比例在不断降低。•简而言之,现在的企业在面对一些“可能是机会的数据”时,并没有清醒的认识。•最终的问题回到了我们如何认识、管理和分析我们所拥有的各种数据。企业所拥有的数据企业可以处理的数据比例“盲区”Upto10,000TimeslargerUpto10,000timesfasterTraditionalDataWarehouseandBusinessIntelligenceDataScaleDataScaleyrmowkdayhrminsec…msμsExaPetaTeraGigaMegaKiloDecisionFrequencyOccasionalFrequentReal-timeDatainMotionDataatRest大数据带来了新的机遇但是需要新的分析方法电信行业10万记录/秒,60亿/天每10毫秒作出一个动作270TB的数据需要进行深入分析DeepQA100sGBforDeepAnalytics3sec/decision交通系统25万个检测数据/秒每1-2毫秒作出一个动作公共安全60万记录/秒,500亿/天每1-2毫秒作出一个动作320TB的数据需要进行深入分析大数据背后隐藏的秘密•如何从大量事件驱动的信息中发现其中的商业价值?–如果只是对一个3只蜜蜂的群体进行分析,那么将十分简单。–如果是一个一百万只蜜蜂的蜂群,那么将是一个巨大的任务。•每年全球的数据量会以30%的速度增长StreamsComputing图示directory:”/imgfilename:“farm”directory:”/imgfilename:“bird”directory:”/optfilename:“java”directory:”/imgfilename:“cat”tuplesheight:640width:480data:height:1280width:1024data:height:640width:480data:行业革命:更好地生产–流水线让我们认识到可以将生产步骤进行分解,然后持续地进行生产。–Streams意味着在您的组织中按照数据的流向一步步地进行数据处理。Streams可以避免在数据被处理之前被保存到磁盘上并进行转换:持续流水线理论实时的安保系统:声音、图像等等非结构化信息DataInMotion(动态数据)每秒收到1270万个市场信息,并在130毫秒内为每一个客户生成相应的交易推荐信息。IPDR.org每天将分析超过60亿个IP记录。X射线衍射的速度到达100MBps处理每秒1000个单独的信息•将已有的静态数据(个人信息、分析数据、历史数据等)与新兴的动态数据(社交应用数据、电信数据)进行融合和分析后,会挖掘出很多新的业务信息。FacebookNetworkPublicdatabaseMergedNetworkAmy对于零售商的价值何在?她的影响力有多大?RetailerCallingNetworkAmyBearn32,已婚,3岁孩子的母亲会计TelcoScore:91CPGScore:76FashionScore:88CPAScore:96DataatRest(静态数据)TelcocompanyAmy对于电信运营商的价值?她是否会更换成其他运营商?有多少用户会效仿她?•通过天气信息进行建模,实现风机放置位置的优化,增大电力和使用寿命–依据全球1×1公里的网格数据提供的上百个参数进行建模–分析的时间周期从3星期缩减到3天!•建模的结果用于预测以及实时操作的数据基础–一旦风机投入发电,风机上的传感器将收集和存储大量的数据,同时会和模型中的历史数据以及其他辅助数据进行比–对系统将会计算出合适的服务间隔、故障预期时间以及通过风力情况给出的优化方案OptimizingcapitalinvestmentsbasedondoubledigitPetabyteanalysisIBMWatson是数据分析的极大创新,但是没有高质量的数据作为基础,这一目标是无法实现的。BigDataandWatsonInfoSphereBigInsightsPOSDataCRMDataSocialMedia分析的结果-消费习惯-社交关系-购买趋势AdvancedsearchandanalysisWatson可以利用大数据解决方案提供的强大分析能力得到更精确的结果大数据解决方案用于构建Watson系统的知识库。Watson使用ApacheHadoop实现将数据加载带内存中这一操作分布到多个节点上进行大约2亿页文字信息(Jeopardy!比赛中用到的数据)Watson’sMemory经常会被问到•不知道什么信息应该被分析?•待分析的数据量巨大–潜在的数据一般处于静态或不被注意的情况。–判断如此大量的非结构化数据是否真的具有所需要的价值是一项巨大的工作•多数数据没有固定的结构,或者拥有不同的结构,很难进行分析•很难将分散的数据进行整合和集成•很多数据的可用周期很短•分析需要基于很多已有的信息•什么时候以及如何在已有的决策流程中加入大数据的支持?•大数据解决方案与传统的数据仓库和分析工具之间的关系?•大数据解决方案与传统的数据仓库和分析工具之间的不同?•大数据解决方案针对批处理,还是事务处理,还是两者兼顾?•哪种场景更适合大数据解决方案?•大数据是否会替代传统数据仓库中的一些工具?经常会被问到大数据如何帮助我们?•让您可以建立实用的风险模型:–某一品牌的信用卡统计结果发现,经常在酒吧消费人群延迟还款的比例要比经常在牙医诊所消费的人群高4倍。•客户流失分析(CDR和IPDR分析)•推荐引擎:可能会购买的产品–了解购买者的兴趣爱好:“买个这个商品的其他人也同时购买了…”•刷卡消费记录分析–用于预测消费者的消费趋势(零售推荐)•分析网络数据的状况来预测可能的故障–网络对于突然的波动如何应对?例如网络风暴、攻击。•垃圾邮件、网络进攻等威胁的分析。•交易监管–侦测违规交易和危险操作•提高搜索质量•灵活的数据集–让组织可以灵活、方便地从已有的数据中抓取出有用的关系、模式用于新的业务大数据如何帮助我们?•对天气进行预测,实现风机运转的优化,减少运营成本。•通过在医院的检查记录发现身体的症状•多渠道的客户体验以及购物感受分析•通过摄像头、健康、录音等数据发现潜在的犯罪和威胁。大数据如何帮助我们?将传统方式与大数据方式进行整合IT为业务用户组织相应的数据结果IT提供能够进行各种数据分析操作的平台。业务用户自行通过平台提供的工具和数据来进行数据分析业务用户决定需要什么样的数据月度销售报告利润率分析客户调查品牌忠诚度产品战略资产利用率大数据方式反复的、挖掘性的分析传统方式结构化数据和重复的分析操作针对传统数据仓库和大数据解决方案的数据质量问题•企业数据仓库(EDW)被设计为要求数据是原始的、集成的,并且很好的进行了集合,同时拥有全面的文档和模型–这些特点是MDM,ETL操作所必需的–让大批量的报告生成、仪表盘应用以及基于OLAP的分析工作成为可能。–让进入EDW的数据尽可能的完整,且能够表现出业务的真实性。•为深入的分析工作进行数据的准备工作需要注意:很多数据并不是可以公开访问且易于被复用的–大数据解决方案并不是一开始就可以符合ETL、数据质量、元数据以及数据建模的需求•由于大数据解决方案的趋势不可避免,对于EDW问题和实际情况了解的越多,会对于实施大数据方案越有帮助议程•大数据的现状、趋势和问题•IBM大数据解决方案介绍•IBM大数据解决方案技术背景分析以及优势•参考资源25持久化数据动态数据传统数据非传统数据Streams可以重用数据仓库的分析模型Streams过滤进入的数据InfoSphereBigInsightsInfoSphereBigInsightsIBM提供了全面的大数据解决方案典型的数据流数据源显示结果模型、参数开始进行分析模型、参数数据源选择查询参数,新的/扩展应用查询/应用/参数InfoSphereBigInsightsInfoSphereInfoSphereBigInsightsBigInsightsInfoSphereWarehouseStreams和BigInsights集成模型BigInsightsHadoopStreamsAlldataWAREHOUSEDatamartsWAREHOUSEWAREHOUSESummariesSubsetsSubsets集成Streams和BigInsights模型构建/部署BigInsightsHadoop根据时间和事件MetatrackerJobModeloutput启动预定义的任务开始数据流流数据产生数据模型)模型部署创建模型任务完成JobCollectionStreams的模型根据数据集中的参数来进行更新其他计算节点模型管理Analytic(PMMLetal)在Hadoop中构建的模型或者参数会被部署到生产环境的Streams中进行实时的情景分析集成Streams和BigInsights结合历史数据的动态数据分析BigInsightsHadoopDiscoveryMetatrackerJobHistoricaldatafordiscovery启动预定义的任务来查询历史数据进行分析开始流程StreamsSurfaces为Streams提供重新计算和整合的过程数据生成数据;任务结束Data当在实时的流分析过程中发现了又有的数据后,就可以启动结合了历史数据的分析流程。InfoSphereStreams可以动态地分析大规模的结构化和非结构化数据基于IBM的流数据处理研究成果–IBMWatson实验室的研究成果–应用于很多实际的大型项目–IBM还在继续研究的步伐主要优势:–并行、高效的流数据处理平台–可以处理结构化和非结构化数据–可在多种硬件平台上进行扩展ExtremeVolumesExtremeAnalysisExtremeSpeedInfoSphereStreams工作原理百万级的事件微秒级的延迟HurricaneForecastModelNHurricaneForecastModel…VideoNewsCaptionExtractionTopicFiltrationSpeechRecognitionEarningsRelatedNewsAnalysisVideoNewsCaptionExtra
本文标题:企业架构中实施大数据解决方案41
链接地址:https://www.777doc.com/doc-24666 .html