您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > Lenovo-Big-Data联想大数据方案for-fanqqiu
联想大数据应用研究与实践2015LenovoInternal.Allrightsreserved.22015LenovoInternal.Allrightsreserved.议程123大数据行业现状和分析联想对大数据的观点及应用实践部分应用场景分析32015LenovoInternal.Allrightsreserved.经济和技术发展大背景强制经济交易经济共享经济1943-个人计算机1973-以太网1993-互联网●经济关系模式●IT技术发展新经济关系形态/新IT浪潮工业4.0?中国制造2025?工业互联网?机器智能化系统平台化整体优化(跨产业链)第一步连接采集数据实现数据驱动42015LenovoInternal.Allrightsreserved.大数据通用框架和关键技术关键技术核心思想分而治之Map&Reduce迭代Iterating内存计算/数据重用实现实时全数据批视图批视图Query新数据实时视图实时视图Query批处理层服务层流处理层大数据技术原理:query=function(alldata)Fig#1通用Lambda框架处理大容量数据快速处理分析52015LenovoInternal.Allrightsreserved.大数据平台方向•云和大数据的结合,使得支持简单部署的弹性扩展成为可能•“二八理论”80%的大数据处理是不需要编写大数据程序实现的•既可以自建大数据集群,也可以使用“大数据云服务”直接使用云端大数据处理与分析能力易用性:像使用自来水一样的使用大数据•大数据与数据仓库技术的结合•适配原有各种数据环境通用性:复用长期培养的BI人才与技术储备•存储高效,通过压缩等技术节约存储空间与I/O处理时间•性能高效,处理大量数据保证ROI•运维高效,准确判断问题,迅速替换与重新部署高效性:性能高效与维护高效并存•紧跟开源社区,充分利用社区力量保证推陈出新•比开源社区“快半步”,保证企业服务稳定性开放性:充分利用社区力量•大数据从WebLog数据深入到设备数据、IoT数据•文字数据采集与识别处理•图像视频数据采集与识别处理扩展性:物联网大数据来袭62015LenovoInternal.Allrightsreserved.议程123大数据行业现状和分析联想对大数据的观点及应用实践部分应用场景分析7简单易用遵循“二八理论”80%的大数据处理是不需要编写大数据程序实现的2015LenovoInternal.Allrightsreserved.联想大数据研发理念和思路研发理念让每一个BU人员轻松开发和使用大数据应用,做一个大数据”电子计算表“,嵌入业务中。秉承思路开放创新紧跟开源社区,并比社区快”半步”高效稳定存储分类处理,高效压缩;内存和存储结合运算提高性能;运维简单高效。继承扩展适配旧环境,保护前期投资;兼容扩展时序、非结构化机器数据和相关分析。8Olympia+平台——企业大数据采集、存储、处理、展现整体解决方案Hadoop/Spark最佳存储方案Hadoop/Spark流行、易用ETL工具采用图形化技术是的大量工作无需MR编程易用ETL工具灵活可定制的大数据展示工具,支持对接Spark/Hadoop大数据展示方案集成的分布式爬虫技术,自然语言分析模块将互联网文字结构化分析爬虫与自然语言技术一体化集成的Android/WindowsSDK直接获取用户大数据进行分析SDK采集与处理技术Olympia+支持端到端的解决方案可以单独抽取独立模块售卖存储、ETL、展示、爬虫、SDK既可以集成使用,也可以单独使用通过Portal集成权限控制系统2015LenovoInternal.Allrightsreserved.92015LenovoInternal.Allrightsreserved.联想大数据平台及其关键特性数据存储和索引原始数据及索引处理后的数据Ad-hoc可视化报表报告故事面板数据挖掘(R,ML-Pipeline,NLP)SOAP/JSONJSONJSONJSONSOAP/REST网络运维零售分析供应链管理数据缓存数据接收层(解压解密)元数据系统数据用户安全管理大数据处理框架批处理实时处理用户数据Spark/HadoopHDFS/column-basedDB应用开发框架多租户共享Portal其他应用#1其他应用#2设备使用分析软件使用分析联邦数据访问层数据建模多层,多维度自然语言访问层(NLA)关键特性1.端对端解决方案2.各层独立解耦设计3.80%的编程问题通过图形化拖拽来解决4.自然语言访问数据–和数据对话5.开放接口-支持多数据源融合,多种呈现组件接入6.灵活分析故事分享机制-和办公软件,SocialCRM集成结构化数据日志网络爬虫数据库连接器第三方连接器10支持全球30多个国家,8000多款设备数据,每天超过6千万数据通过SDK及O+平台完成处理系统底层采集SDK平台支持Android/Windows架构(IOS需APP定制)采集硬件/软件数据动态SDK采集方案数据压缩提升存储/处理效率动态格式无限制用户自定义集成功能控制Portal2015LenovoInternal.Allrightsreserved.11Olympia+爬虫平台网络上大量用户发布数据可以辅助以用户为中心的企业转型产品信息价格用户评论论坛/微博百度搜索…关键技术网页解析与模板集成技术多类型网页任务爬取:网页、评论、微博、论坛…多项专利技术确保爬取任务顺利进行多用户/用户行为拟合不间断的任务执行:任务自动重启技术、监控…灵活配置横向扩展支持分布式部署中国区包括京东、淘宝、亚马逊、Pconline、百度贴吧等等9200万条3C记录,包括2000品牌,24万种3C产品数据,自然语言超过200中语言属性2015LenovoInternal.Allrightsreserved.12联想爬虫与自然语言技术可以理解用户反馈,零距离理解用户2015LenovoInternal.Allrightsreserved.13集成易用的大数据处理工具易用的大数据处理用户界面,像处理普通ETL任务一样设计、开发、调度大数据任务HA与多集群数据并行处理支持任务远程发布/管理详细的Log日志方便用户统一任务调度器监控与处理大数据任务提供API对接第三方平台提供任务提交、删除、任务调度与更改2015LenovoInternal.Allrightsreserved.14新一代的Spark处理集群,急速提升大数据处理速度测试节点:4/128核172G内存数据量:1.46billionrows,100G结果比对:Qurey1.AggregationQueryQurey2.JoinQueryQurey3.DistinctQueryMedianResponseTime(s)Query1Query2Query3Spark-1.4-Mem213446Spark-1.4-Disk18017496Hive-0.13329.998513.826515.8630100200300400500600Query1Query2Query3Sparkv.s.HiveSpark-1.4-MemSpark-1.4-DiskHive-0.132015LenovoInternal.Allrightsreserved.15紧随Hadoop开源社区脚步,升级最新稳定版紧跟开源路线,修复开源严重问题得以使用维护期内,每年更新集群软件版本(数据迁移工作量另外计算)修复严重问题,并确保与Olympia+其他组件兼容V2.4.0features:•SupportforAccessControlListsinHDFS•NativesupportforRollingUpgradesinHDFS•CompleteHTTPSsupportinHDFS•EnhancedYARNwithApplicationHistoryServerandApplicationTimelineServerV2.7.1features:131bugfixesandpatchesdropssupportforJDK6runtimeandworkswithJDK7+onlyYARNMakeYARNauthorizationpluggableAutomaticshared,globalcachingofYARNlocalizedresources(beta)MAPREDUCEAbilitytolimitrunningMap/ReducetasksofajobSpeedupV2.2.0features:•YARN•HighAvailabilityforHDFS•HDFSFederation•HDFSSnapshots2013.102014.42015.82014.12V2.4.1features:•securitybugfix•privilegecheckstoHDFS2013.52012.8V1.2.1features:•WebservicesforJobTracker•WebHDFSenhancementsV0.23.1features:•HDFSFederation•NextGenMapReduce2015LenovoInternal.Allrightsreserved.16简易灵活的大数据报表系统目标:提供非技术人员查看大数据和分析大数据能力软件特性:支持大数据和数据库等多种数据源(Hadoop,MySQL,SQLServer,etc.)超大规模数据提供大数据展示加速工具,利用Spark特性加速展示方法2015LenovoInternal.Allrightsreserved.17数据挖掘工具支持在Spark上运行R语言大量丰富的统计和分析功能-回归分析,聚类,决策树等超强的制图能力Outstandinggraphicalcapabilities在经济,生物信息方面有丰富的插件包2015LenovoInternal.Allrightsreserved.182015LenovoInternal.Allrightsreserved.大数据助力联想面向用户为中心转型数字推广分析社区分析零售店面管理用户画像产品持续优化个性化质量监控端到端用户体验使用反馈反馈分析竞品分析零售O2O推荐和交叉销售社会CRM品牌感知产品选择购买产品试用持续运营分析和创新面向用户转型售后服务192015LenovoInternal.Allrightsreserved.议程123大数据行业现状和分析联想对大数据的观点及应用实践部分应用场景分析202015LenovoInternal.Allrightsreserved.联想大数据成功案例-南京邮电大学方案产品选型系统建设需求大数据技术在各行各业方兴未艾,作为高校,一方面需要对大数据技术进行深入研究,另一方面也需要培养大数据领域人才。针对校园视频、远程医疗等大数据分析的需求。学生在此大数据平台上面进行各方面的实践。方案产品产品选型数量大数据管理节点联想X3650M4机架服务器2套大数据控制节点联想X3650M4HD机架服务器2套大数据计算节点联想NX360M5服务器60套数据网络,管理网络联想G8264万兆交换机,G8502交换机4套大数据分析处理软件联想ISV大数据分析处理平台1套系统建设挑战分析和处理需求很多,涉及相关众多的大数据模块,需要多方面的实践经验。便于管理和实施和后期的维护,需要完善的自动化安装部署和管理的平台。联想解决方案优势完备的大数据相关领域的最佳实践知识。联想大数据参考架构体系。高效、稳定的基于大数据领域的硬件系统支撑。完善的大数据自动化安装部署和管理平台。212015LenovoInternal.Allrightsreserved.联想大数据成功案例-中国人寿联想解决方案运行效果及客户收益基于联想RD640服务器,通过JBOD模式,解决PB级分布式文件系统需求。
本文标题:Lenovo-Big-Data联想大数据方案for-fanqqiu
链接地址:https://www.777doc.com/doc-5376681 .html