您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > intel英特尔大数据平台最佳实践46
英特尔大数据平台最佳实践提纲•大数据带来的挑战•大数据案例介绍•Intel大数据平台2BigBigData云计算技术是处理大数据的有效手段大数据和云是两个不同的概念,但两者之间有很多交集。支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,因此实际上大数据和云之间存在很多合力的地方。大数据应用是在云上跑的、非常典型的应用。——大数据处理离不开云大数据时代-数据爆发性增长4IDC预测全球的数据使用量到2020年会增长44倍,达到35.2ZB(1ZB=10亿TB)*Source:McKinseyGlobalInstituteAnalysisSGCrossAssetResearch,PwC统计、分析、预测、实时处理大数据处理速度要求越来越高Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010•大数据与海量数据的一个重要区别,在于不但数据尺寸大,而且对数据处理的响应速度有有着更高的要求•传统的以周,天,小时为单位的运算处理周期,下降到以分钟,秒为单位•大数据高价值的重要体现-处理速度ValueHighutilityDiminishingutilityArchivalvalueTimeHighLowNegative数据的多样性Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010•数据形式的多样:–结构化数据,数据间有很强的因果关系–半结构化数据,数据间因果关系较弱–非结构化数据,数据间无因果关系•数据来源的多样性:–不同的应用系统–各种设备–互联网–其它Flatfile创造显著业务价值(VALUE)©Copyright2011EMCCorporation.Allrightsreserved.大数据分析显著的业务价值3V特性驱动下创建挖掘数据资产价值,通过数据驱动业务,变成本中心为利润中心智慧城市-典型的大数据应用集合2019/8/18大数据处理导致的平台瓶颈数据处理需求与传统平台硬件扩展的差距不断扩大IndustryProgress大数据处理需要的扩展能力大数据分析不同于传统BI分析•结构化数据•数据规模一般为TB规模•集中式,为了分析进行大量数据移动,数据向计算靠近•批处理为主•结构化/非结构化混合分析的能力•数据规模从数十TB到PB级别•分布式,计算向数据靠近•支持流式分析事务关系型数据库批处理数据仓库分析集群化非结构化流式多种数据源分析(MapReduce)组织传统BI分析大数据分析Examples:TelcoGovtFinanceWeb分布式数据平台与传统数据平台融合RawDataHadoopCluster(HundredsofTB’stoPB’s)ExistingDataWarehouse(HundredsofTB’s)ApplicationsandTools(Modelingon100’sofTBstoPB’s)StructuredDataSemi-StructuredDataBI/StatToolsHistorical/Archival/EventLevelAggregated/EnrichedSummary/Interactive•ETL•DataEnrichment•DirectQuery•Directquery•DirectModeling提纲•大数据带来的挑战•大数据案例介绍•Intel大数据平台12联通3G详单查询-问题来源(1/2)随着移动互联网业务的发展,上网记录查询成为用户投诉的焦点问题来源目前,中国联通省分公司3G客户数据流量问题争议占3G业务投诉达7-10%,且近几个月呈上升趋势,个别省分比例高达20%一些用户对3G业务流量产生及计费方式不了解,主观认为自己未使用或使用较少数据流量,要求运营商提供上网记录,而现有系统不具备此功能,从而导致投诉升级。3G流量费争议占总咨询投诉量比率上网记录查询对中国联通的业务发展产生了较大的影响影响对用户而言:“…要是能查到流量是和谁发生的就好了,如果是手机的问题,我也才知道今后怎么防范,现在连防范谁都不知道,谁知道下次还会不会发生类似问题?”对运营商而言:根据中国联通客户服务部门提供的数据,目前移动业务每万元收入,因无法提供上网详单造成的退费和赔付约60.1元;如果问题得不到根本解决,将会影响运营商按流量计费的资费模式,对运营商3G业务的开展将产生较大影响用户上网记录数是个海量数据,不仅投资巨大,传统的电信业解决方案根本无法提供该服务案例某iPhone合约计划用户,在凌晨零点到4点之间手机产生巨额流量费在其得知因受计量设备限制无法向其提供数据流量去向后,竟上升到司法诉讼层面联通3G详单查询-问题来源(2/2)移动用户上网记录集中查询与分析支撑系统建设上网记录集中查询与分析支撑系统意义重大查询为客户服务人员提供客户上网记录快速查询服务,解决流量投诉问题为用户提供准实时的异常大流量上网记录自助查询服务分析对数据流量进行统计终端分析:iPhone、iPad、其他智能手机分布,新终端推广效果分析热门流量、热门网站(业务)网络分析:2G/3G基站流量分析,网络优化数据挖掘根据流量分布,分析用户群特征提供套餐设计参考,优化用户体验通过感知业务态势,制定市场策略,指导业务产品开发,为市场营销提供丰富的数据支持移动互联网处于快速发展期:每6个月,流量翻一番移动互联网用户快速增加,智能终端迅速普及、户均流量显著增长,上网记录数据将进一步猛增难点分析上网记录是海量数据用户每月的上网记录约几万至数十万在Gn(SGSN与GGSN之间)接口上部署采集设备来生成用户上网记录用户手机访问一次网页,约会产生数十条,甚至数百条请求,意味着产生数十条和数百条上网记录访问手机新浪网首页,约产生20条记录访问新浪iPad首页,约产生40条记录在iPad中看一条新浪新闻,产生超过180条记录访问淘宝触摸屏版,约产生60条记录大量的DNS查询、推送服务记录(如苹果通知服务)等以中国联通某省分公司为例,日均上网记录数近10亿条,每月数据量近9TB,31个省份数据量12T/day难点分析采用关系型数据库进行上网记录的存储已不可行采用何种方式进行存储和检索是一个问题存储:如此大的数据量已经超越了当前关系型数据库可管理的容量上限查询:关系型数据库上对大规模数据进行操作会造成系统性能严重下降当数据集和索引变大时,传统关系型数据库如Oracle、Sybase,在对大规模数据进行操作会造成系统性能严重下降,因为在处理数据时SQL请求会占用大量的CPU周期,并且会导致大量的磁盘读写,性能会变得让人无法忍受成本小型机+高端存储+关系数据库成本导致扩展困难移动用户上网记录集中查询与分析支撑系统系统构成系统采用全国集中的一级架构方案进行建设,主要包含数据采集子系统、数据入库子系统、数据存储子系统、数据查询与分析子系统基本技术采用Hadoop/HBase作为上网记录存储方案采用MapReduce/Hive作用统计分析和数据挖掘工具关键性能指标解决方案数据查询上网记录查询速度:不高于1秒(不含用户访问查询页面的时间)支持并发查询数目:1000请求/秒数据存储上网记录入库时间:一般小于30分钟,实际约10分钟具备存储全国移动用户不小于6个月的原始上网记录能力历史5个月+当前月统计分析的中间报表数据保存不小于5年全国集中的一级架构,电信行业首次将Hadoop/HBase引入到商用电信服务系统建设中系统部署19DCN网络IP承载网客服系统A省GGSNSGSNGn口产创平台采集系统客服系统B省GGSNSGSNGn口产创平台采集系统核心交换机核心交换机负载均衡器负载均衡器防火墙防火墙DCN网络接入路由器核心交换机核心交换机防火墙防火墙接入路由器查询接口服务器DataNodeandRegionServer核心交换机核心交换机FTP传输及入库NameNode节点ZookeeperIntel’sDistributionofHadoopX省客服系统GGSNSGSNGn口产创平台采集系统系统部署两路x86服务器(基于Intel®XeonE5600系列处理器)NameNode节点:3台DataNode(数据存储节点):178台Zookeeper节点:7台集群监控节点:1台入库服务节点:24台Web查询应用服务节点:20台网络交换设备机框间通过万兆交换机连接,以完成快速的数据交换Intel®Hadoop发行版满足高性能的数据导入和快速查询。稳定、易于部署和管理的企业级方案。移动用户上网记录集中查询与分析支撑系统20某市智能交通应用举例视频云计算/云服务视频云服务中心可以实时掌控任一车辆的行驶,运行轨迹、分析车辆是否违章视频云服务中心对海量的交通信息进行比对、分析和预测,为车辆布控、分析拥堵状态,出行最优路径规划、交通管理服务智能交通系统实时监控城市的交通状态,将各个路口的车辆实时抓拍、传输到视频云服务中心面临的挑战–年过车信息数据量达数百亿级记录规模–市局和区县的数据中心两级架构,分布式存储,集中管理。–支持多条件组合快速查询:卡口名称、车道名称、车辆类型、车牌类型、车牌号码、车身颜色、车牌颜色、车速范围、车长范围、号牌段范围、时间范围。–支持海量过车信息的模糊匹配检索。–支持各种统计分析、数据挖掘:车辆违章率统计、过车识别率统计、套牌分析、关联性分析、黑名单等过车记录单个区数据中心全市数据总和每秒钟~6MB/s1200条记录/s120MB/s24000条记录/秒每小时~20GB/hour432万条/小时~400GB/hour8640万条/小时每天~480GB/day1亿条/天~9.6TB/day20亿条/天每月~14.4TB/month30亿条/月~288TB/month600亿条/月三个月~43.2TB/3months90亿条/三个月~0.8PB/3months1800亿条/三个月违章车辆图片数据单个区数据中心全市数据总和每小时~1.8GB/h36GB/h每天~43.2GB/day~864GB/day每月~1.2TB/month~24TB/month三个月~3.6TB/3months~72TB/3months基于英特尔Hadoop技术方案–解决了海量过车信息(结构文本+图片)存储问题。–解决了分布式数据查询问题。–系统提供了易于使用的API,方便进行二次开发。–系统做了较多优化,性能很好的满足了项目的实时性要求。–系统的稳定性好。智能交通应用技术架构图某市智慧交通信息系统架构基于海量数据进行车辆轨迹分析实时路况信息区域号牌管理碰撞分析。。。。。。。。。。某市智慧医疗提纲•大数据带来的挑战•大数据案例介绍•Intel大数据平台27提供高效的计算芯片、存储、I/O、网络技术,加速大数据价值挖掘与提高决策反应基于x86平台,提供最优的软件和工具,推动大数据应用的部署和创新促进大数据生态系统的建设,与广泛的合作伙伴合作,与中国共成长企业大数据平台构建中英特尔的角色投资大数据解决方案的研究和服务什么是Hadoop?•开源Apache项目,灵感来源于Google的MapReduce白皮书和Google文件系(GFS),Yahoo完成了绝大部分初始设计和开发•Hadoop核心组件包括:-分布式文件系统-Map/Reduce–分布式计算•用Java编写•运行平台:•Linux,MacOS/X,Solaris•普通的X86硬件平台ShuffleMapReduceHadoop与“大数据”•Hadoop是致力于“大数据”处理的最重要平台之一–能够轻松扩展到PB级别的数据存储,处理规模–带有容错功能的并行处理架构–基于普通的X86平台硬件架构,硬件成本低廉–用内置格式存储/处理数据–基于开源项目,拥有当量的代码来源,并且传统厂商也日益重视对其的支持,它已经成为重要的并行处理架构标准之一越来越多的企业接纳Hadoop20
本文标题:intel英特尔大数据平台最佳实践46
链接地址:https://www.777doc.com/doc-24273 .html