您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 课程一:运用Hadoop分布式架构补充传统架构(IOE)迎战大数据70
运用Hadoop分布式架构补充传统架构(IOE)迎战大数据童小军2013年3月提纲Hadoop补充传统架构应对大数据Hadoop云计算架构解析Hadoop应用案例和云平台EasyHadoop,RedHadoop介绍Hadoop是什么?RedHadoop海量数据处理操作系统存储+计算(HDFS+MapReduce)数据仓库(Hive)数据库(Hbase)批处理(Pig)搜索(Solr)挖掘算法(Mahout)BSP模型(Hama)分布式锁(Zoomkeeper)大规模搜索(Nutch)SqoopFlume处理框架-分布式OS-生态系统更多Hadoop在云计算的位置私有云公有云混合云InfrastructureasaService以服务的形式提供虚拟硬件资源,如虚拟主机/存储/网络等资源。用户无需购买服务器、网络设备、存储设备,只需通过互联网租赁即可搭建自己的应用系统典型应用:AmazonWebService(AWS)PlatformasaService提供应用服务引擎,如互联网应用编程接口/运行平台等。用户基于该应用服务引擎,可以构建该类应用。典型应用:GoogleAppEngine,Force.com,MicrosoftAzure服务平台SoftwareasaService用户通过Internet(如浏览器)来使用软件。用户不必购买软件,只需按需租用软件典型应用:GoogleDoc,Salesforce.com,OracleCRMOnDemand,OfficeLiveWorkspace面向外部用户需求,通过开放网络提供云计算服务IDC,GoogleApp,Saleforce在线CRM大型企业按照云计算的架构搭建平台,面向企业内部需求提供云计算服务企业内部数据中心等兼顾以上两种情况的云计算服务AmazonWebServer等既为企业内部又为外部用户提供云计算服务按提供的服务类型按云服务的对象IAASPAASSAASIAAS分布存储分布计算云计算核心技术有两极3200台主机传统架构(IOE)和云计算(虚拟化)的主要瓶颈服务器服务器服务器VPSVPSVPSVPSVPSVPS存储阵列数据移动EMC存储OracleIBM磁盘IO瓶颈带宽瓶颈计算瓶颈传统架构(IOE)和云计算(虚拟化)的主要瓶颈服务器服务器服务器VPSVPSVPSVPSVPSVPS存储阵列数据移动EMC存储OracleIBM磁盘IO瓶颈带宽瓶颈计算瓶颈cpucpucpu基于共享存储和高性能计算的架构。IO能力和机器数量成非正比计算能力和机器数量成正比传统架构(IOE)和云计算(虚拟化)的主要瓶颈数据移动磁盘IO瓶颈带宽瓶颈计算瓶颈服务器存储cpu移动计算而非移动数据,化整为零(128m),分片处理;本地化计算,并行IO,降低网络通信服务器存储cpu服务器存储cpu服务器存储cpu服务器存储cpu服务器存储cpu交换机HDFSMAPReduceIO能力和机器数量成正比计算能力和机器数量成正比Hadoop补充IOE存储架构应对大数据Hbase使用Hadoop补充传统架构(IOE)HiveHadoop处于群雄逐鹿的春秋战国时代Apache,Cloudera,MapR,HotonWorks,Intel-发行版本IBM,HP,Dell,浪潮,曙光,云创存储-一体机天云系(天云趋势,天云科技),友友,云创存储-解决方案亚马逊,百度云,腾讯云,移动打云-云服务为何Intel会大力扶植Hadoop?服务硬件体系的混战(X86-Power)(PCServer-小型机)提纲Hadoop补充传统架构应对大数据Hadoop云计算架构解析Hadoop应用案例和云平台EasyHadoop,RedHadoop介绍Google云计算平台体系结构:2003~2006年在多篇学术论文公开MapReduceSawzallR数据结果/图形存储BigTable分析GFS收集CollectorACollectorB数据源...ChubbyProtocolBuffer其他数据库后端系统:Google数据分析平台Google集群管理系统存储+计算(HDFS+MapReduce)数据仓库(Hive)数据库(Hbase)批处理(Pig)BSP模型(Hama)分布式锁(Zoomkeeper)Hadoop是Google三架马车的基础HadoopHDFSGoogleGFS分布式文件系统HDFS2的模块NameNode计算DataNode存储HadoopMapReduceGoogleMapReduce面向大规模数据处理的并行编程系统14/32JobTrackerTaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(ReduceTask)TaskTracker(ReduceTask)用户程序(JobClient)中间结果中间结果中间结果输出数据输出数据逻辑分片1逻辑分片2逻辑分片3提交作业Map任务从DFS/HugeTable等中读数据分片Map任务在本地写中间结果Reduce任务读Map输出的中间结果Reduce任务在DFS/HugeTable写输出数据MapReduce的目标自动并行化:开发者不必关心底层并行处理系统的系统自动可靠性处理:开发者不必关心设备、网络的临时/永久的故障编程接口Java语言编程接口、C++语言编程接口(Pipes)其他语言编程接口(Streaming),可以采用Python/Ruby/Shell等用户自定义map函数接收一个输入对Key,Value,产生一个中间对K’,V’用户自定义reduce函数接收一个中间K’和对应的V’集,合并V’集,形成一个较小的Value集HBaseGoogleBigTable海量结构化数据实时存储访问系统基于HDFS的主备Master、多个RegionSvr通过ZK构成集群数据按照三级索引组织,三次访问可以定位数据数据写操作在内存完成,但是需要对文件实施合并操作提纲Hadoop补充传统架构应对大数据Hadoop云计算架构解析Hadoop应用案例和云平台EasyHadoop,RedHadoop介绍Hadoop/HiveCluster@aliyunUser-phpHiveAdmin-HiveServer-HadoopHDCluster:80Core,180GHZ,10TB4GRAM,4Core*2.26GHz500GB启动100个Map生成100亿数据通过100个Map用Perl随机生成数据准备,1kw,1亿,10亿,100亿,100GB数据集通过Hive创建测试库表结构使用phpHiveadmin+HQL查询返回结果SELECTidFROMTablewhereidlike'%JA-sq%';(模糊匹配查询出ID带JA-sq的车牌号)1亿数据,并行5Map进程,144w/s扫描速度,69s返回10亿数据,并行46Map进程,800w/s扫描速度,117s返回100亿数据,并行453Map进程,5400w/s扫描速度,3分钟返回,基本满足需求。SELECTid,COUNT(*)FROMTableGROUPBYid(对每个车牌号分组归并,并求出现次数)1亿数据,并行5Map进程,2Reduce进程,104w/s处理速度,96s返回10亿数据,并行46Map进程,13Reduce进程,230w/s处理速度,7分钟返回100亿数据,并行453Map进程,121Reduce进程,500w/s处理速度,54分钟返回。Hadoop预算,其他方案的成本对比!投入成本(10TB预算)IOE(IBM+Oracle+EMC)时代(x)kw+自建Hadoop集群(20*4w+4w)=80w+使用云主机构建Hadoop[20*7970=15.94w/年]转变转变千万时代百万时代十几万时代初创型公司中型技术型公司政府,银行,电信年成本:1.5w/T我们还有那些成本压缩空间?实施周期IBM+Oracle+EMC时代(月)自建Hadoop集群(1年-半年)[学习和培训]阿里云Hadoop时代(星期/月)转变转变季度/月1年/半年月/星期个人,初创公司中型公司政府,银行,电信月1年/半年中型公司政府,银行,电信维护成本IBM+Oracle+EMC时代(规划,实施,维护,管理,)厂商专业人员配合[每次按小时收费]自建Hadoop集群(学习,经验,人才培育)Hadoop云时代(统一专人管理和维护)转变转变统一维护个人,初创公司厂商专业支持自己培养中型公司政府,银行,电信使用开放的技术还是封闭的技术?Hadoop应用案例和云平台UserCase1(智慧交通)用户:最大城市,交通领域(Citytraffic)场景:车牌记录[CarLicencePlate],100亿[10Billion]/年需求:小时级别-优化到分钟级[Minute]-未来优化到秒级[Seconds]查询IntelligentTransportationSmarterCities场景:车辆异常快速识别VehicleAbnormal交通安全问题培训目录移动,联通公司大数据平台云计算案例分析—上海公司基于云计算平台的移动用户行为特征分析55.0%9.2%27.6%1.8%1.8%4.5%55.0%9.2%27.6%1.8%1.8%4.5%•业务目标:-挖掘客户群体间内在差异,突出各群体外部特征和使用偏好,为营销活动建立目标客户群体•建模算法:-并行聚类算法PKmeans•应用性能增加约3倍,模型相似度较高普通大众型:各种业务使用不明显,平均出帐费用46元聊天一族型:短信多,GPRS流量多,平均出帐费用120元节约通话型:其他业务使用偏少,基本通话略高,平均出帐费用54元年轻白领型:彩信多,数据业务、增值业务多,时尚得分高,平均出帐费用251元商务人士型:消费额度高,国内国际漫游多,平均出帐费用291元生活百科型:消费额度一般,生活类得分高,平均出帐费用70元移动用户行为特征分析模型渠道偏好分析客户细分新业务关联时间性能:数据处理性能增加约30倍,数据挖掘性能增加约9倍,整个应用性能提高约3-7倍成本优势:成本降低6倍,运维耗电相当,占用机房面积更少,更高的处理能力正确度:符合商业标准云计算案例分析—江苏公司基于云计算平台的信令监测系统基于云计算平台的信令监测系统实验基于BC-PDM的ETL进行API级别的二次开发,形成信令信息分析系统功能包括SMS信令信息分析SP提交短信过程分析SP提交短信成功率分析GPRS的GN接口信令分析GN接口通信过程分析GN接口信令过程分析正确性100%,数据查询、统计性能提高7-15倍,成本降低4倍•数据范围:一个月数据•查询案例•查询:返回以上功能的某个时段结果•组合查询:满足4个复杂条件的查询实验条件单位秒联通电信详单查询系统业务问题提供所有手机用户的详单在线查询系统提供七大种类信息套餐及固定费、通话、短/彩信、上网、增值业务、代收费用业务扣费、其他扣费高峰时期提供千万并发用户在线查询请求已有方案使用两台IBMP5570小型机作为数据库服务器使用某关系数据库只存放3个月数据最多提供100查询/秒查询需要限制每个用户每天查询次数来保证系统稳定服务联通电信详单查询系统(续)新方案数据规模可容纳360TB原始数据存放半年七大种类详单数据平均每天2TB新增数据导入新方案构建80台双路IA服务器集群,安装英特尔Hadoop发行版构建分布式数据库集群共提供400TB详单数据存储容量集群提供每秒80万条详单数据插入集群可以保证每秒2万条月详单查询请求,满足在线用户需要成功案例二-联通电信详单查询系统(续)阿里淘宝的案例每日新增数据20T累积数据14P3200+服务器的云计算平台每天处理100,000+作业任务,包括100+新增作业任务每天处理1P+数据,包括0.5%新增数据总体数据规模阿里金融通过大数据整合掘金!阿里金融的信用评估系统会自动分析小
本文标题:课程一:运用Hadoop分布式架构补充传统架构(IOE)迎战大数据70
链接地址:https://www.777doc.com/doc-30409 .html