您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 戴尔Hadoop解决方案与大数据时代的服务器优化44
戴尔Hadoop解决方案和针对大数据而优化的PowerEdge•Dell-InternalUse-Confidential目录何为大数据戴尔针对大数据优化PowerEdge配置客户案例戴尔专业支持和服务戴尔:针对Hadoop/大数据推出的端到端企业解决方案为何要选择戴尔的Hadoop程序•Dell-InternalUse-Confidential何为大数据3•Dell-InternalUse-Confidential4每五年的增幅新数据类型所占的比例每位成年人所连接的设备数社交媒体的使用比例10倍85%4.3到2015年,构建现代信息管理系统的组织在财务业绩上将超出同行20%。Gartner发布的“21世纪的信息管理”27%数据世界的变化日新月异•Dell-InternalUse-Confidential5人们正在以飞快的速度创建和使用数据…6000亿美元每年因数据错误或数据质量低下而浪费6000亿美元。70%的数据由消费者创建。但其中80%的数据都由企业负责存储和管理。1.8ZB2011年使用的业务数据达到1.8ZB,比2010年增长了30%。2320亿美元截至2016年,投入在大数据上的资金将达到2320亿美元440万全球将创造440万个IT工作机会来支持大数据。只有1/3能够聘用到员工。37.5%37.5%的大型组织表示,分析大数据是其最大的挑战。2470亿每天发送的电子邮件数量达到2470亿封。其中80%是垃圾邮件。48小时每分钟就有长达48小时的视频上传到YouTube,这样每天的内容需要8年才能播放完毕。2亿每日上传到Facebook的照片数量达到2亿张。这样算下来,每月将上传60亿张照片。•Dell-InternalUse-Confidential6…带来了新的问题为什么我们的产品更受青少年的青睐?社交媒体活动将对产品发布带来什么影响?如何捕获、分析和管理所有这些数据?下一季度,季风是否会影响我在印度尼西亚的销售以及我供应商的部件供应情况?如何建立联系?如何将这些数据转化为运营智能?高级分析社交网站和Web分析实时数据馈送•Dell-InternalUse-Confidential7智慧城市电信零售制造医疗物联网金融服务大数据在各行业中的需求GB至TBTB至PB以上数据量稳定,增长不快持续实时产生数据,年增长率超过60%主要为结构化数据结构化,半结构化,非结构化,多维数据体量速度多样性统计和报表预测分析,机器学习,图形算法,统计建模价值•Dell-InternalUse-Confidential8出现以下情况时,应考虑采用大数据…存在来自多个数据源并采用各种不同格式的相关数据数据流源源不断地产生,但在捕获、存储和处理方面存在难题高昂的扩展成本令人望而却步大量有用的存档数据存在于磁带上(经过特定的时间后便不可恢复)需要分析的数据占大多数,而不是仅占一小部分采用现有的技术堆栈执行数据分析不可行/不切实际•Dell-InternalUse-Confidential9•一键自动还原•灾难恢复测试–无需停机•优化恢复成本;达到RPO/RTO要求大数据正显身手:移动用户QoS•显著降低带宽与管理成本•只复制发生更改的数据块(无重复工作)精简复制,节约更多•衡量、比较并了解哪些因素影响在任意时刻访问某一位置的人数•运用分析来提升用户的服务质量•Dell-InternalUse-Confidential大数据正显身手:IP电视用户建议引擎•收集用户的点击流和观看历史记录•从基于Web的影片数据库添加用户元数据•向用户提供观看建议点击流EPGVoD•Dell-InternalUse-Confidential11大数据正显身手:金融服务克服日益棘手且妨碍分析的数据量扩展(达到PB级)难题通过将作业转移到设计为处理多种数据类型的技术来提升运营效率使业务用户能够提出不同的问题来改进决策•Dell-InternalUse-Confidential12Hadoop分布式文件系统(HDFS)MapReduceHadoop和大数据•整合一切—所有数据都存放在同一位置并存储在同一文件系统(HDFS)中•擅长复杂分析—可跨多个节点大规模进行并行分析•经济实惠地进行扩展—安装在标准服务器上并开放源代码是什么使Hadoop与众不同?•Hadoop是一种高度可扩展的开源平台,适合整合式数据存储(HDFS)和处理(MapReduce)•为管理“大数据”数据集和数据量而设计•Dell-InternalUse-Confidential13Hadoop与传统数据库之对比1.读取速度快2.符合标准和监管要求1.加载速度快2.具有灵活性和敏捷性优点传统数据库“写时创建架构”Hadoop“读时创建架构”•必须先创建架构,然后才能加载任何数据•必须执行显式的加载操作才能将数据转换成数据库内部结构•必须先显式添加新列,然后才能将这些列的新数据加载到数据库中•数据直接复制到文件存储(HDFS),无需进行转换•将数据读取到HDFS中时,在此过程中会提取所取的列•新数据随时都可开始流动,因为架构是在此过程中创建的•Dell-InternalUse-Confidential14Hadoop/大数据使用案例运营数据处理(数据棘手问题)EDW扩充ETL卸载批处理数据储备库日志处理对客户的全面了解内容优化建议引擎网络分析欺诈检测预测分析(更大的问题)•Dell-InternalUse-Confidential戴尔:针对Hadoop/大数据推出的端到端企业解决方案15•Dell-InternalUse-Confidential16戴尔大数据解决方案的方法论……•与合作伙伴协作•结合软硬件和服务•参考架构和规模确定•更加深入的售前咨询•整合的售后技术支持简化客户体验缩短投入生产所需的时间优化解决方案性能提供最佳的投资回报我们如何实现?•Dell-InternalUse-Confidential17戴尔大数据解决方案包括Hadoop发行版•英特尔Hadoop发行版•ClouderaHadoop发行版戴尔Crowbar工具•Chef、Ganglia、Nagios、IPMI戴尔PE-C6220、PE-C8000及PE-R720/R720XD服务器戴尔PC-6248、Force10S60、S4810以太网交换机解决方案通过以下方式提供:•参考架构•部署向导•戴尔部署服务•Dell-InternalUse-Confidential18Dell|ClouderaHadoop行之有效且适合企业的Hadoop发行版行业领先的商用ApacheHadoop发行版ClouderaEnterprise适合大数据的平台Cloudera支持同类最佳的技术支持、社区宣传和补偿核心CDN项目ClouderaManagerClouderaNavigatorHBaseImpala访问管理数据审计ClouderaNavigator自动化数据管理ClouderaManager自动化系统管理部署服务管理监控诊断API滚动更新SNMPLDAP配置回滚报告预约诊断备份和灾难恢复TeradataTableeauOurviewOracleMetezza部署接口CDH100%开源的hadoop发行版HDFSMapreduceFlumeHCatalogHIVEHUEMahoutOoziePIGSqoopWhirrZookeeperHCatalogOozie核心项目高端项目更快地达成决策•与现有的数据仓库解决方案集成•采用经戴尔验证且适合您环境的PowerEdge配置•使用Crowbar软件框架快速部署ClouderaHadoop•通过ClouderaManager主动管理Hadoop应用程序•使用ClouderaImpala快速执行搜索•Dell-InternalUse-Confidential19英特尔Hadoop发行版出众的安全性、可管理性和性能机密信息英特尔发行版的组件提供安全且可管理的Hadoop来实现高性能Intel®ManagerforHadoop*软件部署、配置、监控、警报和安全保护Oozie工作流Pig脚本编写Mahout机器学习R接口统计数据HiveSQL查询YARN(MRv2)分布式处理框架HDFSHadoop分布式文件系统ZooKeeper协调Flume日志收集器Sqoop数据交换HbaseColumnar存储为卓越性能而设计•通过英特尔扩展到HBase和Hive的功能加快事务处理性能•提供各项作业级指标来分析群集中部署的特定工作负载•利用英特尔贡献自动完成基础架构配置满怀信心地管理安全群集•配备监控、报告和警报功能•利用增强的加密和解密功能增强安全保护和访问控制更快地达成决策•采用由支持Hadoop的业务分析软件解决方案组成、内容十分丰富的库•Dell-InternalUse-Confidential20戴尔基于Hadoop的大数据解决方案价值、性能和灵活性IntelHadoopClouderaHadoop或•Dell-InternalUse-Confidential21戴尔Crowbar-Hadoop集群部署的自动化从包装的节点开始拆开包装和上架上架好的节点用线缆连接交换机和电源准备好的节点为节点供电(网络启动)发现节点重新启动/网络启动硬件安装BIOS/RAID/BMC重新启动/网络启动基本操作系统安装重新启动/网络启动为角色做好准备硬件更新在UI中对更新进行标记重新启动/网络启动Chef客户端完成CrowbarUI分配新角色应用角色从“裸机”开始•系统BIOS更新和配置•RAID/SAS配置•操作系统部署•部署Hadoop软件•Hadoop软件配置•监控和报警的集成•Hadoop持续运维•Dell-InternalUse-Confidential戴尔针对大数据优化PowerEdge配置22•Dell-InternalUse-Confidential23•在工作负载优化过程中需要进行分析和基准测试•HBase与单纯的Map/Reduce有所不同–I/O模式不相同–Hbase需要更多内存–ClouderaRTQ(Impala)属于I/O密集型•MapReduce的使用情况各异–从I/O密集型到CPU密集型•接收和传输影响边缘(网关)节点•异构群集与专用群集相比呢?–Cloudera增加了对异构群集和节点的支持–如果工作负载一致,采用专用群集是合适的›主要用于“数据”业务工作负载优化:Hadoop的工作负载千差万别•Dell-InternalUse-Confidential24参考体系结构选项•高可用性–网络配置–主/辅助名称节点配置•备用交换机–可行–如需咨询,请与我们联系•群集大小–参考体系结构可轻松扩展到大约720个节点–此外,网络工程师还需要进行仔细的考察•节点大小–内存建议只是个起点–磁盘/内核之间的平衡从无休止•Dell-InternalUse-Confidential25型号数据节点配置备注RAR720/R720Xd双路,16核,最多24个2.5英寸磁盘轴最受欢迎的Hadoop平台C8000双路,16核,最多48个3.5英寸磁盘轴常用于磁盘轴/内核比较高、每TB成本较低的Hadoop应用程序C6220双路,16核,6个2.5英寸磁盘轴常用于内核/磁盘轴比较高、密度较高的Hadoop应用程序。C2100双路,12核,12个3.5英寸磁盘轴备受欢迎,硬件已停产,但常常改用于Hadoop实际应用—戴尔客户的Hadoop配置•Dell-InternalUse-Confidential26戴尔Hadoop部署参考架构•Dell-InternalUse-Confidential27为Hadoop优化的服务器平台–PEC8000通过PowerEdgeC平台,从数据存储、报告和分析系统中获得价值,提供规模、速度、丰富性和易用性•PowerEdgeC8000–12代产品•高密度计算配置:•C8000(4U机箱)+8台服务器节点C8220+2个双冗余电源节点。•特点:与一般2U单节点双路机架服务器相比,计算
本文标题:戴尔Hadoop解决方案与大数据时代的服务器优化44
链接地址:https://www.777doc.com/doc-1592515 .html