您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > Cloudera5简介
1 Cloudera 5简介 企业级Hadoop数据平台 2 Cloudera 5 综述 ©2014 Cloudera, Inc. All rights reserved. 2 • EDH:企业级数据中心 • 更多的工作负载 • 工作负载管理(YARN) • 交互式分析型SQL(Impala) • 搜索&数据发现(Search) • 基于内存的计算框架(Spark) • 第三方应用 • 安全&管治 • 管理&监控 3 服务器 数据集市 企业级数据仓库 文件资料库 存储系统 搜索系统 存档系统 ERP、CRM、数据库、机器 文件、图片、视频、日志、点击流 外部数据源 ©2014 Cloudera, Inc. All rights reserved. 多样化的分析平台 4 1 2 3 4 大数据新架构 3 全保真的合规存档 1 高效的ETL 2 开放的接口 3 4 Cloudera企业级数据中心 ©2014 Cloudera, Inc. All rights reserved. 4 开源 可扩展性 灵活 成本效益 ✔ 管理 ✖ 开放式架构 ✖ 安全与管治 ✖ ✔ ✔ ✔ 第三方应用 程序 任何数据类型的存储平台 UNIFIED, ELASTIC, RESILIENT, SECURE CLOUDERA企业级数据中心 批处理 MAPREDUCE 分析SQL IMPALA 搜索引擎 SOLR 机器学习 SPARK 流处理 SPARK STREAMING 工作负载管理 YARN 文件系统 HDFS 非关系型数据库(ONLINE NOSQL) HBASE 数据管理 CLOUDERA NAVIGATOR 系统管理 CLOUDERA MANAGER SENTRY , SECURE 5 Cloudera 5 不只是批量处理 ©2014 Cloudera, Inc. All rights reserved. 5 • 工作负载管理 Hadoop 2 YARN 多样化的分析平台 • 分析SQL Cloudera Impala • 搜索引擎 Cloudera Search (Solr) • 机器学习&流处理 Apache Spark • 第三方应用程序 Cloudera Manager Extensions 第三方应用程序 任何数据类型的存储平台 UNIFIED, ELASTIC, RESILIENT, SECURE CLOUDERA企业级数据中心 批处理 MAPREDUCE 分析SQL IMPALA 搜索引擎 SOLR 机器学习 SPARK 流处理 SPARK STREAMING 工作负载管理 YARN 文件系统 HDFS 非关系型数据库(ONLINE NOSQL) HBASE 数据管理 CLOUDERA NAVIGATOR 系统管理 CLOUDERA MANAGER SENTRY , SECURE 6 工作负载管理 Hadoop 2 YARN ©2014 Cloudera, Inc. All rights reserved. 6 功能 • 更多的计算引擎 • 更好的可扩展性 • 工作负载管理 • 资源共享 • 细粒度调度 • 负载隔离 优势 • 混合型计算平台 • 实现工作负载SLA • 基于组的策略制定 7 分析SQL Cloudera Impala ©2014 Cloudera, Inc. All rights reserved. 7 Impala新特性 • 用户定制函数扩展 • 元数据刷新 • SQL join优化 • 与YARN的整合 Hadoop上的交互式商业智能(BI) 大规模并行处理SQL执行引擎 • 10x快于最新的Hive • 原生于Hadoop生态系统 • 兼容ANSI SQL • 兼容主流BI工具 • 安全与管治 • 简便的管理 • 开源(Apache-‐licensed) 使用案例 • 数据仓库ETL任务卸载(offload) • 交互式数据分析与挖掘 • 全保真合规文档快速查询 8 Impala的优势 8 • 直接操作HDFS上的数据 • 使用与Hive统一的Hadoop元数据 • 开源(Apache-‐licensed) • 与YARN的整合 • 自动安装、管理与监控• 支持滚动升级 • ANSI SQL兼容 • 主流BI工具兼容 • 支持定制化分析方法(例如MADlib) • 全面的数据安全性 • 基于角色的访问控制 • 可审计的权限管理 开放性 兼容性 管理 安全&管治 • MPP架构,优化的分布式计算 • 采用LLVM,性能逼近传统数据库 • 性能是Hive/S^nger的10-‐100倍以上 • 可以处理Hadoop上的任意数据 • “Schema on read or write” • 实现多引擎之间的数据共享 Hadoop上最快的原生态SQL 灵活性 9 搜索 Cloudera Search (Apache Solr) ©2014 Cloudera, Inc. All rights reserved. 9 易用性 • 支持全文检索与切面导航 • 支持实时数据索引 • 多用户友好 灵性性 • 支持批处理、实时索引 • 支持多类型、多格式数据源 • 原生与Hadoop生态系统相结合 • 丰富的API与完善的生态系统 100% 开源 • 业界标准的搜索引擎 • 成熟的代码,活跃的社区 探索 导航 关系 CDH是唯一一个提供企业级搜索解决方案的商用Hadoop版本 10 机器学习与流处理 Apache Spark ©2014 Cloudera, Inc. All rights reserved. 10 • 开源的数据并行处理框架 • 高效性:比MapReduce的数据处理快100倍,有效支持迭代机器学习算法 • 多语言兼容性:提供Java, Scala, Python等多语言丰富的API • 完整性:集成于CDH,可通过Cloudera管理器进行管理与监控 • 流处理计算框架 • 易用性:丰富的API加速流处理应用程序的开发与部署 • 容错性:实现“Exactly-‐once”语意 • 统一性:基于Spark,与批处理、Spark SQL共享数据与编程模型 11 第三方应用程序 可扩展的Cloudera管理器 ©2014 Cloudera, Inc. All rights reserved. 11 超过100个认证的合作伙伴产品 • CDH服务 • 分析、搜索、ETL • CDH应用程序 • 分析、商业智能、搜索、ETL • CDH安全性扩展 • 加密、管理、管治 • 硬件、宿主以及云平台 12 Hadoop上的细粒度授权 Apache Sentry ©2014 Cloudera, Inc. All rights reserved. 12 • Sentry开源授权模型 • 基于角色的访问控制(RBAC) • 与传统数据库相似的授权操作 • 安全的、细粒度的、基于角色的授权 • 多用户管理 • 在Hadoop上保存敏感数据 • 符合监管要求 第三方应用程序 任何数据类型的存储平台 UNIFIED, ELASTIC, RESILIENT, SECURE CLOUDERA企业级数据中心 批处理 MAPREDUCE 分析SQL IMPALA 搜索引擎 SOLR 机器学习 SPARK 流处理 SPARK STREAMING 工作负载管理 YARN 文件系统 HDFS 非关系型数据库(ONLINE NOSQL) HBASE 数据管理 CLOUDERA NAVIGATOR 系统管理 CLOUDERA MANAGER SENTRY , SECURE 13 企业级数据管治 Cloudera导航器 ©2014 Cloudera, Inc. All rights reserved. 13 审计&访问控制 • 维护全量审计历史 • 确保数据权限以及数据访问合规 发现 & 探索 • 查找数据的可用性和数据格式/内容 数据沿袭 • 数据跟踪, 查找数据来源 生命周期管理 • 定制策略管理数据 第三方应用程序 任何数据类型的存储平台 UNIFIED, ELASTIC, RESILIENT, SECURE CLOUDERA企业级数据中心 批处理 MAPREDUCE 分析SQL IMPALA 搜索引擎 SOLR 机器学习 SPARK 流处理 SPARK STREAMING 工作负载管理 YARN 文件系统 HDFS 非关系型数据库(ONLINE NOSQL) HBASE 数据管理 CLOUDERA NAVIGATOR 系统管理 CLOUDERA MANAGER SENTRY , SECURE 14 ©2014 Cloudera, Inc. All rights reserved. 14 15 全面的安全与管治 仅在Cloudera 15 外围组件 对集群访问的管理与保护 技术理念: 认证 网络隔离 数据 保护数据以防未授权的访问与操作 技术理念: 加密, 信令, 数据屏蔽 访问 定义哪些用户与应用程序可以操作数据 技术理念: 权限 授权 可见性 数据源回朔以及数据转换跟踪 技术理念: 审计 数据沿袭 Sentry Kerberos | AD/LDAP Cloudera导航器 认证的合作伙伴 16 企业级平台(系统)管理 Cloudera管理器 ©2014 Cloudera, Inc. All rights reserved. 16 • 工作负载管理 • 资源分组& 工作队列管理 • 资源的静态/动态分区 • 资源使用监控& 趋势预估 • 兼容性与升级 • CDH 5对旧版本集群的支持 • CDH 5提供安装/升级配置向导 • 第三方工具集成 • SAS、Revolu^on、Informa^ca、Tableau……支持 • Accumulo支持 • Spark支持 • 集群监控 • 物理节点监控 • 服务组件监控 • 警报、诊断、报表 第三方应用 程序 任何数据类型的存储平台 UNIFIED, ELASTIC, RESILIENT, SECURE CLOUDERA企业级数据中心 批处理 MAPREDUCE 分析SQL IMPALA 搜索引擎 SOLR 机器学习 SPARK 流处理 SPARK STREAMING 工作负载管理 YARN 文件系统 HDFS 非关系型数据库(ONLINE NOSQL) HBASE 数据管理 CLOUDERA NAVIGATOR 系统管理 CLOUDERA MANAGER SENTRY ,
本文标题:Cloudera5简介
链接地址:https://www.777doc.com/doc-1491688 .html