您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > Cloudera大数据平台简介-SENDOUT
1 Cloudera大数据平台简介 从最先进的Hadoop平台到企业级数据中心 2 公司发展历史Cloudera Confiden0al -‐ Internal Use Only 23 Cloudera中国©2014 Cloudera, Inc. All rights reserved. 3 • 英特尔7.4亿美元投资到Cloudera • 英特尔与Cloudera通过开源驱动创新 • 英特尔使得Hadoop在IA架构上运行达到最优性能 • Cloudera与英特尔协作建立广泛的合作伙伴生态系统 • Cloudera在中国建立销售及技术服务团队,英特尔大数据团队2014年9月正式加入4 从Hadoop到企业级数据中心EDH ©2014 Cloudera, Inc. All rights reserved. 4 开源 可扩展性 灵活 性价比 ✔ 易于管理 ✖ 开放式架构 ✖ 安全与管治 ✖ ✔ ✔ ✔ 第三方应用 程序 任何数据类型的存储平台 UNIFIED, ELASTIC, RESILIENT, SECURE CLOUDERA企业级数据中心EDH 批处理 MAPREDUCE 分析SQ IMPALA 搜索引擎 SOLR 机器学习 SPARK 流处理 SPARK STREAMING WORKLOAD MANAGEMENT YARN 文件系统 HDFS ONLINE NOSQL HBASE 数据管理 CLOUDERA NAVIGATOR 系统管理 CLOUDERA MANAGER SENTRY , SECURE 5 Cloudera 5 综述 ©2014 Cloudera, Inc. All rights reserved. 5 • Cloudera企业级数据中心蓝图 • 更多样的工作负载(不仅仅是批处理) • 工作负载管理 • 分析SQL (Impala) • 搜索 • Spark • 第三方应用 • 灵活的部署方式 • 安全 • 管治 • 管理 6 Cloudera 5 不仅仅是批量处理 ©2014 Cloudera, Inc. All rights reserved. 6 • 工作负载管理 Hadoop 2 YARN 多样化的分析平台 • 分析SQL Cloudera Impala • 搜索引擎 Cloudera Search (Solr) • 机器学习&流处理 Apache Spark • 第三方应用程序 Cloudera Manager Extensions 第三方应用程序 任何数据类型的存储平台 UNIFIED, ELASTIC, RESILIENT, SECURE CLOUDERA企业级数据中心 批处理 MAPREDUCE 分析SQL IMPALA 搜索引擎 SOLR 机器学习 SPARK 流处理 SPARK STREAMING 工作负载管理 YARN 文件系统 HDFS 非关系型数据库(ONLINE NOSQL) HBASE 数据管理 CLOUDERA NAVIGATOR 系统管理 CLOUDERA MANAGER SENTRY , SECURE 7 工作负载管理 Hadoop 2 YARN ©2014 Cloudera, Inc. All rights reserved. 7 功能 • 支持多个工作引擎 • 更优的可扩展性 • 工作负载管理 • 资源共享 • 细粒度调度 • 负载隔离 优势 • 混合的使用平台 • 实现工作负载的SLA • 基于组的策略制定 8 分析型SQL Cloudera Impala ©2014 Cloudera, Inc. All rights reserved. 8 Impala的新特性 • 用户自定义方法与预定义分析方法 • 基于成本的join顺序优化 • 与YARN的整合 • 基于磁盘的Join • 窗口分析函数 Hadoop上的自助式BI 先进的MPP SQL执行引擎 • 10x快于最新的Hive • 在Hadoop生态系统中运行 • ANSI SQL兼容性 • 可使用现成的BI工具 • 安全与管治 • 便捷的管理 • 开源(Apache-‐licensed) 应用场景 • 数据仓库迁移 • 交互式的商务智能与数据分析 • 无丢失的在线存档 9 搜索 Cloudera Search (Apache Solr) ©2014 Cloudera, Inc. All rights reserved. 9 易用 • 交互式的全文检索与切面导航 • 实时的数据检索 • 多用户友好 灵性 • 批处理, 实时或者按需索引 • 多类型、多格式支持 • 原生与Hadoop执行引擎相结合 • 丰富的API与完善的生态系统 100% 开源 • 业界标准的搜索引擎 • 成熟的代码基础, 活跃的社区 探索 导航 关联 CDH是唯一一个提供企业级搜索解决方案的商用Hadoop版本 10 机器学习与流处理 Apache Spark ©2014 Cloudera, Inc. All rights reserved. 10 • 开源的数据并行处理框架 • 快速. 充分利用内存,比MapReduce的数据处理快100倍,有效支持迭代式机器学习与分析 • 开发友好. 提供Java, Scala, Python等多语言丰富的API • 完整. 集成于CDH, 可通过Cloudera管理器管理;通过与Databricks公司的协作共同对Spark开发完善 • 便捷的实时流处理 • 简单. API有利于快速部署流处理应用程序 • 容错. 实现“Exactly-‐once”语意 • 统一. 基于Spark平台共享数据与模型 Cloudera是唯一一家 使用Spark并提供支持的商用Hadoop服务供应商 11 一站式的大数据集群管理 Cloudera管理器 ©2014 Cloudera, Inc. All rights reserved. 11 • 工作负载管理 • 资源分组& 工作队列管理 • 资源的静态/动态分区 • 资源使用监控& 趋势预估 • 平台覆盖 • CDH 5对兼容性的支持 • CDH 5提供安装/升级的配置向导 • 可扩展性以及合作伙伴产品整合 • 例如SAS, Revolu0on, SyncSort, Informa0ca, … • Accumulo支持 • Spark支持 • 优化的监控 • YARN/MR2服务, 用户自定义触发器, 高级Impala监控… 第三方应用 程序 任何数据类型的存储平台 UNIFIED, ELASTIC, RESILIENT, SECURE CLOUDERA企业级数据中心 批处理 MAPREDUCE 分析SQL IMPALA 搜索引擎 SOLR 机器学习 SPARK 流处理 SPARK STREAMING 工作负载管理 YARN 文件系统 HDFS 非关系型数据库(ONLINE NOSQL) HBASE 数据管理 CLOUDERA NAVIGATOR 系统管理 CLOUDERA MANAGER SENTRY , SECURE 12 Hadoop上的细粒度授权 Apache Sentry ©2014 Cloudera, Inc. All rights reserved. 12 • Impala & Hive上的开源授权模型 • 基于角色的访问控制(RBAC) • 与传统数据库相同的安全 • 安全的, 细粒度的, 并且基于角色的授权 • 多用户管理 • 在Hadoop上保存敏感数据 • 符合监管要求 第三方应用程序 任何数据类型的存储平台 UNIFIED, ELASTIC, RESILIENT, SECURE CLOUDERA企业级数据中心 批处理 MAPREDUCE 分析SQL IMPALA 搜索引擎 SOLR 机器学习 SPARK 流处理 SPARK STREAMING 工作负载管理 YARN 文件系统 HDFS 非关系型数据库(ONLINE NOSQL) HBASE 数据管理 CLOUDERA NAVIGATOR 系统管理 CLOUDERA MANAGER SENTRY , SECURE 13 企业级数据管治 Cloudera导航器 ©2014 Cloudera, Inc. All rights reserved. 13 审计&访问控制 • 维护全量审计历史 • 确保数据权限以及数据访问合规 发现 & 探索 • 查找数据的可用性和数据格式/内容 数据沿袭 • 数据跟踪, 查找数据来源 生命周期管理 • 根据预定策略迁移数据 第三方应用程序 任何数据类型的存储平台 UNIFIED, ELASTIC, RESILIENT, SECURE CLOUDERA企业级数据中心 批处理 MAPREDUCE 分析SQL IMPALA 搜索引擎 SOLR 机器学习 SPARK 流处理 SPARK STREAMING 工作负载管理 YARN 文件系统 HDFS 非关系型数据库(ONLINE NOSQL) HBASE 数据管理 CLOUDERA NAVIGATOR 系统管理 CLOUDERA MANAGER SENTRY , SECURE Cloudera导航器: Apache Hadoop上一站式数据管治解决方案 14 ©2014 Cloudera, Inc. All rights reserved. 15 ©2014 Cloudera, Inc. All rights reserved. Full text search across HDFS See file schema Column Level lineage Table Level lineage Table metadata with technical descrip0on Tags for easy search and sharing Custom key/values Table metadata with business descrip0on Download lineage Who created it, when, where 16 Cloudera: 让EDH⻜飞上云霄 Portability: MulJple Deployment OpJons Flexibility: Pricing and Support Choice: Growing Ecosystem Private Cloud Physical Public Cloud • Tradi0onal licensing with Cloudera support
本文标题:Cloudera大数据平台简介-SENDOUT
链接地址:https://www.777doc.com/doc-1438619 .html