您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 数据集成为Hadoop保驾护航
11数据集成为Hadoop保驾护航久经验证的降低数据管理成本的创新之路2InformaticaCorporationConfidential–DoNotDistribute2“到2015年,那些将高价值、多样和最新的信息类型及来源集成到统一连贯的信息管理基础设施的组织,其财务表现将较业内同行优越20%以上。”,NeilChandler,Gartner“当前部署的85%数据仓库项目,都不能适当扩展规模以满足新的信息数量和复杂性要求”,“MarkBeyer,Gartner3InformaticaCorporationConfidential–DoNotDistribute3大v实施久经验证的创新之路随着数据呈指数级增长,降低大数据成本4InformaticaCorporationConfidential–DoNotDistribute4您如何权衡创新&成本?5InformaticaCorporationConfidential–DoNotDistribute5您打算如何利用大数据来开发创新产品和服务?欺诈侦查,风险&投资组合分析投资推荐互联车辆预测维护维修基于位置的服务实时数据审计医疗保险交易合规性国家安全治疗效果预测患者监护个性化医疗合规性主动客户沟通交流药物识别基因测序合规性忠诚度计划游戏遥测6InformaticaCorporationConfidential–DoNotDistribute6源数据分析系统社交媒体和网络日志科学机器设备文档和电子邮件批量ETL交易,OLTP,OLAP企业数据仓库原始数据或不经常使用的数据耗费能力批量窗口已到极限,SLA处于危险之中数据库和数据仓库迅速力不从心数据量持续增长,您如何降低&控制成本?数据集市ODS7InformaticaCorporationConfidential–DoNotDistribute7企业数据仓库交易,OLTP,OLAP网格计算传统•将原始数据临时存储在低成本的商用硬件上•将ETL/ELT处理转移到低成本的商用硬件上降低数据管理成本8InformaticaCorporationConfidential–DoNotDistribute8企业数据仓库交易,OLTP,OLAP实时数据集成传统•借助实时数据集成,平滑实现ETL处理•借助高速数据复制,从源系统中卸载处理降低数据管理成本高速数据复制大型机ODS9InformaticaCorporationConfidential–DoNotDistribute9•借助通用的IDE,将生产效率提升两倍。开发人员通过一次开发,即可实现随地部署。降低数据管理成本企业数据仓库图形开发工具ODSCommonIDE(Buildonce,deployanywhere+Rapidprototyping)TraditionalGrid在低成本商用硬件上执行在本地或云中部署下推至RDBMS主数据管理10InformaticaCorporationConfidential–DoNotDistribute10DataMartDataMartDataMartDataMartDataMartDataMartDataMartDataMartDataMart企业数据仓库BI报告/报表数据虚拟化ODS主数据管理•消除数据副本,通过数据虚拟化提升数据仓库能力降低数据管理成本11InformaticaCorporationConfidential–DoNotDistribute11活跃数据性能时间数据库规模企业数据仓库低成本存储归档交易,OLTP,OLAP低成本存储归档•识别休眠数据•将不活跃数据归档至低成本存储降低数据管理成本不活跃数据12InformaticaCorporationConfidential–DoNotDistribute12您如何实现大数据的最大回报?大交易数据大交互数据在线交易处理(OLTP)OracleDB2IngresInformixSysbaseSQLServer…云Salesforce.comConcurGoogleAppEngineAmazon…其他交互数据图像/文本科学基因/制药医疗医疗/设备传感器/仪表RFID标记CDR/移动设备…社交媒体&网页数据FacebookTwitterLinkedinYoutube…大数据处理在线分析处理(OLAP)&数据仓库设备TeradataRedbrickEssBaseSybaseIQNetezzaExadataHANAGreenplumDataAllegroAsterdataVerticaParaccel…大数据集成网页应用博客论坛社区合作伙伴门户…容量种类速度13InformaticaCorporationConfidential–DoNotDistribute13…以及将大数据项目风险降至最低Informatica,数据集成领域的绝对领导者欺诈侦查风险&投资组合分析投资推荐基于位置的服务医疗费用医疗保险交易合规性国家安全互联车辆预测维护维修治疗效果预测主动客户沟通交流药物识别基因测序忠诚度计划14InformaticaCorporationConfidential–DoNotDistribute14实施久经验证的创新之路通过快速原型法和合作获得更快的洞察力数据科学团队协同合作发现洞察力欺诈侦查下一个最佳购物建议流失的可能性解析分阶段集成通用化屏蔽标准化清洗NLP,提取匹配15InformaticaCorporationConfidential–DoNotDistribute15PowerCenter大数据版降低大数据项目成本交易OLTP,OLAP社交媒体和网络日志科学机器设备文档和电子邮件企业数据仓库ODS主数据管理传统网格将处理卸载至低成本的商用硬件快速上载新的数据类型16InformaticaCorporationConfidential–DoNotDistribute16设计一次随地部署分析师&数据科学家开发人员传统网格PowerCenter大数据版提高生产率,降低风险生产率提高近3倍17InformaticaCorporationConfidential–DoNotDistribute17PowerCenter大数据版大数据之旅安全畅通大交易数据大交互数据在线交易处理(OLTP)OracleDB2IngresInformixSysbaseSQLServer…云Salesforce.comConcurGoogleAppEngineAmazon…社交媒体和网页数据FacebookTwitterLinkedinYoutube…大数据处理在线分析处理(OLAP)&数据仓库程序TeradataRedbrickEssBaseSybaseIQNetezzaExadataHANAGreenplumDataAllegroAsterdataVerticaParaccel…网页应用程序博客论坛社区合作伙伴门户通用数据访问高速数据存入和提取ETLonHadoopHadoop平台数据剖析Hadoop平台复杂数据分析虚拟数据机(设计一次,随地部署)无代码生产力Business-IT合作统一管理其他交互数据图像/文本科学基因/制药医疗医疗/设备传感器/仪表RFID标记CDR/移动设备…Hadoop平台实体提取和数据分类18InformaticaCorporationConfidential–DoNotDistribute18HADOOP核心:MAPREDUCE分布式计算框架12345245MR125134235134在多个节点并行处理大量工作,并整合结果。来源:Cloudera19InformaticaCorporationConfidential–DoNotDistribute19交易,OLTP,OLAP社交媒体网络日志文档和电子邮件科学机器设备最大化大数据投资回报Hadoop补充现有基础设施数据仓库主数据管理运营系统分析系统数据资产数据产品数据集市ODSOLTPOLTP访问&存入解析&准备识别&剖析转化&清洗提取&交付管理(例如安全、性能、治理和协作)&其他NoSQL20InformaticaCorporationConfidential–DoNotDistribute203.在Hadoop中解析和准备数据(MapReduce)1.将数据存入Hadoop4.在Hadoop中转换和清洗/标准化数据(MapReduce)监控和管理(Hadoop或非Hadoop作业/流程)编排工作流(Hadoop或非Hadoop作业/流程)6.从Hadoop提取数据2.发现Hadoop数据的异常、关系和域类型5.在Hadoop上调用自定义业务分析配置文件数据销售和市场营销数据集市客户服务门户账户交易2012年12月立即可用通过Informatica释放Hadoop的强大功能Informatica公司机密–未经许可,不得发布。提供产品和服务客户配置文件社交媒体客户服务日志和调查营销活动21InformaticaCorporationConfidential–DoNotDistribute21数据仓库主数据管理应用程序交易,OLTP,OLAP社交媒体网络日志文档和电子邮件行业标准科学机器设备数据存入和抽取每小时移动数十TB的交易数据、交互数据和流数据ReplicateStreamingBatchLoadExtractArchiveExtract低成本存储22InformaticaCorporationConfidential–DoNotDistribute22CUSTOMER_IDexample国家代码示例3.追溯分析(Hadoop数据)2.值和模式分析Hadoop数据1.剖析统计数据:最小值/最大值,空值推导的数据类型等邮政编码示例追溯实际数据值来检验整个数据集中的结果,包括可能的重复值和模式频率与不一致的/脏数据或意外模式隔离Hadoop数据剖析结果——通过浏览器接触企业中的任何人员标识数据中的异常和反常现象的统计数据Hadoop数据剖析结果Informatica公司机密–未经许可,不得发布。23InformaticaCorporationConfidential–DoNotDistribute2324InformaticaCorporationConfidential–DoNotDistribute24SELECTT1.ORDERKEY1ASORDERKEY2,T1.li_count,orders.O_CUSTKEYASCUSTKEY,customer.C_NAME,customer.C_NATIONKEY,nation.N_NAME,nation.N_REGIONKEYFROM(SELECTTRANSFORM(L_Orderkey.id)USINGCustomInfaTxFROMlineitemGROUPBYL_ORDERKEY)T1JOINordersON(customer.C_ORDERKEY=orders.O_ORDERKEY)JOINcustomerON(orders.O_CUSTKEY=customer.C_CUSTKEY)JOINnationON(customer.C_NATIONKEY=nation.N_NATIONKEY)WHEREnation.N_NAME='UNITEDSTATES')T2INSERTOVERWRITETABLETARGET1SELECT*INSERTOVERWRITETABLETARGET2SELECTCUSTKEY,count(ORDERKEY2)GROUPBYCUSTKEY;InformaticaHadoop路线图HadoopMapReduce处理HiveHQLInformatica开发人员1.Informatica映射转换成优化的HiveHQL和用户自定义功能2.优化的HQL转换为MapReduce3.在Hadoop上执行MapReduce用户自定义功能DataNodeDataNodeDataNode数据节点UDFMapReduceInformatica数据转换引
本文标题:数据集成为Hadoop保驾护航
链接地址:https://www.777doc.com/doc-6348560 .html