您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据技术应用实施方案建议-V0
学习·创造·超越·共享大数据技术应用实施方案建议信息技术管理部2013年6月1学习·创造·超越·共享目录•我行新一代数据集成平台能力要求•业内大数据技术的特性及应用研究•我行大数据技术的应用策略2学习·创造·超越·共享新一代管理分析类应用需求3运营与信息安全•运行日志存储与分析•安全日志存储与分析营销支持•加强客户洞察分析,实现灵活深入的客户细分;•科学的客户行为及渠道经营分析报告与决策•全面的计划预算管理•价值导向的管理会计;•流程化的财务会计体系•集成高效的财务运作•及时、准确的财务报告风险管理•满足新协议合规和内部管理需要的全面风险管理体系•市场风险、信用风险、操作风险等全面的风险计量;•风险建模监管合规支持•全面整合的反洗钱和欺诈风险管理;•监管合规长时间保存数据需求;•审计供数;•非结构化数据保存数据管控支持•数据完整、全面(广度、深度);•数据可信;•数据易用;•数据生命周期管理应用需求新一代管理分析类应用对于大数据处理分析技术提出了高要求学习·创造·超越·共享新一代数据集成平台数据特点与挑战4Volume数量大•数据内容丰富(账户信息、账户明细、流水信息等)•数据存储周期长(监管要求保存20年)•PB级的海量数据Variety种类多•数据类型多样,包括结构化、半结构化、非结构化数据,如交易数据、日志数据、影像视频数据等等Velocity速度快•近实时数据处理(即席数据分析)•实时访问(如历史数据查询)•流式数据计算(如反欺诈)大数据时代,技术面临着Volume、Variety、Velocity3V的挑战学习·创造·超越·共享目录•我行新一代数据集成平台能力要求•业内大数据技术的特性及应用研究–技术特性研究–技术应用研究•我行大数据技术的应用策略5学习·创造·超越·共享大数据技术一览图6大数据技术主要包含应用领域(如商务智能)、基础设施领域(结构化数据库技术、分析型数据技术等)和基础技术领域的各种相关技术。学习·创造·超越·共享重点调研的相关大数据存储技术产品调研TDAsterData基于商用硬件的分布式数据库技术HADOOP技术对于大数据技术、产品的调研分两类进行,即关系型数据库与非关系型技术,前者以基于X86的MPP技术为代表,后者以HADOOP技术为代表学习·创造·超越·共享大数据技术特性研究结论8分析维度X86MPPHADOOP数据特性仅支持结构化数据支持非结构化、半结构化、结构化数据扩展性可扩展至数百节点可扩展至数千个节点数据可靠性每份数据只有一个备份每份数据可有多个备份产品成熟度介于传统关系型数据库与HADOOP之间新技术,产品与技术均不成熟易开发性相对容易与传统数据库差异较大,开发复杂运维管理缺少统一的运维管理工具复杂,缺少统一的运维管理工具人员技能要求一般,仅需熟悉传统关系型数据库高,需要对产品、技术及程序设计有深入理解•基于X86的MPP技术与传统分析型数据库的差异不大,但是提供了良好的扩展性,适合替代现有技术进行关系型数据的分析•HADOOP技术支持的数据类型多,扩展性强,适合海量非结构化的数据分析,但技术不成熟,需逐步试点学习·创造·超越·共享目录•我行新一代数据集成平台能力要求•业内大数据技术的特性及应用研究–技术特性研究–技术应用研究•我行大数据技术的应用策略9学习·创造·超越·共享美国银行大数据技术应用情况10技术类型产品系统/机柜数集群容量(PB)数据量(PB)应用领域使用案例专有一体机Teradata2453.1数据仓库企业/集中式数据仓库Netezza80+2.81.1数据集市OLAPExadata10+10.08数据集市(OLAP和OLTP混合)全球人力资源部、CRC(客户报告中心:22TB)、AMT基于商用硬件的分布式数据库Vertica20.570.34数据集市OLAPHadoop技术ClouderaHadoop若干1.61.6ETL集团DW、电子商务、信用风险数据暂存与归档银行卡系统过期数据归档;集团数据仓库数据归档信息安全数据库、防火墙、应用程序等日志存储与分析风险分析定量风险技术(最大的Hadoop应用集群,173台机器,1.6PB未压缩数据)、欺诈检测沙箱分析美国银行在数据集市领域大量使用X86MPP技术,HADOOP主要用于ETL、数据归档、日志分析及风险分析等应用学习·创造·超越·共享美国银行未来大数据技术应用11产品美国银行的最佳定位战略性产品IBMNetezza纯分析性的工作量的首选解决方案。高性能和高扩展性。费用较低,比Exadata或Teradata更容易进行管理。并发性方面的局限,使其适用于数据市场,或可能适合小型部门的数据仓库。是OracleExadata适用于I/O要求极为严苛并需要20TB以上的交易/分析混合工作量。能够处理同一系统中的多种工作量。也可视为适用于20TB以上的分析数据库(目前运行的是标准Oracle数据库),因为它比Netezza更容易移植是Vertica(HP)作为一种新兴的主要候选方案,可替代Netezza和Exadata,为大型数据市场或部门数据仓库(20TB以上)提供基于商品的列式数据库。通过创新的写优存储和读优存储以及经验证的PB级别,扩展架构。在美国银行进行了两项重大且成功的实施。是SybaseIQ(SAP)列存储的首个商业实施。稳定、成熟的产品。许可交易使部署不受任何限制。通过标准的x86服务器和SAN运行。以前不属于扩展解决方案,且在这方面仍未经过验证。计划作为5-20TB数据市场的首选商品方案。是Teradata行业标准,适用于大型、要求高和复杂的企业数据仓库,此类数据仓库需要复杂的工作量管理和其他高级功能。高度专有化、昂贵且不易获得支持。美国银行的使用应仅限于W数据仓库,以及可能需要与W进行极高水平集成的某些数据市场。是SAPHANA最佳用途是为运行SAP软件的应用程序实现加速。对于一般的非SAP工作量,不必采用此解决方案。亦没有证据证明,HANA在SAP前端之外的市场广受欢迎。否ParAccel产品的发展速度非常快。供应商声称自己在POC方面无人可及。创新的架构和光纤通信。这是此表中唯一一个仍归小型独立供应商所有的解决方案。需要考虑供应商的规模、稳定性和长期生存能力。尽管技术令人印象深刻,但目前没有计划将ParAccel作为战略性产品。否结构化数据分析领域,Netezza、Exadata、Vertica、Teradata及SybaseIQ是美国银行未来的战略产品学习·创造·超越·共享国内银行同业•中国银行–采用HADOOP实现系统日志的分析•中国农业银行–进行历史数据的归档•中国银联–历史数据归档12目前中行、农行、银联等都已经开始了基于HADOOP技术的应用探索及规划学习·创造·超越·共享淘宝大数据技术应用情况13应用领域批处理:ETL数据分析,OLAP大数据量分析—主要使用Hive点击流日志分析;搜索排行榜和其他搜索相关的业务机器学习数据生命周期管理:归档存储:历史订单明细查询应用规模3000多个节点,36PB数据,20多个事业群,150多用户组,3000多用户。Hadoop应用发展历程淘宝数据服务平台架构淘宝采用HADOOP技术构建了完整的数据仓库及处理分析平台学习·创造·超越·共享大数据技术应用研究结论14关系型数据领域非关系型数据领域•Teradata主要用于数据仓库•X86MPP技术在数据集市中得到广泛应用•HADOOP技术在如下领域得到广泛应用•数据归档存储•ELT•半结构化数据分析随着HADOOP技术快速发展,其对关系型数据的处理支持也越来越强,关系型与非关系型数据的处理技术边界已经日渐模糊,后续应用HADOOP技术可能实现统一的数据处理分析平台学习·创造·超越·共享目录•我行新一代数据集成平台能力要求•业内大数据技术的发展及应用研究•我行大数据技术的应用策略15学习·创造·超越·共享我行大数据技术应用规划建议我行大数据技术应用规划建议技术应用领域建议技术应用领域建议ORACLE满足OLTP类应用需求X86MPP在某些非关键应用领域作为TERADATA的替代技术,降低应用成本;复杂的历史数据查询(如:多表关联,查询条件可自由组合的查询)Teradata核心数据仓库应用海量、多维度的复杂数据分析HADOOP技术历史数据归档;简单历史数据查询(查询条件固定的单表查询);半结构化数据分析;RDW区(ORACLEExadata)SOR区(X86MPP)ADW&CM区(TERADATA)LDS区(X86MPP+HADOOP)HDS-归档区(HADOOP)HDS-访问区(HADOOP+X86MPP)Staging区学习·创造·超越·共享第三阶段引入基于X86平台的商用硬件的分布什数据库产品,以较合理的性价比,提高海量数据的计算能力与时俱进、积极应用总体规划、分步实施制定计划、稳步推进第二阶段第一阶段引入遵行HADOOP技术标准的HADOOP技术产品,实现:•海量结构化历史数据的归档保存•信息安全日志的存储与分析扩展HADOOP技术的应用范围:•电商数据分析•其他场景•……我行大数据技术应用实施路径建议不断丰富大数据技术上的应用功能,形成我行完善的大数据技术应用体系。17学习·创造·超越·共享HADOOP技术选择方案比较18详细见:比较项方案方案一:采用免费开源发行版ClouderaHadoop方案二:采用商业开源发行版(如Cloudera、Hortonworks)方案三:采用闭源的HADOOP技术产品(如IntelHadoop、IBMBigInsights、EMCPivotalHD))是否关键指标成熟度与稳定性高高中是应用案例与规模多多少是产品和服务成本低中高是运行维护成本高中中是行内技术储备要求高中中是国内支持力量弱一般稍强是服务支持响应时间长较长一般是运行风险高中中是厂商依赖程度低中高否开放程度高高低否产品按需定制的灵活度高中低否学习·创造·超越·共享大数据技术应用初步实施计划19阶段主题开始时间结束时间第一阶段引入X86分布式数据库,分担Teradata批量数据处理压力,合理降低成本已完成第二阶段HADOOP测试案例准备与实现2013年6月13日2013年7月26日HADOOP产品选型测试2013年7月29日2013年12月30日历史数据归档应用基于HADOOP构建2014年初2014年底信息安全应用日志存储与分析基于HADOOP构建2014年中2015年中第三阶段电子商务大数据分析2015年初2015年底持续应用阶段不断丰富大数据技术上的应用功能2016年-学习·创造·超越·共享Q&AQuestions?20
本文标题:大数据技术应用实施方案建议-V0
链接地址:https://www.777doc.com/doc-27580 .html