您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 南航SVC大数据支撑案例25
南航SVC大数据支撑案例提纲进一步的工作系统架构技术选型考虑案例说明数据分散,形成数据孤岛;无法统一共享。高端系统旅客资料大客户旅客资料呼叫旅客资料客舱旅客资料电子客票旅客资料离港旅客资料销售旅客资料客户统一视图系统(SVC)通过SVC系统统一客户数据集中访问效率不高,系统稳定性不足,投资大。SVC初期探索SVC架构优化思考及技术选型RMDB主要技术难题扩展困难并发读写慢成本高(小型机+存储)无法支撑海量数据NoSQL的优点NoSQL的不足大数据量高性能、高可用弹性扩展能力灵活的数据模型低成本不完全支持SQL不支持事务不支持多表关联不支持聚合查询无法保证数据一致性优点迁移成本底方案成熟稳定能很好的支撑事务能保证数据的完整性能提供较高的TPS满足业务性能要求开发成本低,技术风险低有较好的扩展性外围系统SVC查询逻辑SVC接口SVC修改逻辑MemcachedOracleDB同步程序识别查询登录查询权限查询其他查询SVC基础信息查询MasterMySQLDBMasterMySQLDB识别MySQLDB识别MySQLDB读业务MySQLDB读业务MySQLDB读业务MySQLDB我们的选择并发访问量高,速度快,稳定高效,系统投资小。系统部署架构数据库小型机C档光纤交换机光纤交换机B档磁盘阵列磁盘阵列B档数据库软件SVC主备两套CBD主备两套小型机方案汇总600万数据库PCserver数据库软件SVC主备两套,CBD主备两套汇总35万分布式方案并发访问量高,速度快,稳定高效,系统投资小。投资比较01530456075901051201351501650200400600800100012001400识别接口新架构旧架构010203040506070SVC故障趋势结果比较选择hadoop+hive做分析平台高效率:通过分发数据,hadoop可以在数据所在的节点上并行地处理,处理非常的快速。高扩容能力:服务器群总计可达数千个节点,能可靠地存储和处理PB级数据。成本低:使用普通机器组成的服务器群来分发以及处理数据。可靠性:hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。跨平台:JAVA实现支持各种平台并支持多种语言的MapReduce.A表(30亿)+B(2亿)表A表做聚合统计查询,时间5分12秒;A表做数据清洗,时间12分07秒A表与B表join后做聚合统计查询,时间14分36秒测试结果数据分析平台架构业务数据库业务系统数据接口大数据处理集群任务调度平台管理器元数据管理安全管理任务管理集群管理平台管理平台监控HiveDevoloper文件管理处理结果导出ETL工具高速数据存取通用数据访问数据统一管理可配置化无需编程业务处理与hadoop分离12345交易数据文件/邮件数据客户数据设备/运行数据大数据处理平台DatanodeDatanodeDatanodeDatanodeNamenodeHDFSETL数据A1A2A1A2A1A2MapReduce任务管理导入导入数据清洗Hadoop可以存贮PB级别的数据,并且每个文件在不同的机器上有2份或3份备份,这样即使一台机子故障,将不会影响系统的可用性。大数据处理平台大数据存储问题的解决MySqlHadoop集群ETL工具平台数据转换服务3、转换任务调用4、数据转换1、数据导入BI分析BI系统报表查询数据源SVCCBDFFP2、数据导入Hivemapred5.1、报表生成5.2、特殊报表生成6、报表导出BI分析效率的解决构建开源数据服务平台分布式数据库中间件数据库节点数据库节点数据库节点数据库节点可扩容至1024个节点界面化配置按需扩容灵活缓存机制:注解式、配置式、编程式、AOP拦截在应用和底层数据源之间,构建一层代理,统一数据层;垂直切分:数据按业务划分存储在不同的数据库,表间关联密切的表划分在一起,例如同一模块的表。水平切分:将同一个表中的不同数据拆分到不同的数据库中;统一数据访问API:隐藏后端复杂数据分布细节,数据库操作看起来就像是在同一数据库中;建设目标通过分布式集群实现分库分表,解决大数据支撑问题;利用Galera,在客户端与MySQL服务器之间抽象出一层“统一数据中间层”,统一数据中间层包含HA功能,以简化MySQL的高可用环境的构建;实现集群自动管控功能,包括节点增减、监控等;实现数据服务云企业应用企业应用统一数据服务平台中间层DBDBDB配置中心系统监控数据库工具管理UI界面元数据管理数据源管理分库分表访问控制读写分离负载均衡数据审计统一数据服务平台中间层数据服务平台架构容易引起:重复研究法律问题包版本冲突系统不稳定技术无法积累对人员要求高研发成本高后续维护成本高分享:开源技术统一管理的必要性平台层视图层框架层中间件层•js:query、dwr、swato、GWT、prototype……•UI控件:Dhtml、jqueryUI、ExtJs、easyui……•JSP:velocity、tag、JFS……•MVC:struts1、struts2、spring、webwork……•ORM:hibernate、ibatis、persist……•组件:日志类、工作流类、XML解释类、安全类、缓存池类、接口服务类、数据传输类……•容器:tomcat、jboss、jetty、apach、nginx……•消息:activeMq、mule、openESB….•集群管理:zookeeper、heartbeat、lvs、ganglia、Nagios……•DB:mysql、PostgreSQL……•NoSQL:hadoop、mongoDB、hive、pig……•工具:Kettle、sqoop、datax、cobar、Myfox…..……开源技术推广和应用开源社区积极推广,提升项目交付能力,降低IT成本…逐步完善和扩展,形成技术积累基于开源社区实现四大统一对选定的技术逐步优化和扩展功能开源技术统一选型公用包统一管理开发框架统一封装通用组件统一研发分享:开源技术管理策略分享:开源技术管理方法公用开源包用maven进行统一管理,形成企业开源库占领开源技术前沿节约成本、满足业务需求开源技术统一选型开发框架统一封装通用组件统一研发产品评估技能评估法律评估ROI评估研发团队企业开源软件库优化完善MVC框架持久化框架UI框架开发规范开发工具推广实施实现工具化、模块化、规范化逐步积累实现重用降低成本提高质量分享:开源技术的推进策略开源实验室技术选型、架构设计、技术研究、产品研发.开源技术研发工作:将技术推广到每个项目组,每个程序员,让大家都用起来。技术推广:提升交付能力:通过积累开源技术能力,达到降低成本,提高效率的目的。分析技术需求、设定技术目标、制定技术规范。规划与设计:去IOE化降低成本解决性能和大数据问题简化开源技术降低难度技术规划与推广分享:组织机构设计技术小组(虚拟团队)开源实验室研发团队公司领导项目经理团队需求提出技术发展规划规范制订技术评审开源项目验收开源产品研究、测试、封装、开发……架构师团队实施推广团队架构师技术评估技术选型技术目标制订架构设计开源管理技术文档编写技术培训技术网站维护项目技术支持技术战略调配资源南航推进软件开源化成果1建立以五大数据核心为基础的开源化SOA平台通过开源化,已经完成旅客信息、旅客行为、运行控制信息三大核心数据库及面向SOA核心服务平台。2移动化、整合业务应用端在企业核心服务平台基础上,利用开源技术,重新整合呼叫中心、地面服务等应用,面向岗位需求实施移动化策略。3建立统一WEB技术架构使用开源技术,开发可伸缩性的统一平台架构,统一移动应用架构,统一WEB应用架构。4初步形成JBOSS/Linux/LVS统一开源基础性架构大部分新系统采用新的开源技术,原系统被进行优化,逐步统一使用开源的基础架构。5初步形成MySQL/hadoop/hive数据服务平台部分系统使用Mysql集群替换商业数据库,并实现读写分离。正在进行hadoop+hive的分布式大数据平台的研发,以支撑商业智能分析。完
本文标题:南航SVC大数据支撑案例25
链接地址:https://www.777doc.com/doc-24942 .html