您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据时代挑战与解决之道
12013中国计算机网络安全年会大数据时代:挑战与解决之道2大数据时代面临的问题与挑战大数据解决之道云数据中心解决之道大数据◆大数据泛指数据集的大小超过了通常的数据库,数据管理软件所能获取、存储、管理和分析的范围◆大与小相对处理能力和需求而言,并无统一量化标准体量Volume多样性Variety速度Velocity价值密度Value3传统数据处理面临的挑战控制数据存储与数据处理的性价比如何满足大并发、快速响应多种数据类型的融合个人数据性能与扩展性的矛盾结构化数据半结构化/非结构化数据物质世界数据社会数据0200040006000800010000100300500700900传统分布…新型大数…4海量数据的问题与挑战软件处理能力资源管理•平台资源管理•数据资源化及共享•数据服务数据可信能力•安全监控•高可靠性•保密与隐私•数据模型和处理•编程模式•数据质量5大数据技术应用领域6◆基本原理异构多源信息网络(相比于同构)能够更完整的对现实世界进行建模,减少信息损失,从而发现更多知识。大数据技术应用领域7◆公共安全领域(棱镜计划)◇舆情监控:对海量信息自动抓取、自动分类/聚类、主题检测、专题聚焦,实现网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果◇安全态势感知:融合各类安全设施的海量数据信息,通过特征提取、安全分析、态势感知和预警,实现对网络当前状况的评估,和对未来变化趋势的预测。大数据技术应用领域8◆金融、电信、电子商务、财税等传统领域◇在线交易类应用,如银行业务、在线支付、在线交易、网络发票等;数据挖掘类应用,如信用评估、趋势预测、客户行为分析等。◆民生服务领域◇交通流量/路况监控,路径规划等;人口状况统计分析;疾病趋势分析;环境监控等大数据技术应用领域9◆互联网应用领域◇Web2.0、SNS、即时通信、垂直搜索等◆高性能计算领域◇气候模式处理;地震/石油勘探数据处理等◆科学研究◇第四范式医院每天产生10TB彩超图像运营商每天新增50亿条通话记录Facebook每月新增10亿张照片中等城市每年保存300PB交通视频大型连锁超市每天产生6000万条消费记录淘宝存储8.8亿件商品信息百度每天处理10亿次访问请求1mm³大脑突触网络图像超过1PB10◆数据采集量越来越大大数据技术趋势分析气象热点活动交通事故道路情况大数据技术趋势分析11◆多维度分析大数据技术趋势分析12◆分析能力嵌入业务应用系统大数据技术趋势分析13◆实时数据获取与分析企业信息总线交易服务企业信息服务网络服务决策分析服务OLTP[MPP]RDBDFS统一接口层MR/StormHadoop集群数据仓库数据集市统一存储层ETLETLMR/ETLETLRS/TM14大数据技术趋势分析◆统一融合架构大数据技术趋势分析15◆可视化技术大数据技术面临的问题与挑战◆大数据处理各环节都存在需要解决的问题◇数据模型◇数据收集/清洗/过滤◇数据存储◇数据处理◇数据展现数据收集原始数据数据数据过滤数据处理信息归纳演绎知识推断决策16大数据技术面临的问题与挑战17◆数据模型–完善理论基础◇计算机算法都是处理有结构、有语义的数据,按照某种数据模型来处理数据,而非结构化数据很难按照统一的模型进行分析处理。◇原有的数据库范式从理论上很好地支撑了关系型数据库的发展;但面对复杂类型的大数据处理,缺乏完备的理论基础支撑。大数据技术面临的问题与挑战18◆数据收集/清洗/过滤–获取置信区间◇大数据产生的来源广泛,通常具备低成本、低价值、高噪声、产生速度快等特点,如果毫无选择地全部储存和处理,势必对系统造成极大的压力◇相应地,数据的价值总是不断被发现,今天无用的数据,并不代表明天同样没有价值,因此不能简单地过滤掉“无用”数据大数据技术面临的问题与挑战19◆数据存储–融合异构数据◇海量异构数据的高效存储和组织问题ᅳ高效存储EB级结构化、半结构化、非结构化数据ᅳ采用多级存储、存储虚拟化等技术,处理热数据、冷数据、半热数据的存储和访问大数据技术面临的问题与挑战20◆数据存储–突破CAP◇认识到C、A、P均有程度之分:ACID与BASE之争◇放弃强一致性来避免高延迟,保证可用性(最终一致性和因果一致性,全局协商一致加高可用持久存储)◇C与A之间的取舍可以非常细小的粒度反复发生◇显式主动管理分区:探知分区、根据一致性约束限制某些操作、恢复和错误补偿大数据技术面临的问题与挑战21◆数据处理–普适计算框架◇常用的MapReduce只是针对互联网文本搜索提出的一种大数据处理技术,在离线数据挖掘方面具有较好的优势;而对联机事务处理(OLDP)、数据密集型科学计算(如地震处理),包括联机数据分析(OLAP)都不是最优的选择。在这些领域,仍然需要对相应的并行处理技术进行研究,包括分布式关系型数据库、适用于数据密集型计算的MPI等大数据技术面临的问题与挑战22◆数据处理-原位分析◇改变数据先存储、再处理的模式,在内存中处理更多的数据,极大地减少I/O的开销,实现数据使用与磁盘读取比例的最大化。大数据技术面临的问题与挑战23◆数据处理–异构混合加速◇适用于大数据处理的硬件体系结构优化:目前大数据的主要优化方向都在软件上,而硬件层面的优化实际上可以对数据处理性能起到相当关键的作用,需要在硬件体系结构方面进行深入研究,包括:大数据处理技术与异构加速计算(GPU等)技术的结合、专用数据处理芯片、高速存储硬件的应用等。24大数据时代面临的问题与挑战大数据解决之道云数据中心解决之道大数据解决之道存储管理分析共享和可视化软硬件一体的创新数据处理平台针对不同应用的系列化产品专业化的应用支持服务团队安全可靠的大数据处理方案获取25软硬件一体化26新型软件架构27◆计算随数据分布◆弹性可扩展◆业务连续性保证JobTrackerDataNodeCPUCPUCPUCPUCPUCPUCPUCPU28CPUCPUCPUCPUDataNodeCPUCPUCPUCPUDataNodeDataNodeNameNode主备备主备备主备备主备备数据本地化(计算随数据分布)是指并行计算框架智能地将计算任务指派到存储着该任务所需数据的节点,从而避免传统分布式计算中严重的数据传瓶颈。JobMap核心技术特征DataNodeDataNodeDataNodeDataNode备主备备主备备主备备CPUCPUCPUCPU29CPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPU主备业务连续性保证是传统分布式计算中最为复杂的开发目标。通常当系统规模扩展至百节点以上时,就必须应对计算单元失效,显式地保存和恢复失败任务。浪潮大数据一体机能够智能识别失败任务,自动将其转移到备份数据节点。核心技术特征01000200030004000500060007000800090001002003004005006007008009001000传统分布式处理系统新型大数据处理系统◇OracleRAC理论最大支持100个节点◇TeraData理论最大支持1000个节点关键节点性能限制网络带宽限制故障常态化核心技术特征30◆线性的性能增长软硬件一体化适用于大数据处理的存储单元•全局负载均衡•动态可调整冗余编码多副本•分布式共享缓存•FDR高速总线•在线扩展适用于大数据的处理单元有针对性设计和开发的适用于大数据处理的通用计算单元、轻量计算单元和重载计算单元。31软硬件一体化全局交换网络互连核心交换融合了数据通信与存储网络,实现对系统级消息通信、数据交换、以及I/O操作的统一支持,提高系统通信性能和扩展能力大数据核心交换优化的RDMA及原子操作引擎虚拟化调度加速引擎拥塞控制Qos虚拟通道加速引擎PHYPCSLLPXGMIIPHYPCSLLPXGMIIPHYPCSLLPXGMIIPHYPCSLLPXGMIIPHYPCSXGMIILLPPHYPCSXGMIILLPPHYPCSXGMIILLPPHYPCSXGMIILLPPHYPCSXGMIILLPPHYPCSXGMIILLPPHYPCSXGMIILLPPHYPCSXGMIILLPPHYPCSXGMIILLPPHYPCSXGMIILLPPHYPCSXGMIILLPPHYPCSXGMIILLP32大数据互联交换芯片互连核心交换融合了数据通信与存储网络,实现对系统级消息通信、数据交换、以及I/O操作的统一支持,提高系统通信性能和扩展能力优化硬件设计架构,高效利用PCIESSD缓存等方式显著提升系统处理能力;固化特定算法到FPGA,实现硬件加速Latency(ms)延迟访问延迟为磁盘的10分之一DiskSSDMemory控制器SSDMemory磁盘CPUHadoop平台性能优化33优化系统任务调度策略,对任务实现实时监控,并动态调整任务执行资源,减少慢任务数量,提高整体性能平均缩短任务执行时间16%34Hadoop平台性能优化大数据技术面临的问题与挑战通用处理单元集簇:面向IaaS和PaaS应用,以高性能通用处理器为基础,采用计算能力、I/O能力、存储能力均衡的设计轻量级处理单元集簇:面向海量数据挖掘、搜索引擎等海量数据并发处理类应用,以多核多线程低功耗处理器为基础,采用最小化设计和并发线程优化设计重载可重构处理单元集簇:面向视频处理、加解密等重载云计算应用,以可重构器件或众核处理器为基础,采用局部强化设计和硬件加速技术35动态可重构的层次式异构云服务器体系结构•层次化云服务器异构架构研究:研究云应用层次化处理结构,建立云服务系统接口层、汇聚层和并发处理层等层次划分方法;研究通用、轻载、重载等计算单元簇与云应用的适用性关系,建立云应用特征模型及与计算资源的映射方法;•支持高效亿级并发的云服务器互连网络研究:构建支持亿级并发的无阻塞、低延迟互连网络拓扑性能模型,完成云服务器互连网络适用性评估36大数据时代面临的问题与挑战大数据解决之道云数据中心解决之道云数据中心的演进云数据中心互联网客户机服务器大型机1st数据中心2nd数据中心3rd数据中心4th数据中心基础设施分期建设资源高度融合动态流转统一智能运维管理PUE显著降低海量数据存储与分析37行业云数据中心解决之道◆基于模块化的单元迅速搭建专业化、智能化、安全可靠的云数据中心云海操作系统集中式可调节供电单元全封闭循环冷却单元模块化结构组件结构化存储单元重载计算单元通用计算单元轻量计算单元专用加速计算单元非结构化存储单元主机安全组件数据安全组件38行业云数据中心运维管理通用计算池重载计算池专用加速计算池结构化数据存储池非结构化数据存储池WEB网站银行交易ERP动漫渲染数据库物理设备虚拟化按需组合服务器网络存储计算池网络池存储池资源分组◆资源池化39行业云数据中心运维管理网络用户HTTP,SSL,VPN资源申请资源使用应用环境的产生资源管理云端系统管理员资源池用户云务门户应用环境资源按需供给资源按量计费虚拟镜像管理服务质量管理计算池网络池存储池◆资源交付4041
本文标题:大数据时代挑战与解决之道
链接地址:https://www.777doc.com/doc-2512031 .html