您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 网络新技术之大数据39
网络新技术之大数据5.大数据技术•5.1大数据的定义•5.2大数据的技术特征•5.3大数据的典型应用•5.4大数据的发展趋势一组数据3亿用户,每天上亿条微博.2015年全球移动终端产生的数据量6300PBFacebook每天要存储大约100TB的用户数据;NASA美国宇航局每天要处理约24TB的数据微信国内用户4亿,国外用户突破7千万,每天产生数据百度每天处理数据量100PBGBTBPBEBZB大数据时代的爆炸增长想驾驭这庞大的数据,我们必须了解大数据的特征。地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1PB(拍字节)=2^50字节1EB(艾字节)=2^60字节1ZB(泽字节)=2^70字节大数据概念和特征•什么是大数据(Bigdata)?维基百科的定义:大数据指难以用常用的软件工具在可容忍时间内抓取、管理以及处理的数据集(一般单个数据集大小在10T左右)。大数据之所以在最近走红,主要归结于互联网、移动设备、物联网和云计算等快速崛起,全球数据量大大提升。“大数据”是继云计算、物联网之后IT产业又一次颠覆性的技术变革2006年左右,数据量已足够大,但是当时大数据不红,why?为什么叫大数据:一是数量大YB:2的80次方,ZB的1000倍ZB:2的70次方,EB的1000倍EB:2的60次方,PB的1000倍PB:2的50次方,TB的1000倍TB:2的40次方,GB的1000倍GB:2的30次方,MB的1000倍绝大部分应用在这两个数量级•二是类型多结构特征:结构化、半结构化、非结构化拥有特征:私有、共有、公开形态特征:语音、文本、数值、图像、视频为什么叫大数据:二是类型多三是更接近把握信息资源的本质•大数据真正开始把信息变成资源•有的文章将大数据看作石油,大数据研究与自然资源利用发现、开采、提炼存在一定的相似之处•研究大数据,首先要研究各种有用的信息在何处,就是找矿•其次是把满足特定需求的信息收集过来,就是开矿•第三是把收集的信息按应用需求进行结构化处理,就是提炼,如同石油必须经过炼化才能变成消费用的汽油、柴油或作为原料用的聚乙烯、聚丙烯•第四是将这样的信息与具体的应用结合,使之发挥作用,这就是基于大数据的应用系统,或称之为围绕应用的大数据管理系统,如同汽油通过加油站加到消费者的汽车内,石化原料变成衣服、设备或其部件。大数据的各部分组成www.gjzq.com.cnwww.gjzq.com.cn大数据技术:图像、音频、视频、非结构化、社交关系数据处理技术商;现有IT系统改造商:大数据咨询公司、集成商、ERP、商务智能、客户关系管理系统;终端提供商向数据提供商演进:对现有客户数据的深度把握、建立客户之间的社交和联系;www.gjzq.com.cn展现方式:大型控制中心、移动终端在多样性、体量、速度三大特征的指引下,大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。大数据与传统数据库11采集环节存储环节分析环节应用环节传统数据分析大数据分析扩展到传感、互联网、交易等多来源多类型数据来源单一,以内部结构化数据为主主要是面向结构化数据和事务处理的关系型数据库扩展到面向非结构化数据和分析处理的非关系型数据库依赖高性能计算机,主要利用统计和机器学习算法需用分布式并行计算,Scaleout能力,以机器学习算法为主局限在金融、保险、零售、电信等少数领域,以决策支撑为主有望渗透到政府、医疗、交通等各个领域,嵌入到业务流程中来源广,3V非结构化和面向分析为主分布式并行架构结合机器学习算法更广的领域,更深入的嵌入业务流大数据系统的特点大数据资源大数据工具大数据理念大数据与其他新兴技术的关系•大数据、物联网、云计算、移动通信等都是近年涌现出来的新兴概念,彼此之间不是孤立的,而是存在着内部联系。大数据带来的思维方式的变化•处理的对象往往是全部数据,而不是部分数据的采样–采样的不合理会导致预测结果的偏差,在大数据时代,依靠强大的数据处理能力,应该去处理全部的数据。•不再执迷于精确性–精确的、规范化的、可以被传统数据库处理的数据只占全部数据的5%,必须接受不精确性才能处理另外95%的数据。–错误的数据是客观存在的,竭力避免它就失去了应有的客观性和公平性。–大数据的简单算法比小数据的复杂算法更有效。•更加关注相关性,而不是因果性–预测依靠的是相关性。–很多情况下知道“是什么”即可,不必知道“为什么”。大数据的价值链数据数据的掌控者,拥有或者可以收集大量数据的公司。海量的数据就是财富,可以考虑自己分析或者卖数据给其他公司。技术技术供应商或者分析公司。掌握了从海量数据中分析出有用信息的技能或者工具,但本身不一定拥有数据。思维有创新思维的人或者公司。他们对大数据敏感,有怎样挖掘数据的新价值的独特想法。@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第15页大数据基础架构要求可预测的低延迟高事务参数灵活的数据结构获取组织分析决策高吞吐量就地准备所有数据源和结构深度分析敏捷开发高度可伸缩性实时流数据运营影响5.大数据技术•5.1大数据的定义•5.2大数据的技术特征•5.3大数据的典型应用•5.4大数据的发展趋势大数据的技术特征数据结构:结构化数据与非结构化数据数据库数据模型:关系型数据库与非关系型数据库数据处理特性:OLTP与OLAP数据一致性:强一致性与最终一致性数据存储方式:行式存储与列式存储数据库存储与处理架构:SMP与MPP数据存储架构:传统分布式文件与新型分布式文件数据处理架构:基于并行计算的分布式数据处理技术(MapReduce)-17-数据的结构—结构化、非结构化、半结构化数据-18-对比项结构化数据非结构化数据半非结构化数据定义•有数据结构描述信息的数据•不方便用固定结构来表现的数据•介于完全结构化数据和完全无结构的数据之间的数据结构与内容的关系•先有结构、再有数据•只有数据,没有结构•先有数据,再有结构示例•各类表格•图形、图像、音频、视频信息•HTML文档,它一般是自描述的,数据的结构和内容混在一起结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者数据库数据模型—关系型数据库与非关系型数据库在大数据技术中非关系型数据库技术是必不可少的,但关系数据库也是不可或缺的-19-对比项关系型数据库非关系型数据库定义•创建在关系模型基础上,借助于集合代数等数学概念和方法来处理数据库中的数据•关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成•没有标准定义•包括:表存储数据库、键值存储数据库、面向文档的数据库等接口语言•SQL(StructuredQueryLanguage,结构化查询语言),对数据库中的数据进行查询、操作和管理•无统一标准•包括:各自定义的API、类SQL、MR等典型案例•Oracel、DB2、Sybase、SQLServer、Mysql、Postgresql等•新型的MPPRDB(Greenplum)也属于关系型数据库•Hbase、MongoDB、Redis数据处理特性—OLTP与OLAP-20-比较项联机事务处理OLTP(On-LineTransactionProcessing)联机分析处理OLAP(On-LineAnalyticalProcessing)基本类型业务操作型业务分析型数据特性对一条记录数据会多次修改,支持大量并发用户添加和修改数据数据写入后基本不再修改,能较好地支持大量并发用户进行大数据量查询技术特性确保数据的一致性确保事务的完整性数据读写实时性高支持多维数据以及对多维数据的复杂分析大数据量数据量GB-TB级TB-PB级典型示例银行业务系统/数据库各类决策分析系统/数据库OLTP以业务操作型为主,OLAP以业务分析性为主,两者对技术的要求很难兼顾数据一致性:强一致性与最终一致性-21-强一致性和最终一致性都是指客户端向数据库系统写入数据后,数据库系统能够提供的数据一致性的表现对比项强一致性(即时一致性)最终一致性弱一致性场景定义•假定三个进程A、B、C是互相独立的,且都在对存储系统进行读写操作数据一致性表现•A写入数据到存储系统后,存储系统能够保证后续任何时刻发起读操作的B、C可以读到A写入的数据•A写入数据到存储系统后,经过一定时间,或者在某个特定操作后,B、C最终会读到A写入的数据•A写入数据到存储系统后,存储系统不能够保证后续发起读操作的B、C可以读到A写入的数据示例•OLTP需要强一致性•OLAP需最终一致性•绝大多数应用不能够容忍弱一致性数据存储方式—行式存储与列式存储-22-传统关系型数据库主要采用行存储模式,海量数据的高效存储和访问要求引发了从行存储模式向列存储模式的转变行存储用户生日聊天记录日均在线时长用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7列存储用户11981-10-3用户21990-5-15用户1Xxxxyyyy..用户2Mmnnn..用户12用户23.7行存储列存储存储一行中各列一起存放,单行集中存储一行中各列独立存放,单列集中存储索引效率海量数据索引既占用大量空间,且索引效率会随着数据增长越来越低基于列自动索引,海量数据查询效率高,不产生额外存储空间效率同一行不同列数据类型不同,压缩效率低空值列依然占据空间列同数据类型,压缩效率高空值不占空间I/O查某列必须读出整行,I/O负荷高、速度慢只需读出某列数据,I/O低速度快结构表结构改变影响很大可随时动态增加列适用场景数据写入后需要修改和删除,基于行的反复查询,多用于OLTP数据库批量数据一次写入和基于少量列的反复查询,多用于OLAP数据库样例数据表数据库存储与处理架构—SMP与MPP在数据量急剧膨胀的背景下,数据库处理要求超出了单机或SMP架构能力范围,最高配置小型机也无法满足,所以在大数据技术中,MPP架构(计算分布+存储分布)架构成为主流-23-计算分布,存储集中DBServ共享磁盘DBServDBServDBServ网络SAN/FC计算集中,存储集中DBServ磁盘计算分布,存储分布DBServDBServDBServDBServ高速通信网络磁盘磁盘磁盘磁盘Master如:Oracle传统单机数据库如:OracleRAC小型机+共享盘阵如:Greenplum、HbaseX86+本地硬盘传统单机数据库SMP架构数据库MPP架构数据库对称多处理,SymmetricalMulti-Processing有两台以上的服务器,各主机之间共享总线结构,共享数据存储磁盘节点数有限制,主要通过提高节点配置来提高整体处理能力,扩展能力有限对共享磁盘的访问可能成为瓶颈SMP大规模并行处理,MassivelyParallelProcessing多个松耦合处理单元组成,数据存在本机磁盘上通过增加服务器数量提高系统处理能力,理论上可无限扩展,目技术可实现上千个节点互联对软件体系要求较高,需要通过软件层来调度和平衡各个节点的负载和并行处理过程MPP数据存储架构:传统分布式文件与新型分布式文件-24-传统分布式文件系统也可以适应海量数据增长,但是由于数据计算与存储是分离的,随数据量的增长,网络带宽形成瓶颈。新型分布式文件系统采用数据计算与存储绑定的新策略,可有效应对海量数据增长X86PC集群数据存储:磁盘阵列数据存储与计算合一数据计算:数据服务器数据靠网络传输本机硬盘本机硬盘本机硬盘本机硬盘计算模式拥有成本•盘阵负责存储,数据服务器负责计算,彼此靠网络连接,计算效率受网络带宽影响•PC机自行负责存储和计算,数据与计算绑定,不受网络带宽影响•专用设备价格昂贵,维护费用高
本文标题:网络新技术之大数据39
链接地址:https://www.777doc.com/doc-30294 .html