您好,欢迎访问三七文档
第一章第一节大数据概述:当今世界已经进入了大数据时代。大数据无处不在,它正在深刻影响:人们的工作、生活和学习,并将继续产生更大的影响。专业技术人员身处大数据时代,需要更好地认识大数据、掌握大数据、利用好大数据。大数据产生的背景(→大数据产生的技术背景大数据不是某一天突然产生的随着互联网信息的急速增长,机器设备信息的实时采集,产生了大量数据,这些数据如何存储、挖掘以及利用成为一个人们必须解决的问题,文本、图片、音频、视频等多媒体信息对存储技术提出了新的要求,而位置信息、关系信息使得数据种类越来越丰富,其价值挖掘也日益受到人们的重视。大数据的理念和方法正是在这种环境中产生的。互联网是一种最为突出的大数据环境。在200年前后,互联网网页呈现爆发式增长,到2000年年底,全球网页数达到和亿个,而且每天以大约m万个网页的速度飞速增长。在这种情况下,用户查找信息越来越不方便。为了帮助互联网用户从亿万数据中快速找到所需信息,谷歌(Gwe)等公司率先建立了覆盖数十亿网页的索引库,开始提供较为精确的搜索服务,大大提升了人们使用互联网的效率,这是大数据应用的起点,当时搜索引擎要存储和处理的数据,不仅数量之大前所未有,而且形式以非结构化数据为主,传统技术已经无法应对。为此,谷歌提出了一套以分布式为特征的全新技术体系,即后来陆续公开的分布式文件系统和分布式数:据库(Bgmbe)等技术。通过这些技术,利用较低的成本实现了之前技术无法达到的数据处理规模。这些技术奠定了当前大数据技术的基础,可以认为是大数据技术的起源。随着互联网的进步发展,特别是W小20发展,万维网之父蒂姆·伯纳斯·李(TmBemm·ke)等人在m7年发起开放数据运动,将关联数据串联起来形成一个巨大的数据网,从而构建更多的应用与服务,开放数据运动同时也带来了更多的数据。云计算,物联网`分布式并行计算及数据库、社交网络及智能终端等新兴信息技术的发展,也正在不断丰富数据的采集方式。此外,为了解决数据遗失问题,数据存储设备及其功能也不断完善,使得数据的保存更加便捷,这也让数据量变得越来越大,据mC报告估计,2005―2020年间,全球数据量将增长3M倍,达到和万亿G的。数据的快速增长,引出了更多的数据管理、硬件环境与分析服务等需求。政府、电子商务、互联网、金融、医疗保键等行业的相关组织,开始使用多种新兴信息技术不断搜集不同来源的各类数据,以便从中挖掘出更多有价值的信息或知识。对组织来说,数据采集已不是主要障碍,关健在于更完善、更有效的数据分析与挖掘方法,让信息变得更容易理解且利于决策行动。仁)大数据产生的社会背景伴随着互联网产业的崛起,新的海量数据处理技术在电子商务、精准,广告、智能推荐、社交网络等方面得到了广泛应用,并取得巨大的商业成功。这启发了全社会开始重新审视数据的巨大价值,于是,金融、电信等数据密集型行业开始尝试使用新的理念和技术并取得初步成效。与此同时,业界也在不断对谷歌公司提出的数据处理技术体系进行扩展,使之能在更多的场景下使用。Mll年,麦肯锡、世界经济论坛等知名机构对这种数据驱动的创新进行了研究总结,随即在全世界兴起了一股“大数据”研究和应用的热潮。大数据概念的提出,对人们的生活、思维及工作方式产生了巨大的影:响,并将当前的信息化社会推进到了·个新的发展阶段。当前数据急速膨胀,使得传统的系统平台已无法支持大数据处理,现有分析方法也难以从纷繁复杂的大数据中凝练出更多有价值的信息以及提供新的深刻洞察这就要求对大数据存储技术、处理技术、分析方法应用服务等方方面面做全新的思考,进而也引出了大数据存储、分析,管理与服务等一系列基于数据链的“大数据产业”。大数据被多个领域视为下一代信息技术与数据分析管理的热点,影响人们思维与生活、企业运营与管理、国家治理与政府决策等各个方面。对:国家决策及政府管理来说,数据资源已成为新时代中的一种战略优势,对科研人员来说,大数据并不是突然出现的新概念或新技术,而是由过去的分布式数据挖掘等专业术语演变成的广为人知的流行词这种演变的重:要意义在于启发了人们重新审视数据的重要意义及潜在价值,无论是科研学术界,还是工商企业界;无论是政府组织管理,还是个人日常生活,大数据已渗透到各个学科领域、各行各业、多个层面,可以说,大数据不仅仅是一项技术,更是一种社会现象。如何搜集与构建大数据,存储与管理大数据、分析与挖掘大数据价值,变成为一个新热点,新领域,大数据带来的新机遇与新挑战是前所未有的,值得人们广泛关注,大数据的基本概念:大数据是当前信息化社会发展的热点话题。关于什么是大数据,目也有多种观点。较直观的认识是按照数据规模来界定大数据,例如,麦肯锡的咨询报告将m级以上的数据集视为大数据;如14年国际数据公司预测报告指:出,在大数据环境中超过1"11的数据集已是常态现象,包括谷歌每天处美国国家航空航天局)的天气观测数据存储量、电商每天处理的交易数:据等;舍恩伯格在《大数据时代》一书中认为PB级以上的数据才称为大,数据另一种典型观点认为,传统数据库技术与方法无法处理的海量或非结:构化的数据集,称之为大数据。维基百科将大数据定义为;无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。高德纳Cmmr)咨询公司也认为,数据的极端规模、多样性和复杂性已普遍存在于当前环境,同时也是一种颠覆现象,致使当前的数据管理、技术工具或分析方法需要进一步扩展、改造集成甚至创新。显然,这些观点已经不把数据量作为判别是否是大数据的唯一标准了,而是引入了技术和方法:标准,即大数据是无法用传统数据库技术与方法处理的数据集,以上两种观点都是从大数据的自身条件来定义大数据的,还有一种观点,从功能或流程角度来诠释大数据。这种观点认为大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式;生活方式和观念形态上的颠覆性变化的总和。大数据是数据化趋势下的必然产物。数据量的爆炸性增长,不仅带来了各种计算处理数据的新要求,而且带来了互联网时代信息过载以及如何抓住消费者注意力的新问题。数据来源极大丰富,形成了大量非结构化的数据形态,并且数据之间的跨领域关联现象十分普遍。同一个数据,其表现形式可能会不同,表现方式可:以是数据库、数据表格`文本、传感数据、音频、视频等多种形式;同―个事实或规律可以同时隐藏在不同的数据形式中,也可能是每一种数据形:式分别支持了同一个事实或规律的某一个或几个侧面这种跨域关颗数据量增大后从量变到质变的飞跃,是大数据巨大价值的基础。服务对象上也从针对全体的服务,变成了针对不同群体,甚至个体的服务。大数据不是数据量的简单刻画,也不是特定算法、技术或商业模式上的发展,而是从数据量、数据形态和数据分析处理方式,到理念和形态上重大变革的总总结以上内容要全面了解大数据,应该从“数据资源、技术工具,分析应用"三个认识视角来界定大数据。大数据是具有体量大、结构多样、时效性强等特征的数据;处理大数据需采用新型主像架构和智能算法等新技术;大数据的应用注重相关分析而不是因果分析等新念,目的在于发现新的知识与洞察并进行科学决策。三大数据的特点(·大数据的数据特点IBM(internationalBusinessMachineCommonation,edBmnh358dlasAN司)用3个V来描述大数据的三个基本特性,3V分别是体量(WI.mo、速度(Vemy)以及多样性(Vmey)。也有人认为大数据包括三个要素,即大分析(BgAnaMO、大带宽(BgBandwdth)以及大内容(BigCmenD。舍恩伯格把大数据总结为4个V'即数据规模大(VdUm)、数据类型多样(Vmy)、数据处理速度快(Wmy)、数据价值密度低(vnUo。尽管大数据的定义与说法不尽相同,但归乡捷来,大数据财了如下几个典型特征::L数据规模大1.数据规模大,数量巨大是大数据最显著的特征,且大数据的数据量仍以前所未有的速度主越增加淘宝网每天的交易达数千万次,数据产生量超过Mm百度公司每天大约要处理风亿次搜索请求数据量达几十阳。一个SMB的摄像头一小时能产生36GB数据,一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十郎,根据麦肯锡全球研究院:(MCL,Mckinseyglobalinstrume)预测,到2020年,全球数据使用量预计达到35ZB。医疗卫生,地理信息,电子商务、影视娱乐、科学研究:等行业,每天也都产生大量数据。如何处理超大规模的网络数据`过程行为数据、移动数据、射频采集数据、社会计算数据、语音通话数据多媒体视频数据已经成为科研界和产业界亟待解决的关键问题,也是大数据要解决的核心问题。2.数据类型多样2.数据类型多样现在业内有一种观点认为,数据如果类型单一,那么即使数据量再大,也难以称之为大数据。数据来源广泛、类型多样、结构各异是大数据的重要特点。大数据的数据类型不仅包括传统的结构化数据,而且包括过:去用常规软件无法进行深入分析处理的非结构化数据。随着互联网的飞速发展,各种新型应用不断涌现,如社交网络、电子商务、位置服务等,以文本图形`语音、视频等为代表的非结构化数据的增长速度越来越快,远远超过了结构化数据的增长速度。未来大数据主要通过对非结构化数据的分析处王睐斑是有价值的结论。可以说,数据类型多样是大数据非常突出的特点,针对多源数据的分析与处理也必将成为大数据分析与处理的重要趋势之一。3数据处理速度快大数据环境下,数据的创建`分析和处理的速度在不断加快。目前数据以传统系统不可企及的速度在传播,在短短的的秒内,视频分享网站YWTU加上的用户会上传长达级小时的视频;谷歌会收到m万次搜索请求并能迅速反馈结果;社交网站推特(MG)可以处理m万条微博信息;应用商店ApN…有47万次的应用下载;全球新增网站达到57】个。搜索引擎、电子商务等公司都要求实时地处理数以万计的海量数据,而且数据量增长迅速,传统的离线加批处理的方式已经不能满足要求,这对数据的处理也提出了更高的要求,数据处理的速度需越来越快,甚至要做到数据随时产生,随时处理。4数据价值密度低4.数据价值密度低大数据目前仍处于数据价值密度很低的阶段,尽管数据价值不可估量,但受传统思维和技术的限制,人们很难充分发掘数据所蕴含的巨大价值,大数据的价值利用密度仍然较低。另外,有些数据本身价值密度就很低,例如,美国棱镜计划中,一般上网用户作为单个个体,其数据的利用价值并不高,只有一些恐怖分子、各国政要等特殊人士的数据才有分析价值。再如,交通视频监控或小区安保监控录像中的数据价值密度也很低。对交通事故责任认定而言,只有发生事故的那段视频,才·是有价值的,其中大量其他数据对此并没有实际用途,换句话说,虽然视频监控器会记录下数量庞大的视频,但其中只有很少一部分对交通事故责任认定有用,因:此说这些连续视频数据的利用价值密度很低。仁)大数据的技术特点从技术视角来看,大数据对传统数据存储及管理平台发起了挑战,为了满足大数据的低耗能存储及高效率计算的要求,需要多种技术的协同合作,这些技术包括分布式云存储技术、高性能并行计算技术、多源数据清洗及数据整合技术、提供大数据存储―索引·查询等活动的云计算平台解决海量数据结构复杂问题的分布式文件系统及分布式并行数据库、呈现复杂的数据分析结果的可视化高维展示技术等。下面主要介绍一下分布式云存储技术、高性能并行计算技术和可视化高维展示技术L分布式云存储技术目前,基于Hab吧”技术的数据存储和处理工具已被广泛应用。为:了应对大数据的复杂数据结构和提高系统存储管理效能,非关系数据库(NSQ)以及融合了可扩展性与高性能的新型数据库(NmOD也应运而生。典型的产品有谷歌公司的BW咖和SWW、阿帕奇(AWM)的Hab叩项目的子项目HRM、E甲骨文公司的NSQLQLDatabasesVoltdb公司的VdDB、美国布朗大学(BWn)等单位开发的HSm等。从分布管理的角度来看,云平台已经成为大数据存储必不可少的技术支撑而在存储方式上,由适合结构化数据的行存储改为适合大数据的列存储,也是大数据对传统存储方式的挑战。2.高性
本文标题:大数据时代第一章
链接地址:https://www.777doc.com/doc-2512318 .html