您好,欢迎访问三七文档
大数据原理及技术最近几年,关于物联网,大数据,云计算,炒的沸沸扬扬。似乎随便2个节点之间能够实现通信就能称作物联网;只要数据足够大就称之为大数据;只要有数据足够大的计算就叫做云计算。当时国外社交媒体对于大数据的热度称呼其为:BigDataisliketeenagesex:Everyonetalksaboutit,nobodyreallyknowshowtodoit,everyonethinkseveryoneelseisdoingit,soeveryoneclaimstheyaredoingittoo。这比喻恰到好处。似懂非懂,似是而非的感觉。大数据是近两年被反复吟唱的一首骊歌。自从1980年,著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中将大数据热情地赞颂为“第三次浪潮的华彩乐章”开始,IT界就不断的为之倾倒。不过,“大数据”真的闯入凡人世界成为这个时代的流行词汇还是从2012年开始。从baidu指数当中可以清晰地看到,“大数据”在2012年6月之前还处在默默无闻阶段,自此之后“大数据”指数一路飙升。努力回忆下生活中的小场景吧!此刻做PPT,稍微一转眼,又看到了这些,这就不能算巧合吧!1.好友亲密度、qq空间、淘宝推送的东西等等~涉及到数据与数据之间的相互关系,而并不是因果关系(往往习惯于因果思维逻辑去思考和理解问题)2.DT(分销商),可以设想一下,当淘宝下单20分钟就收到到货信息,该是一种什么样的体验。(其实你的信息,什么时候想要什么东西都已经被商户预测啦,已经提前将商品运往目的地。甚至你路过的广告屏,视频网站,包括使用的APP都将引导你消费。)3.数据足够大就称呼其为大数据吗?(其实不然,关键在于其中承载的信息。数据处理之后才可以称之为信息或者叫做知识。其实大数据可以这样理解,当数据增长速度超过了计算机处理能力的增长速度,这时就产生了「大数据」问题,好比马车怎么也赶不上汽车,更别看汽车后备箱里面装了什么东西。当前流行的Hadoop等工具、MapReduce等方法有效地形成一套可以灵活扩展的解决方案,允许用空间(集群规模)换取时间(运算时间),通过良好地管理,集群的处理能力能够跟得上数据的增长速度,由此允许人们处理更大的数据(赶上汽车),从中提取出小数据所无法获得的信息与价值(发现汽车后备箱里面藏的东西)。)当然这里面设计很多技术,数据采样、数据处理、并行计算、建模、机器学习,如何使用这些数学工具以及专业知识,便成为核心问题。1.现在的数据挖掘、人工智能以及大数据的结合还只在一个较浅显的层面,这方面还存在很大的突破瓶颈。大数据的应用应该体现在数据挖掘的深度上面。例如深圳的大疆无人机虽然占据全世界消费级无人机百分之70的市场份额,但是相比军事无人机,与美国的许多无人机存在不小的差距。因为大疆的大多数产品还是依靠遥控控制,离真正的人工智能还是有一定的距离的。2.在baidu关键词中对比了“大数据”和“云计算”的近几年趋势,发现了一个有意思的曲线,2012年“云计算”热度消退后,“大数据”走上了前台,但却再也没有恢复到“云计算”的高度。这是不是表示“大数据”是“云计算”概念落空后的一餐冷饭呢?也许,谁知道呢。3.快速的处理数据尽快用于公司决策当最低限度的数据边界找到后,保证数据的快速处理就是你的能力所在。尽你的最大可能快速与客户、设备、平台基于这些数据进行接受和反馈,将分析和决策工作与执行行动实时对接。4.小规模的数据分析,会有很大噪音。1个人买了啤酒又买了尿不湿就说两者有什么关联,但是如果几百万个用户都显示了这样的关联,那就能说明一些问题了。可是数据量一旦上了规模,传统的系统就没办法很好的处理了。此案例还是被纳为营销界最成功的案例之一,究其竟还是巧妙的产品捆绑销售方式!PS:(发现啤酒和尿不湿多为男人在周末采购,而且购买这两种产品的顾客一般都是年龄在25至35周岁的青年男子,由于孩子尚在哺乳期,多数男人都接到了夫人的“圣旨”,下班后带尿不湿回家,而周末正是美国体育比赛的高峰期,一杯啤酒就着比赛是多么惬意的事!)于是有销售人员得到启发,在超市刻意将这2件商品摆放距离放近了许多,并且放置了一些牛肉干之类的。最后每年可增加几百美元的销售额。阿里亚马逊ebay这些,成千上万种货物,每天成TB的甚至PB的数据量,要对大量不同的货品种类作分析和推荐,近实时地更新给用户看;推特和Facebook这些,根据用户发布的信息和行为模式,快速地分析整合数据给出精确广告投放是这些公司生存的根本。等移动互联网或者物联网更普及,数据量只会更大,结构更随意,分析更困难。能从中找到有意思的信息,用传统手段就更难了。大数据的产生大数据技术的介绍大数据技术的应用大数据的产生来源来源数据的爆炸式增长每分钟的数据来源根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴。来源传统数据管理方式的缺陷:范围——非结构化数据、内外部数据混搭、云化处理等都会冲击传统管理模式。形式——数据加工的复杂度和速度要求越来越高,也对传统管理模式提出挑战。内涵——数据的交换、转让、租赁、交易等各种创新模式,也要求新的管理手段。来源每天几百GB、几TB的资料,且持续成长中储存Storing在收数据的同时做必要的前置处理(pre-processing),并区分数据处理的优先等级(prioritizing)计算Processing如何有效的避免因硬件毁坏所导致的资料损毁管理Managing如何从中挖掘出所关注事件的pattern或behavior分析Analyzing我们需要什么样的数据管理方式?来源大数据应运而生那么,什么是大数据?大数据技术的介绍目前对大数据尚未有一个公认的定义,不同的定义基本上是从特征出发,试图给出大数据的定义。大数据技术介绍大数据很抽象,表示数据规模的庞大。大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。《华尔街日报》将大数据时代、智能化生产、无线网络革命称为引领未来繁荣发展的重大技术变革。大数据技术介绍何为大数据大数据指的是规模超过现有数据库工具获取、存储、管理和分析能力的数据集额,并同时强调并不是超过某个特定数量级的数据集才是大数据大数据是具备海量、高速、多样、可变等特征的多维数据集,需要通过可伸缩的体系结构实现高效的存储、处理和分析。技术能力视角大数据内涵视角大数据技术大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。大数据带来的思维变革:更多——不是随机样本而是全部数据更杂——不是精确性而是混杂性更好——不是因果关系而是相关关系大数据技术更多大数据技术更多大数据技术更多大数据技术更多大数据技术更杂−IBM的机器翻译VSGoogle的机器翻译;−大数据时代要求我们重新审视数据精确性的优略;−大数据不仅让我们不再期待精确性,也让我们无法实现精确性;−错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在;大数据技术更好佛教《三世因果经》主要讲:一是人的命是自己造就的;二是怎样为自己造一个好命;三是行善积德与行凶作恶干坏事的因果循环报应规律。原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。原因是指引起一定现象的现象,结果是指由于原因的作用而引起的现象。大数据的相关关系,而不强调因果关系;(舍恩伯格),其实这个只是一种对无法探究因果的妥协,人类应该去探寻因果,因为世界存在客观的运转规律;大数据技术VolumeVarietyValueVelocity非结构化数据的超大规模和增长;总数据量的80~90%;比结构化数据增长快10倍到50倍;是传统数据仓库的10倍到50倍。大数据的异构和多样性;很多不同形式(文本、图像、视频、机器数据);无模式或者模式不明显;不连贯的语法或句义。大量的不相关信息;对未来趋势与模式的可预测分析;深度复杂分析(机器学习、人工智能Vs传统商务智能)实时分析而非批量式分析;数据输入、处理与丢弃;立竿见影而非事后见效4V特征大数据技术Volume1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和大数据技术Variety数据来源多数据类型多关联性强大数据技术Value大数据不仅仅是技术,关键是产生价值可以从各个层面进行优化,更要考虑整体挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息;价值密度低,是大数据的一个典型特征;大数据技术Velocity•实时数据流处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一;•1s是临界点,对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的;中央政府对大数据的重视程度31习近平政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的应用,2014年3月8日“大数据”首次写入政府工作报告奥巴马“将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。李克强:加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。李克强经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务汪洋数据为王,财政工作离不开大数据大数据涉及的关键技术需求海量数据存储技术实时数据处理技术数据高速传输技术搜索技术数据分析技术技术Hadoop,X86/MPPMapReduceStreamingdataInfiniBandEnterpriseSearchTextAnalyticsEngineVisualDataModeling描述分布式文件系统流计算引擎服务器、存储间高速通信文本检索、智能搜索、实时搜索自然语言处理、文本情感分析、机器学习、聚类关联、数据模型大数据的技术生态大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。这里限于时间考虑只介绍了HadoopHSFS和MapReduce/Tez/Spark。该图为一个Hadoop生态圈示意图HDFS(HadoopDistributedFileSystem分布式文件系统)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户,不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。接下来处理数据,虽然HDFS可以为你整体管理不同机器上的数据,但是这些数据太大了。那么我如果要用很多台机器处理,我就面临了如何分配工作,如果一台机器挂了如何重新启动相应的任务,机器之间如何互相通信交换数据以完成复杂的计算等等。这就是MapReduce/Tez/Spark的功能。MapReduce是第一代计算引擎,Tez和Spark是第二代。MapReduce的设计,采用了很简化的计算模型,只有Map和Reduce两个计算过程(中间用Shuffle串联)什么是Map什么是Reduce?考虑如果你要统计一个巨大的文本文件存储在类似HDFS上,你想要知道这个文本里各个词的出现频率。你启动了一
本文标题:大数据技术及应用
链接地址:https://www.777doc.com/doc-27553 .html