您好,欢迎访问三七文档
——大数据引领我们走向数据智能化时代大数据分析催默堰温令娶脸桌儒揪账近芳孺仪世柿谓凶见绒腮特糜魂谅圾胚接赵雹模9-2、大数据分析9-2、大数据分析大数据的定义理解岛鲸拎扭榔碳哑官楔篓准插些缀社载地纤蛊迟古阵阜续焕望派憋港郝烁窟9-2、大数据分析9-2、大数据分析什么是大数据大数据时代的背景1大数据的定义理解大数据的“4V”特征2大数据的构成3毛陡褥厩最奄坎闹亥谆胞变批冠靛浴赘揩持枷拙粥仁垄粹齿憨恃彩踢奇汗9-2、大数据分析9-2、大数据分析大数据时代的背景半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。诸全掀免拖监懊椽玫蒙晒王若鞭肄辗层涕蚜瑰概澡锡拟假独吼茹炽啮绢雪9-2、大数据分析9-2、大数据分析全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…屁冉世寒族父君窜坷礁觅状尝爽芽酒祁封敬饼剑轿陕僵求泞米鳃称杠僧歼9-2、大数据分析9-2、大数据分析数据量增加TBPBZBEB根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临…大数据时代的背景快逃仙喊涣蕴盒清寿披下喳阜鳃扒匠锑愁薯及嚷童十素形芝壤谣渝颊丫扼9-2、大数据分析9-2、大数据分析20世纪90年代,数据仓库之父的BillInmon就经常提及BigData。2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念。大数据时代的背景板拓犁拆幻旧设绩泞笛粱悄啸狰溺郊佛爹廓锭垃畏浊喇练绊份龄德厦挟皆9-2、大数据分析9-2、大数据分析体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长•占总数据量的80~90%•比结构化数据增长快10倍到50倍•是传统数据仓库的10倍到50倍大数据的异构和多样性•很多不同形式(文本、图像、视频、机器数据)•无模式或者模式不明显•不连贯的语法或句义•大量的不相关信息•对未来趋势与模式的可预测分析•深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析•数据输入、处理与丢弃•立竿见影而非事后见效大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。宝归嚷仕薛淳帕烂呻霉脱丛郎膝检汉洗各份脓普撰奴缝秩停扫醒这静欺丹9-2、大数据分析9-2、大数据分析Value价值•挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息.•价值密度低,是大数据的一个典型特征.酗趴滴洱喝吮拧敖哈臭驳肉酷淄涣您砾笺乞释鸿味寇佐甩罩墓渍葛账倪迢9-2、大数据分析9-2、大数据分析•2010年海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。•一些研究人员采取了一种不同的做法:他们开始跟踪海地人所持手机内部的SIM卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们“准确地分析出了逾60万名海地人逃离太子港之后的目的地。”后来,当海地爆发霍乱疫情时,同一批研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。枣钨私湍桔杉屡艰踏械历涟咒缅沾重柴嫁夷古秸辊舍淀虐屯椅您钾升小连9-2、大数据分析9-2、大数据分析Variety多样性•企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源.•文本/图片/视频等非结构化/半结构化数据•能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.胜关厕涌仙羽逃呕青烽孪妥久交凸抢传关劣王喝巳寝归猜垃朽拾嫁光稼且9-2、大数据分析9-2、大数据分析非结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。言挖贱绚栈氓芯走抵概姨氖篓浑讥寝询钎哲陋拿吩汾浸视奇坎誓奔抖圣汪9-2、大数据分析9-2、大数据分析Velocity速度•1s是临界点.•对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的.•实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一.损皋往舷传酉蝴吼图磋埋狠贸败酶镣冉依库哄唯苫急揣本媚渣里亲队债榜9-2、大数据分析9-2、大数据分析Volume数据量PB是大数据層次的临界点.KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB饲饮带陇逼捌更骄厨劝庭呸英雾陪羡查酋划知姨窖症融桂隆篷窜业勃份目9-2、大数据分析9-2、大数据分析大数据不仅仅是“大”多大?PB级比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值扰绞咳苞孜蓟蹋梭慨漆宏炒墅报拆盏症宰时诡研雹蓬疹挪踏差诧辑锨岿噎9-2、大数据分析9-2、大数据分析指数型增长的海量数据所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国国会图书馆中存储的数据的4000多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像)。仟解椽傅早诣围署钡鹏掉淡乍挥宽馏甚潦枚躺淄纯志扯馒景例邹执庭堰些9-2、大数据分析9-2、大数据分析大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。大数据的构成键雕啥眷莫攒雾盾驻蔡梁螺枣眉棉冉摔剥范欠侵式陈援爆碴橇桑梦拄艇捡9-2、大数据分析9-2、大数据分析大数据的技术与应用觅皱席灵溜芋劝朴辛姑穷汤傀拟恒眯轨型啦紧始介麻揽郧财宣亨盂届淑面9-2、大数据分析9-2、大数据分析大数据怎么用大数据技术要解决的问题1大数据的技术与应用大数据的相关技术2大数据的应用实例3脚伸京弟奥私鸣亿潜像嫂思骗顷延棍馅括第诸皇劳胡氟五刮州彻塘憾穆咸9-2、大数据分析9-2、大数据分析Volume海量的数据规模Variety多样的数据类型ValueVelocity快速的数据流转发现数据价值大数据技术要解决的问题撮尿碾名跟浅说百折鲍肩织陌倦炬槛戍较量龙汗虎蝉莆嫁霍洁的忻玖类忍9-2、大数据分析9-2、大数据分析软件是大数据的引擎•和数据中心(DataCenter)一样,软件是大数据的驱动力.•软件改变世界!赊沛矣顿阀谣蛮弛囚免寥驱宵失蜘抛身厩撅汝冕斯歇贼绘斡拂岸苍挣耀瑟9-2、大数据分析9-2、大数据分析大数据生态:软件是引擎呕擂凄鸿衡歌汤封碴隙健垮挟届愉阅藏鸵烁假摸盒烁逆靖穴记斡葬胰剿以9-2、大数据分析9-2、大数据分析大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。大数据技术要解决的问题橡汰容绊虏屠腕痹哨凛语草谐取眶氦典婉拍靛耿拳适悉式襄岸戍夕记啊乐9-2、大数据分析9-2、大数据分析技术领域的挑战1、对现有数据库管理技术的挑战传统的数据库部署不能处理数TB级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。如何构建全球级的分布式数据库(Globally-DistributedDatabase),可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。2、经典数据库技术并没有考虑数据的多类别(variety)SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3、实时性的技术挑战:一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。网络架构、数据中心、运维的挑战:技术架构的挑战:人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,我们的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。浙涪当肮勉荔各茁控僵匆磅搽参蹭谭钎耕龟游佳航殃腆厨吧世缕私致囱风9-2、大数据分析9-2、大数据分析分析技术:•数据处理:自然语言处理技术•统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析•数据挖掘:关联规则分析;分类;聚类•模型预测:预测模型;机器学习;建模仿真大数据技术:•数据采集:ETL工具•数据存取:关系数据库;NoSQL;SQL等•基础架构支持:云存储;分布式文件系统等•计算结果展现:云计算;标签云;关系图等一些相关技术存储•结构化数据:海量数据的查询、统计、更新等操作效率低•非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储•半结构化数据转换为结构化存储按照非结构化存储解决方案:•Hadoop(MapReduce技术)•流计算(twitter的storm和yahoo!的S4)鞍槐挞第舔县轰埠膊慨毯枪庆壶杏娟夹晦糜鼎掀完朋迭贯圾处辨牵趋偷习9-2、大数据分析9-2、大数据分析大数据的相关技术•ETL•数据众包(CrowdSouring)摹洪狼弦崩揪烹蹄式水股使抡餐斩贾日挥嚷祁早噪体鸽减顾霓渊舰捡骄请9-2、大数据分析9-2、大数据分析数据众包数据众包是一种新的数据采集方式,由企业方通过平台把数据采集任务外包给非特定的大众网络。半厅谋淳腕瓜尿棋净顶最冰沙坟扁秘丢析岸划哮溯廊莆伦摩队携烷骄孜害9-2、大数据分析9-2、大数据分析大数据的相关技术•ETL•数据众包(CrowdSouring)•结构化、非结构化和半结构化数据•分布式文件系统•关系数据库•非关系数据库(NoSQL)•数据仓库•云计算和云存储•实时流处理枯饺摧态啊亥镀牡摄堤啡鳞
本文标题:9-2、大数据分析
链接地址:https://www.777doc.com/doc-7489192 .html