您好,欢迎访问三七文档
大数据2数据的本质数据本质是生产资料和资产数据生产资料资产3大数据的提出在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,明确提出“数据就是财富”,将大数据称为“第三次浪潮的华彩乐章”。第二次浪潮第三次浪潮第一次浪潮农业阶段,约1万年前开始工业阶段,17世纪末开始信息化阶段,20世纪50年代后期开始“如果说IBM的主机拉开了信息化革命的大幕,那么大数据才是第三次浪潮的华彩乐章。”4从“数据”到“大数据”事件一事件二事件三时至今日,“数据”变身“大数据”,“开启了一次重大的时代转型”“大数据”这一概念的形成,有三个标志性事件:2008年9月,美国《自然》(Nature)杂志专刊——Thenextgoogle,第一次正式提出“大数据”概念。2011年2月1日,《科学》(Science)杂志专刊——Dealingwithdata,通过社会调查的方式,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的“数据困境”。2011年5月,麦肯锡研究院发布报告——Bigdata:Thenextfrontierforinnovation,competition,andproductivity,第一次给大数据做出相对清晰的定义:“大数据是指其大小超出了常规数据库工具获取、储存、管理和分析能力的数据集。”5大数据的定义大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。6大数据的来源随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、位置、甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;据IDC研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1PB=2^50字节1EB=2^60字节1ZB=2^70字节TBPBEBZB在2011年,这个数字达到了1.8ZB。GB数据大爆炸7大数据的来源互联网每天产生的全部内容可以刻满6.4亿张DVDGoogle每天需要处理24PB的数据网民每天在Facebook上要花费234亿分钟,被移动互联网使用者发送和接收的数据高达44PB全球每秒发送290万封电子邮件,一分钟读一篇的话,足够一个人昼夜不停地读5.5年每天会有2.88万个小时的视频上传到YouTube,足够一个人昼夜不停地观看3.3年Twitter上每天发布5000万条消息,假设10秒就浏览一条消息,足够一个人昼夜不停地浏览16年大数据到底有多大?以上一组互联网数据8大数据的来源来自大量传感器的机器数据科学研究及行业多结构专业数据来自“大人群”泛互联网数据智能终端拍照、拍视频发微博、发微信其他互联网数据随着人类活动的进一步扩展,数据规模会急剧膨胀,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来越大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理模式的能力范围,于是“大数据”这样一个概念才会应运而生。9大数据的构成大数据=海量数据(交易数据、交互数据)+针对海量数据处理的解决方案海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。海量交互数据:源于Facebook、Twitter、微博、及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。注:大数据不仅仅指的是数据量庞大,更为重要的是数据类型复杂大交易数据大交互数据大数据处理大数据集成10大数据4V特征4V特征种类多(Variety)速度快(Velocity)价值高(Value)体量大(Volume)大数据与传统数据相比,数据来源广、维度多、类型杂,各种机器仪表在自动产生数据的同时,人自身的生活行为也在不断创造数据;不仅有企业组织内部的业务数据,还有海量相关的外部数据。随着现代感测、互联网、计算机技术的发展,数据生成、储存、分析、处理的速度远远超出人们的想象力,这是大数据区别于传统数据或小数据的显著特征。大数据有巨大的潜在价值,但同其呈几何指数爆发式增长相比,某一对象或模块数据的价值密度较低,这无疑给我们开发海量数据增加了难度和成本。从2013年至2020年,人类的数据规模将扩大50倍,每年产生的数据量将增长到44万亿GB,相当于美国国家图书馆数据量的数百万倍,且每18个月翻一番。11大数据4V特征—价值高(Value)大数据有巨大的潜在价值,但同其呈几何指数爆发式增长相比,某一对象或模块数据的价值密度较低,这无疑给我们开发海量数据增加了难度和成本。•挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息;•价值密度低,是大数据的一个典型特征;12大数据4V特征—体量大(Volume)从2013年至2020年,人类的数据规模将扩大50倍,每年产生的数据量将增长到44万亿GB,相当于美国国家图书馆数据量的数百万倍,且每18个月翻一番。1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和13大数据4V特征—速度快(Velocity)实时数据流处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一;1s是临界点,对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的;14大数据4V特征—种类多(Variety)大数据与传统数据相比,数据来源广、维度多、类型杂,各种机器仪表在自动产生数据的同时,人自身的生活行为也在不断创造数据;不仅有企业组织内部的业务数据,还有海量相关的外部数据。物联网数据行业/企业内数据互联网数据大数据15大数据带来的思维变革大数据大数据的核心代表着我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法更多不是随机样本,而是全体数据更好不是因果关系,而是相关关系更杂不是精确性,而是混杂性16大数据带来的思维变革—更多人口大普查全数据模式随机采样样本模式大数据应用全数据模式•是指在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调查表和统一的标准时点,对全国人口普遍地、逐户逐人地进行的一次性调查登记;•主要特点是调查组织高度集中性,普查对象的全面完整性;•人口大普查耗时耗费,一般来讲是十年一次,新中国成立以来共进行了6次人口大普查;•人口大普查是一种典型的全数据模式;大数据时代小数据时代17大数据带来的思维变革—更多人口大普查全数据模式随机采样样本模式大数据应用全数据模式•人口大普查是一种耗时耗费的工程,一般是以十年为单位;•各国每年需要进行几百次的小规模人口调查,采取随机采样分析的方式,这是一种样本模式;•源于实用并且很好的创新!•随机采样分析是小数据时代的产物;大数据时代小数据时代18大数据带来的思维变革—更多人口大普查全数据模式随机采样样本模式大数据应用全数据模式•我们已具备了大数据的各种技术能力,思维需要转换到大数据的全数据模式:样本=全部;•大数据不用随机分析法这样的捷径,而采用所有数据的方法;•这里的“大”是相对的——相扑比赛所有数据存储还不需要一个TB,但是是所有的数据!•在大数据时代采用随机采样法,就像在汽车时代骑马一样,虽然特定情况下仍可采样随机采样法,但是慢慢地我们会放弃它;大数据时代小数据时代19大数据带来的思维变革—更好佛教《三世因果经》主要讲:一是人的命是自己造就的;二是怎样为自己造一个好命;三是行善积德与行凶作恶干坏事的因果循环报应规律。佛教关于因果报应的解释原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。原因是指引起一定现象的现象,结果是指由于原因的作用而引起的现象。哲学范畴的因果关系大数据的相关关系,而不强调因果关系;(舍恩伯格),其实这个只是一种对无法探究因果的妥协,人类应该去探寻因果,因为世界存在客观的运转规律;舍恩伯格对大数据的相关性解释Kaggle,一个为所有人提供数据挖掘竞赛的公司,在一次关于二手车的数据分析比赛中得到,橙色汽车有质量问题的可能性是其它颜色汽车的一半。为什么?探寻事物的因果关系是人类的本性,但是大数据时代可以做某种程度的妥协,可以只需要关注“是什么”,而忽略“为什么?”20大数据带来的思维变革—更杂从皮尺到哈勃望远镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性;大数据的简单算法比小数据的复杂算法更有效;−IBM的机器翻译VSGoogle的机器翻译;纷繁的数据越多越好;−大数据时代要求我们重新审视数据精确性的优略;−大数据不仅让我们不再期待精确性,也让我们无法实现精确性;−错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在;混杂性,不是竭力避免,而是标准途径;21大数据应用场景大数据N个应用场景环境教育行业医疗行业农业智慧城市零售行业金融行业22大数据商业价值—大数据为“未来的新石油”2013年,世界上存储的数据预计能达到约1.2泽(约12亿TB)字节,如果把这些数据全部印刷成书,这些书可以覆盖整个美国52次,如果将之存储于标准的光盘,这些光盘可以堆成五堆,每一堆都可以伸到月球。2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。大数据未来的新石油23大数据商业价值—企业经营决策某商店卖牛奶,通过数据分析,知道在本店买了牛奶的顾客以后常常会再去另一店买包子,人数还不少,那么这家店就可以考虑与包子店合作,或直接在店里出售包子。24大数据商业价值—个性化营销某商店卖牛奶,通过数据分析,知道在本店买了牛奶的顾客以后常常会再去另一店买包子,人数还不少,那么这家店就可以考虑与包子店合作,或直接在店里出售包子。25大数据商业价值—互联网金融的核心是大数据互联网金融并非简单的把传统金融业务搬到网上去,而是充分利用大数据来颠覆银企之间信息不对称的问题。数据是一个平台,因为数据是新产品和新商业模式的基石。推动互联网金融发展的核心正是大数据的价值。谢谢观看
本文标题:大数据
链接地址:https://www.777doc.com/doc-2269570 .html