您好,欢迎访问三七文档
大数据BIGDATA一、大数据的背景一、大数据背景•信息自由之战•数据爆炸•数据帝国•数据治国信息自由之战——美国信息之于民主,就如货币之于经济。——托马斯·杰斐逊,第三任美国总统美国三权分立三权组织机构宪法立法行政司法国会参议院众议院总统副总统总统下属机构行政部门法院联邦最高法院州最高法院基层法院第四股力量(FourthEstate)新闻和报纸—————新闻自由、言论自由、知情权1948年,美国报纸编辑协会成立“世界信息自由委员会”•约翰·摩斯——《信息自由法》(担任美国国会议员25年,六朝元老、连选连任)1955年摩斯着手信息自由的立法工作以来,一系列列的法律层层叠加,不断完善,美国的信息自由最终形成了一个体系,这个体系也成了世界上许多国家制定《信息自由法》的模板,截止2006年,已有60多个国家实施了类似的法案。《信息自由法》(FreedomofInformationAct简称FOIA,也译作情报自由法)主要内容是规定民众在获得行政情报方面的权利和行政机关在向民众提供行政情报方面的义务:•第一、联邦政府的记录和档案原则上向所有的人开放,但是有九类政府情报可免于公开;•第二、公民可向任何一级政府机构提出查阅、索取复印件的申请;•第三、政府机构则必须公布本部门的建制和本部门各级组织受理情报咨询、查找的程序、方法和项目,并提供信息分类索引;•第四、公民在查询情报的要求被拒绝后,可以向司法部门提起诉讼,并应得到法院的优先处理。这项法律还规定了行政、司法部门处理有关申请和诉讼的时效。奥巴马政府•政府的态度:大国新政——阳光是最好的防腐剂,建立一个透明开放的政府。•政府的行动:《透明和开放的政府》放松对总统文件的管制(公众可查阅)公开、发布信息•政府的思想:依靠数据说话•政府领导人:奥巴马——热爱高新科技支持技术创新数据帝国what:什么是数据?where:数据是从哪来的?how:应对数据爆炸该如何做?什么是数据?数据是对信息数字化的记录,其本身并无意义,把数据放置到一定的背景下,对数字进行解释、赋予意义,则为信息。例如:“1.85”是一个数据“奥巴马身高1.85米”是一条信息数据的储存单位单位英语标识大小例子位Bit1或0一个二进制数位:0或1字节Byte8Bit一个英文字母:8Bit千字节KB1024Byte一页纸上的文字:5KB兆字节MB1024KB一首普通MP3的歌曲:4MB吉字节GB1024MB一部电影:1GB太字节TB1024GB美国国会图书馆所有登记印刷版书本的消息:15TB2011年底,其网络备份的数据量为280太字节拍子节PB1024TB美国邮政局一年处理的信件大约为5拍谷歌每小时处理的数据为1拍艾字节EB1024EB相当与13亿中国人人手一本500页的书加起来泽字节ZB1024ZB截止2010年,人类拥有的信息总量大概是1.2ZB尧字节YB1024YB超出想象2009年美国各行业数据存储量(拍字节)(1998年,联邦政府共拥有432所数据中心,专门负责各类数据的存储和维护工作。2010年,数据中心的总数跃升到2094所,翻了几倍)•庞大的数据资产需要经费来支持,联邦政府1996年度IT预算180亿美元,2011年已经高达784亿美元。•这些投资中的一半以上,都用在了购买存储数据的硬件设备上。•这是一个不择不扣的数据帝国。帝国形成的原因——摩尔定律。戈登.摩尔(Intel的创始人之一)其内容为:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔18个月翻两倍以上。这一定律揭示了信息技术进步的速度。最小数据集MinimumDataSet帝国的数据到底从何而来?海量的数据源头在哪里?美国联邦政府的数据来源,当然首先缘于它各个部门的业务工作,也就是业务数据。大规模、系统地收集数据,在美国联邦历发展史上,有一个重要的里程碑——最小数据集定义:最小数据集是指通过收集最少的数据,最好地掌握一个研究对象所具有的特点或一件事情,一份工作所处的状态,其核心是针对被观察的对象建立一套精简实用的数据指标。源于:医疗领域出院病人最小数据集病人都要付钱——医疗账单最小数据集出台统一的数据格式——医疗保险和索赔最小数据集在医疗领域迅速被推广,几乎每年都有新的最小数据集被定义。眼科,眼科,皮肤科等等医疗服务的方方面面各种各样,特定的最小数据集发展:–由于不同的组织之间信息交换的需要,各个业务部门之间都建立了标准的“数据接口”,从此彼此“数据”相连。–最小数据集是业务管理过程中最重要的数据指标。–有些最小数据集,甚至直接被引用,成为信息管理系统的数据结构。–2011年,美国联邦政府已经拥有1万多个独立的信息管理系统。–几乎每一项业务,每一个新的立法、新的计划,都会有一个数据库和信息管理系统与之对应。普适计算:万事万物,凡存在皆联网,凡联网皆计算。人类的计算方式:主机型计算阶段——很多人共享一台大型机个人型计算阶段——每个人都拥有一台电脑普适计算阶段——广泛的部署微小的计算设备。传感器•微小的计算设备就是传感器。例:–2009年,美国国家海洋与大气管理局建立了一个覆盖全美海岸、从浅水到深水的、精确的海浪监测系统。在近海、外大陆架、内大陆架和沿海共架设了296个传感器。这些传感器以分秒为单位,将数据源源不断地实时传回到国家海洋局政府的三种数据源数据种类收集对象收集方法里程碑业务数据下级部门和各类社会组织以基层上报被动接受为主1973年卫生部引进最小数据集民意数据各个公民或组织投入人力财力主动收集1940年罗斯福引进民意调查环境数据自然环境、动植物、物体以传感器自动采集1962年的海浪监计划政府应对数据爆炸颁布的法案:•《信息自由法》可以公开数据•《阳光政府法》必须公开数据•《电子信息自由法》计算机数据公开数据源——大数据•大小超出传统意义上的尺度,一般的•软件工具已经难以捕捉、存储、管理•和分析的数据。没有统一的定义。•大数据的特点:大知识、大科学、大利润、大发展。数据治国每一个机构和部门都要制定一个应对大数据的战略“数据驱动的管理方法——Data-DrivernManagement用数据——决策、管理、创新。数据和信息是执法工作当中制定战略和决策的基础循数管理三部曲:收集、分析、发布数据收集建立收集网络保证数据质量数据分析确定存在问题研究新的政策评估政策绩效数据发布接受社会监督鼓励民间介入推动政策复制调动政策竞争数据可以用来打假,数据挖掘技术可以提高打假效率,为国家节省开支。新的数据统计分析技术逐步广泛应用于环境,交通,医疗,治安管理,金融,商务等各个领域。数据收集建立收集网络保证数据质量数据分析确定存在问题研究新的政策评估政策绩效数据发布接受社会监督鼓励民间介入推动政策复制调动政策竞争二、数据开放平台Data.gov专门为联邦政府建立的一个统一的数据开放的门户网站,全面开放政府拥有的公共数据。主要目的:1.把政府推向前所未有的开放高度,巩固国家民主,2.提高政府的效率和效能。3.通过鼓励创新,上数据走出政府,得到更多的创新运用。Data.gov上线同一天,美国阳光基金会宣布设立25000美元的奖金,举办程序员公共数据开放大赛。参赛作品必须使用Data.gov开放的数据,可以是数据的分析程序,可以是数据可视化的应用,还可以是社交网站和智能手机的查件。Data.Gov初次上线只开放了47组数据,但三个月内,阳光基金会却收到了47个新的开发应用程序。大量的“互动”使Data.gov的功能不断完善,先后加入了数据的分级评定、高级搜索、用户交流以及和社交网站互动等等新的功能。2009年12月8日《开放政府的指令》命令各个联邦部门必须在45天之内,在Data.gov上至少开放3项高价值数据。(上线的第一天受到了210万的点击,两个月创下了2000多万次的访问总量。)DATAANDTOOLS候机经济学:航班延误分析系统FlyOnTime.us用户可以看到不同天气,不同日期,不同时段、不同航空公司、不同航班等各种条件下的飞机是否准时以及平均延误时间的数据明细。数据混搭器DataMasherData.Gov成果•截止2011年12月,仅仅在Data.gov上,就汇集了1140个应用程序和软件工具、85个手机应用查件,其中,有近300个是由民间的程序员、公益组织等社会力量自发开发的。•2010年,Data.Gov开放的数据总数达到了27万项,2011年12月,共开放原始数据3721项,地理数据386429项。•开放数据时一石三鸟,不仅服务了大众,刺激经济,还调动了大众创新,为政府节省了软件开发的开支。三、业界发展动态•商务智能•大趋势•云计算商务智能指利用数据仓库、数据挖掘技术对客户数据进行系统地储存和管理,并通过各种数据统计分析工具对客户数据进行分析,提供各种分析报告,如客户价值评价、客户满意度评价、服务质量评价、营销效果评价、未来市场需求等,为企业的各种经营活动提供决策信息。商务智能数据仓库DataWarehouse数据仓库的诞生:轨迹的起点,计算机通过二进制,解决了数据的传送问题。关系数据库,解决了数据的快速组织、存储和读取1.累积了大量的数据(仅仅查询,没有分析)2.决策支持系统与运营信息系统分离3.为了解决数据集成问题,数据仓库诞生4.以数据分析、决策支持位目的来组织储存数据数据仓库是商务智能的依托,是对海量数据库进行分析的核心物理构架,是一种格式一致的多源数据存储中心。数据源可以来自多个不同的系统,如企业内部的财务系统、客户管理系统、人力资源系统,甚至是企业外部系统。数据仓库的物理结构出现以后,一系列的产业链也逐步形成:ETLExtractionTransformationLoadETL就是将数据按统一的格式提取出来,然后再转化,集成,载入数据仓库的工具。联机分析OnlineAnalyticalProcessing联机分析也称多维分析,本意是把分立的数据库“相联”,进行多维的分析。“维”是联机分析的核心概念,指的是人们观察事物、计算数据的特定角度。可以从任意的维度交叉和细分问题,用户能根据自己的需要,随时创建“万维”动态报表。数据挖掘DataMining数据仓库、联机分析技术的发展和成熟,为商务智能奠定了框架,但真正赋予“智能”生命的是它的下一条产业链:数据挖掘。是指通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间的关系,模式和趋势,为决策者提供新的知识。如果说联机分析是对数据的一种探测,数据挖掘则是对数据进行开采,发现数据之下的历史规律,对未来进行预测。尿布和啤酒的例子:沃尔玛是全世界最大的零售商,拥有8400多家分店,200多万雇员2010年,收入突破了4000亿美元,超过了很多国家的GDP总值。拥有世界上数一数二的数据仓库,是最早应用数据挖掘技术的企业之一。在一次例行的数据分析之后,发现跟尿布搭配在一起购买最多的商品竟然是啤酒。经过调查:一些年轻的爸爸经常要到超市去购买婴儿尿布,有30%到40%的新爸爸会顺便买一些啤酒来犒劳自己。随后沃尔玛将两者捆绑销售,销量双双增加。数据可视化DataVisualization数据可视化是指以图形、图像、地图、动画等更为生动、易为理解的方式来展现数据的大小,诠释数据之间的关系和发展的趋势,以期更好地理解、使用数据分析的结果。二组12345678910X210.08.013.09.011.014.06.04.012.07.0Y29.148.148.748.779.268.106.133.109.137.26安斯科姆四重奏一组12345678910X110.08.013.09.011.014.06.04.012.07.0Y18.046.957.588.818.339.967.244.2610.844.82三组12345678910X310.08.013.09.011.014.06.04.012.07.0Y37.466.7712.747.117.818.846.085.398.156.42四组12345
本文标题:理解大数据49
链接地址:https://www.777doc.com/doc-29831 .html