您好,欢迎访问三七文档
1大数据与统计张芃国家统计局统计资料管理中心2大数据与统计3大数据来了•联合国:2012年,《大数据促发展:挑战与机遇》•OECD研究报告:使用大数据做决策•美国–2010年:《规划数字化的未来》–2012年:BigDataisaBigDeal–2013年:《实现政府信息公开化和机器可读化》总统令•中国–2012年:中国通信学会大数据专家委员会–大数据发展战略4什么是大数据从技术角度看:1KB:2^101MB:2^201GB:2^301TB:2^401PB:2^501EB:2^601ZB:2^701YB:2^801BB:2^905从概念看:•维基百科:“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享、交叉复用形成的智力资源和知识服务能力。•特点:6个V–Volume:数据量大–Variety:数据类型多–Velocity:处理速度快–Value:应用价值大–Vender:获取与发送的方式自由灵活–Veracity:真实准确性•大数据是对海量信息进行分析,从而收集有价值的见解、发现规律和预言复杂问题答案的技巧与科学。7从特征看:•样本=总体•接受不精确•相关关系更重要8对中国统计而言,大数据并不新鲜•所谓“大数据”不过是全面统计的理念与方法在信息化时代的升华•是成熟了的电子商务与数据挖掘技术相结合的产物•是统计分析与预测在电子化、信息化、网络化社会的新实践9大数据的价值•对大数据的掌握程度可以转化为经济价值的来源•大数据时代已经撼动了世界的方方面面•核心思想:用规模剧增来改变现状10为什么会出现大数据•计算机技术提高•数据采集自动化•数据存储能力倍增•以计算机技术为基础的数据应用进程的历史推动11翱翔化蝶破茧结蛹蚕动起源数据应用的前世今生12起源——从数据到知识的挑战和跨越1946年人类历史上第一台电子计算机在美国费城问世。计算机的主要设计者冯·诺依曼被后世称为“计算机之父”。冯·诺依曼13从数据到知识的挑战和跨越赫伯特·西蒙1947年卡内基梅隆大学的赫伯特·西蒙开始研究决策支持系统,这是现代数据应用概念最早的起源和起点。14结蛹——数据仓库之厚积薄发埃德加·科德1970年IBM研究员埃德加·科德发明了关系型数据库,解决了快速组织、存储和读取数据的问题,被誉为“关系型数据库之父”。15数据仓库之厚积薄发1988年为解决不同运营系统的数据集成问题,IBM的两名研究员BarryDevlin和PaulMurphy创造性的提出“数据仓库”的概念,但没有进一步提出实际的架构和设计。BarryDevlinPaulMurphy16数据仓库之厚积薄发比尔·恩门1992年比尔·恩门第一次给出了数据仓库的清晰定义和操作性很强的实战法则,真正拉开了数据仓库走向大规模应用的序幕。比尔·恩门被誉为“数据仓库之父”,他强调数据的一致性,主张由顶至底的构建方法。17数据仓库之厚积薄发拉尔夫·金博尔1996年斯坦福大学博士,拉尔夫·金博尔出版《数据仓库的工具》,认为务实的数据仓库应该从下往上。他认同了比尔·恩门对于数据仓库的定义,却在具体的构建方法上和他分庭抗礼。18蚕动——联机分析之惊艳埃德加·科德1993年发明关系型数据库的埃德加·科德再立新功,他立足数据仓库的新基础,详尽的阐述了构建联机分析的十二条原则。19破茧——数据挖掘之智能生命的产生德斯纳1989年德斯纳提出了数据应用的概念和定义,强调了数据应用是一系列以事实为支持,辅助决策的技术和方法的集合,获得了业界的广泛认同。20化蝶——可视化信息的华丽上演弗罗伦斯·南丁格尔1855年弗罗伦斯·南丁格尔把克里米亚战争中战斗死亡和非战斗死亡的士兵数量制作成图表。这份视觉效果强烈的图表,催生了一座医院,改变了一个制度。21可视化信息的华丽上演奥巴马2010年3月,奥巴马任命专人运用“数据可视化”的技术推进联邦政府专项资金使用情况的透明度。22大数据时代对统计将产生怎样的影响•非精准化•非结构化•非样本化•非滞后性统计如何应对大数据时代•理念革命化•采集自动化•存储规模化•挖掘深度化•分析技术化•展现可视化•发布即时化•人才复合化24理念革命化:——思维观念的改变真的那么重要吗?——数据的价值在哪里?——数据需要精准码?——如何采集数据?——指标体系重要吗?——因果关系还是相关关系?——统计需要预测吗?26经济总量经济发展的先行指标和指示器全国GDP与CRI变动趋势分析27经济总量经济发展的先行指标和指示器全国财政收入与CRI变动趋势分析28采集自动化:——文字变成数据——方位变成数据——沟通变成数据——一切事物变成数据•什么意思?——真可以!——过去我喜欢一个人现在我喜欢一个人30存储规模化:在过去50年中,数字存储成本大约每两年削减一半,而存储密度则增加了5000万倍。31挖掘深度化:•数据挖掘:是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。是通过分析每个数据,从大量数据中寻找其规律的技术。32数据挖掘步骤:数据准备:从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集寻找规律:用某种方法将数据集所含的规律找出来结果展示:尽可能以用户可理解的方式(如可视化)将找出的规律表示出来33数据挖掘的技术基础:人工智能机器学习模式识别统计学数据库可视化技术34数据挖掘的任务:关联分析聚类分析分类分析异常分析特定群组分析演变分析35分析技术化:•现实:简单的图表、数据对比、数字文字化•大数据时代:数字工具、数学模型、机器智能36GDP、财政收入与企业注册资本之间的线性关系示意图经济总量主体发展与经济社会发展的关联37展现可视化:数据可视化:是指将大型数据集中地以图形、图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。38数据可视化的技术基础:•几何技术•像素技术•图标技术•图层技术•图像技术•分布式技术•统计技术39数据可视化的基本思想:•依据数据及其内在模式和关系,利用计算机生成的图像来获得深入认识和知识•利用人类感觉系统的广阔带宽,来解释错综复杂的过程、以及来源多样的大型数据集合的内在规律40数据利用的技术发展历程实际也是价值探求的摸索历程数据库数据仓库OLAP联机分析技术数据挖掘可视化展现价值应用统计分析GIS技术41·2012年奥巴马政府预算开支的可视化展示一眼就可以看出,赤字约占美国总支出的1/3,个人所得税是美国政府最大的财政来源,而国防支出是其最大的支出。(图片来源:《华盛顿邮报》,2010年2月1日)42左边为强制性开支,右边为自主性开支。强制开支中最大的圆为医疗保险和医疗补助,其为绿色,表示较去年增加了,鼠标停留处显示其大小为1.18亿,较去年增加了8.4%,是强制性开支中最大的一块。(图片来源于网络)·2013年奥巴马政府预算开支的可视化展示43多种直观的图表展示方式44454647整体分布48GIS(地理信息分析系统)——市场主体3D分析49发布即时化:•美国麻省理工学院承担的一项“十亿价格项目”(BillionPriceProject)是基于学术研究方法对全世界海量网上零售价格进行价格指数计算•为判断通胀趋势提供信息•每天实时收取50万条互联网上的商品信息,是美国政府统计收集的5倍每日网上价格指数DailyOnlinePriceIndex50•基于淘宝网、天猫网、支付宝等网络平台的数据编制•大体反映国内网络零售渠道的一般物价变动。包含价格指数系列和实物交易量指数系列•分为九大基本分类指数•权重为成交金额的比例•采用链式加权的拉氏指数法计算,并逐级计算淘宝网络零售价格指数ISPI51上海钢联中国大宗商品价格指数与国家统计局PPI、CPI走势对比图作为中国领先的大宗商品咨询平台,上海钢联电子商务股份有限公司通过其资讯采集系统,编制了上海钢联中国大宗商品价格指数。它以产值作为权重,同时考虑在地区因素影响基础上,对9大类行业的基础产品价格数据进行处理合成而得。(10)(5)051015(40)(30)(20)(10)0102030402008-12008-52008-92009-12009-52009-92010-12010-52010-92011-12011-52011-92012-12012-52012-9上海钢联中国大宗商品价格指数PPI同比(右)%钢联大宗商品指数领先1个半月左右(4)(2)0246810(40)(30)(20)(10)0102030402008-12008-52008-92009-12009-52009-92010-12010-52010-92011-12011-52011-92012-12012-52012-9上海钢联中国大宗商品价格指数CPI同比(右)%52人才复合化:谷歌首席经济学家哈尔.范里安:“数据非常之多而且具有战略重要性,但真正缺少的是从数据中提取价值的能力。这也就是为什么统计学家、数据库管理者和掌握机器理论的人是真正了不起的人。”资料中心怎么办•统计资料的大数据中心•统计网络的大数据中心•统计服务的大数据中心•统计历史的大数据中心正确认识大数据•重视非结构化不等于不要结构化,而是要做到从非结构化到结构化•接受不准确和混杂不等于不要准确性•强调总体、全数据不等于蔑视或取消抽样•强化相关分析不等于不要因果分析•大数据分析得出的结论也是有偏的55数数相连,数数相通•经济数社会数人口数,数数相连•过去数现在数未来数,数数相通56用大数据促进经济社会科学发展谢谢!
本文标题:大数据与统计
链接地址:https://www.777doc.com/doc-4447125 .html