您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 清华大数据产业联合会-应用·创新-第1讲:SAS刘政112646
Copyright©2012,SASInstituteInc.Allrightsreserved.大数据分析刘政博士,SASInstituteInc.Copyright©2012,SASInstituteInc.Allrightsreserved.数据分析简史与技术3Copyright©2012,SASInstituteInc.Allrightsreserved.数据分析的发展国家健康研究所(NIH)是世界领先的医学研究中心第二次世界大战中,美英两国率先使用运筹学的方法解决当时迫切需要把各种稀少的资源以最有效的方式分配给各个战场和军事单位的问题。1962年,JohnW.Tukey发表了《TheFutureofDataAnalysis》,1977年,Tukey出版了《ExploratoryDataAnalysis》,确立了数据分析的广泛性和数据可视化探索技术。上个世纪60年代,计算机被用来辅助决策支持。1966年,需要统计软件分析大量农业数据,数据的采集获得了美国农业部的授权。美国南方8所取得政府领地赠送的大学获得了美国农业部研究基金,在国家健康研究所的支持下,开发通用目的的统计分析软件包,用来分析采集到的农业数据。这个软件包的名字StatisticalAnalysisSystem成为了后来SAS公司的名字和产品的基础。4Copyright©2012,SASInstituteInc.Allrightsreserved.1976年,数据分析大会会有300多人参加,客户数超过了100,包括政府,研究机构和企业。这证明了70年代数据分析在美国就有了一定的规模。当时计算机的尺寸要占有一个房子,程序是穿孔到纸卡上。30万行代码,要装入150个箱子里面,要堆40英尺高。把箱子排在一起有180英尺长。5Copyright©2012,SASInstituteInc.Allrightsreserved.1979年,软件是运行在IBM‘sVM/CMS系统。1980年,出现了图形显示的软件,以及计量经济学和时间序列软件。当时,整个的计算机硬件和软件都在快速变化。新的操作系统出现,同时要求对应的软件开发人员。开始支持IBM的操作系统DOS。随着更多的操作系统的出现,要求软件的兼容性,适合于小型机。80年代中出现了个人机PC。后来又建立了PC与大型机的连接,使得运行程序的PC可以使用存储在大型机上的数据。6Copyright©2012,SASInstituteInc.Allrightsreserved.当互联网出现以后,要求支持互联网的软件,使得这种软件在商业领域更具竞争性。世界和市场需求驱动公司的软件发展。欧洲的巴塞尔协议和美国爱国者法案的出现,使得商业世界要求软件能够帮助金融机构管理风险,反洗钱,和反欺诈。这种专用的解决方案在金融领域获得了广泛的应用。7Copyright©2012,SASInstituteInc.Allrightsreserved.随着互联网的发展和ERP系统的广泛使用,数据量呈爆炸式的增长,传统的数据处理技术已经无法满足需要。高性能分析架构形成了今后数据分析的骨干架–无论你的数据有多大,多复杂。几个分布计算的选择–内存分析,库内分析和网格计算–让你享尽最新技术的优势。其提供了可扩展性及灵活性以适合你的发展。这些技术可以最大化地发挥你的资源的作用,以达到最高的性能。8Copyright©2012,SASInstituteInc.Allrightsreserved.HadoopEcosystem9Copyright©2012,SASInstituteInc.Allrightsreserved.大数据与分析模型小数据大数据一般性规律特殊性规律因果性关联性逻辑、推理非推理带参数的模型无参数的模型可以有效解释准确率高算法的力量有时比硬件的升级带来的效果更强大。所以在未来大数据的研究当中,应该不仅仅关注搭建并行化的平台,也要关注平台上算法的研究。•一种方法是采取混合式(hybrid)建模,例如可以带参数(parametric)模型加上无参(non-parametric)模型,判别(discriminative)模型结合生成((generative)模型,非线性(nonlinear)模型加上线性(linear)模型。这样可以一定程度上解决稀疏性以及计算量的问题。•第二种方法是降维,就是把高维的数据先嵌套在一个合理的低维度空间里再建模。©2012,SASInstituteInc.Allrightsreserved.非结构化数据分析文本分析BI工具不能直接分析非结构化的数据。然而,专门的数据分析技术可以用来分析非结构化的数据,和产生BI工具可以处理的数据模型。非结构化数据分析可以从利用自然语言工具测量关键词的密度开始。文本分析从词和解释中抽取相关信息,挖掘和结构化信息以揭示文档中和文档之间的模式,情感和关系。一个组合的文本分析架构如右图。11Copyright©2012,SASInstituteInc.Allrightsreserved.语音识别图像识别视频分析机器学习:通过算法,机器从大量的历史数据中学习规律,从而对新的样本做智能识别和预测未来。深度学习:模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如文本、声频和视频。12Copyright©2012,SASInstituteInc.Allrightsreserved.数据的展示传统的统计图表只能呈现数据的基本信息,条形图、饼状图、柱状图、散布图、曲线图,以及用不同颜色对不同省份进行标注的地图等等。面对复杂或大规模异型数据集,比如商业分析、财务报表、人口状况分布、媒体效果反馈、用户行为数据等,就无能为力了。数据可视化可以弥补这方面的不足。可能要经历包括数据采集、数据分析、数据治理、数据管理、数据挖掘在内的一系列复杂数据处理,然后设计一种表现形式,是立体的、二维的、动态的、实时的还是交互的。然后创建对应的可视化算法及技术实现手段。包括建模方法、处理大规模数据的体系架构、交互技术、放大缩小方法等。13Copyright©2012,SASInstituteInc.Allrightsreserved.云计算与大数据•改变网络架构•让人人平等•实现全球办公14Copyright©2012,SASInstituteInc.Allrightsreserved.NOW1976SASCOMPUTINGAPPROACHESIN-MEMORYIN-DATABASEGRIDCOMPUTINGMULTITHREADEDPROCESSINGSINGLETHREADEDPROCESSINGX数据分析进化图PCFILES(e.g.,FLATFILES,XMLFILES,etc.)RELATIONALDATABASESENTERPRISEAPPLICATIONS(e.g.,ERP,CRM,etc.)DATAWAREHOUSEAPPLIANCESDISTRIBUTEDFILESYSTEMS(Hadoop)CLOUDSOURCESDATASOURCESMAINFRAME(NON-RELATIONAL)1976NOWCopyright©2012,SASInstituteInc.Allrightsreserved.大数据时代Copyright©2012,SASInstituteInc.Allrightsreserved.VOLUME容量VARIETY类型VELOCITY速度VALUE价值现在未来数据量什么是大数据17Copyright©2012,SASInstituteInc.Allrightsreserved.一个新的现实–对每一个人“Bewareofgeeksbearingformulas.”–WarrenBuffett,2008“BigData–WhyWarrenBuffettInvested$10BillionInThisHigh-TechTrend”–AndyBattsSeekingAlphaheadlineSeptember2012ByDOW18Copyright©2012,SASInstituteInc.Allrightsreserved.美国政府美国奥巴马政府在2012年3月正式启动“大数据研究和发展”计划,宣布将投资2亿多美元,推大数据升至国家战略。自2000年开始,美国政府举行一年一度的数据分析大会。美国政府要建立21世纪的数字政府,大数据是核心减少纸张,提高效率,正确决策运用大数据推动政府管理方式变革和管理能力提升,各级政府部门依托数据及数据分析进行决策,将之用于各种政务活动。19Copyright©2012,SASInstituteInc.Allrightsreserved.什么是大数据时代数据生产资料决策决策=定性+定量智能智慧城市,智能机器发现科学研究第四范式Copyright©2012,SASInstituteInc.Allrightsreserved.趋势观点趋势描述1数据分析技术和方法快速发展非结构化数据格式的分析,海量数据处理,分析技术和硬件配置的提高,更有效的存储手段,与云计算结合的模式。2大数据对其他学科的影响应该说世界上所有的东西都可以归结到数据里。那么我们能由此对世界有更深的了解吗?基因,人体数据能绘出人体机能吗(科学研究的第四范式)?数据分析使得物联网、机器智能化成为可能3数据资产,法律条款的更新数据作为资产会取得它的社会地位。数据归属、个人隐私、国家机密保护等需要法律保护。4社会治理新手段改进决策体制,提高科学决策水平;增强国家治理能力-公共安全;提高政府服务效能(数字政府)5大数据会改变人们的思维方式从局部到全部,纯净变为凌乱,从因果关系到相关性。人们会更加相信数据,依赖数据。6分析平民化、普遍化有的公司提供免费工具,任何人在没有编程知识背景的情况下都能制造出数据专用图表。数据可视化使其成为可能,也可以移植到移动器件,电视等。7新的生活模式大数据会与物联网、智能机器、云计算和互联网一起,形成我们新的生活模式8新的商业机会和就业形式大量的资本投入和商业机会,计算机革命后,又一新的大规模就业机会。教育部门要做相应的调整9军队变革从冷兵器,到火器,机械化,电子化,信息化到定量分析化,使得决策更加自动化,快速、准确。10政治、军事手段的延伸趋势、事件预测,民意和统治,监测和制造事端,了解对手决策等。网络和数据安全。大数据时代十大发展趋势21Copyright©2012,SASInstituteInc.Allrightsreserved.中国的机遇第五个现代化-社会治理现代化(通过大数据分析)改进决策体制,提高科学决策水平增强国家治理能力-公共安全提高政府服务效能(数字政府)软件处于变革时代云计算将彻底改变网络架构模式,软件无需再单机安装,云端的软件将是浏览器化的,各种软件要重写开源软件将对传统的商业软件造成冲击这是中国软件赶超的好机会22Copyright©2012,SASInstituteInc.Allrightsreserved.大数据时代是继互联网后的又一次IT产业革命日本80年代经济如日中天90年代错过了互联网时代,20年经济无起色,和美国的差距越来越大中国要抓住大数据+云计算时代,争取在基础软件和大数据分析方面出现几个世界级的公司,带动全国的经济发展数据分析将是智能机器实用的基础,智能机器将是下一波的经济增长点23Copyright©2012,SASInstituteInc.Allrightsreserved.中国的挑战技术领域的挑战没有关键的数据分析软件,只能靠开源软件分析技术和经验欠缺,需要时间积累国家安全领域的挑战美国的棱镜计划社交媒体分析网络安全和数据安全公共安全24Copyright©2012,SASInst
本文标题:清华大数据产业联合会-应用·创新-第1讲:SAS刘政112646
链接地址:https://www.777doc.com/doc-472221 .html