您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 周傲英教授大数据报告47
从大数据热看我国计算机学界的机遇周傲英计算机科学专业分类SpecialtiesunderComputerScience科学(Sciences)计算机科学(CS)人工智能(ArtificialIntelligence)程序设计语言(ProgrammingLanguage)系统(Systems)理论(Theory)Engineering--ComputerEngineeringBusiness/Library--InformationSystem大数据意味着什么?新的技术?新的系统?新的产品?新的平台(服务)?新的的机遇!提纲大数据分类技术和系统全景发展驱动力中国数据界的机遇值得探索的思路大数据分类(Sorting)从应用性质来分网络空间大数据互联网大数据金融大数据移动大数据物理空间大数据传感器数据科学实验/观测数据从支撑系统来分7分布、高性能大数据管理(海量数据的“云”管理)管理分析信息服务决策支持科学研究科学数据决策数据WEB数据分类从支撑系统来分WEB数据决策数据科学数据科学实验科学观测科学文献设计数据8分类/应用的关系技术和系统全景(Landscape)绕不开的Hadoop别忘了数据库数据流(CEP)系统科学/统计数据库CAD/CAM数据库共同的原点:文件系统绕不开的Hadoop需要以低廉的价格处理更大数据量GFS(2003),MapReduce(2004),BigTable(2006)Hadoop在2006年开源随后有了Pig,HBase,Hive,Zookeeper,Sqoop,OozieHadoop史前2003:GFS(Google文件系统)论文发表SanjayGhemawat,HowardGobioff,Shun-TakLeung:TheGooglefilesystem.SOSP2003:29-432004:MapReduce论文发表JeffreyDean,SanjayGhemawat:MapReduce:SimplifiedDataProcessingonLargeClusters.OSDI2004:137-1502006:BigTable论文发表FayChang,JeffreyDean,SanjayGhemawat,etal:Bigtable:ADistributedStorageSystemforStructuredData.OSDI2006:205-218Hadoop诞生2004年:DougCutting和MichaelJ.Cafarella根据GoogleLab论文实施,取名Hadoop。Cloudera公司,Hadoop商用版(Apache开源版)2005秋天:Hadoop由Apache作为Lucene的子项目Nutch的一部分正式引入。2006年3月:Map/Reduce和NutchDistributedFileSystem(NDFS)分别被纳入Hadoop的项目中2006.1–2008:Web-scaleHadoop!(@Yahoo!)Hadoop生态圈(部分)HadoopCommon:在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce成为独立的子项目MapReduce:分布式并行计算框架,Hadoop的核心HDFS(HadoopDistributedFileSystem):所起的作用就是使得每个服务器必须具备对数据的访问能力Pig:编程语言,简化Hadoop常见的工作任务,Pig可加载数据、表达转换数据以及存储最终结果Hadoop生态圈(部分)Hbase(BigTable):分布式列存储数据库,2006年成为Hadoop子项目,2010年5月顶级Apache项目Hive(Facebook):数据仓库工具,架构在HDFS之上,增加静态数据结构,方便使用进行数据分析查询,2008年9月成为Hadoop子项目Zookeeper(Facebook):分布式锁设施,提供类似GoogleChubby的功能Avro:新的数据序列化格式与传输工具,2010年5月成为顶级Apache项目……Hadoop在数据管理中的地位Hadoop是一个可以更容易开发和存储大规模数据的软件平台,帮助用户快速、低成本地实现大数据的存储、管理及分析查询Hadoop的关键构成:MapReduce+HDFSMapReduce可实现高性能分布式并行数据处理HDFS提供可靠数据存储服务,低廉MPP,高容错、高通量,可伸缩用户可在不了解分布式底层细节的情况下,开发分布式程序,充分利用MPP的能力Hadoop在数据管理中的地位用户对大数据存储、管理和分析需求迫切传统数据库对非结构化数据几乎无能为力利用传统数据库来对大数据进行处理时,会面临很多难以解决的问题。软、硬件平台的要求高,成本压力成本和收益不匹配的充分发掘和利用非结构化数据背后的商业价值,用户希望能以更经济的方式、更好的性能来处理数据,从而推动业务创新Hadoop在数据管理中的地位Hadoop在处理网页数据等方面取得巨大成功,经过几年的发展,从一门边缘技术成长为一种事实上的标准Hadoop自身的弱点Hadoop是一个离线的、批量的数据处理系统,实时在线(严格事务,高效分析)仍是数据库的擅长从数据存储的角度来看,HDFS专门针对大文件的存储,等待时间较长,无法做到很高速的随即读写把Hadoop和数据库结合起来应对企业大数据的挑战,是目前值得探索的方案Hadoop?=大数据来源于Google,在类似搜索引擎的查询并行化分析处理领域取得极大成功针对大规模数据密集型应用的编程范式(programmingParadigm)所基于的BigTable和HDFS是非常质朴的数据模型和存储系统适用领域有限,为大数据研究打开了思路,但绝不代表大数据技术全部(仅是一个case)回到文件系统来重新审视数据管理之目的别忘了数据库Data+BaseOracle/DB2/SQLServer/MySQL1974:SystemR1968:IMS(IBMInformationManagementSystem)层次模型1965:IDS(IntegratedDataStore)网状模型1965:ListProcessingTaskForceunderCODASYL1967:LPTFDBTG(DataBaseTaskGroup)1959:CODASYL(ConferenceonDataSystemsLanguages)数据库的基本目的计算机从数值计算转到数据处理,OS中的文件系统发展成DBMSCOBOL,CODASYLDBTG报告(图灵奖获得者CharlesBachman)数据库系统最原始的目标是解决记账(Billing)和订票(Booking)问题商务智能的雏形事务处理(图灵奖获得者JimGray)数据库发展伊始,其目标应用简单明确数据库的三大成就关系模型E.F.Codd(数据库领域第二个图灵奖获得者)事务处理JimGray(数据库领域第三个图灵奖获得者)查询优化结构化(模式和实例分离)关系数据库理论(关系代数)物理存储(索引/统计)成功造就了数百亿美元的数据库产业发展驱动力(DrivingForce)源头:应用不同的企业传统的生产/商业企业制造业企业传统的服务业企业政府机构IT企业新型信息服务业企业搜索引擎、社交媒体电子商务、在线广告……不同的数据平台传统的生产/商业企业数据平台由IT企业提供基础系统和构建方案硬件从PC服务器到小型机、大型主机软件包括操作系统、网络、数据库和中间件由专门的IT部门负责应用开发和运行维护新型信息服务业企业数据平台自行搭建硬件主要是廉价的PC集群软件主要利用开源的技术和系统带动了信息技术的发展:云计算、大数据等不同的贡献传统IT企业的贡献有目共睹过去的五十年的发展信息化社会的构建林林总总的技术和产品Enterprise-Oriented互联网企业的贡献作为非IT企业极大地推动IT技术的发展Consumer-Oriented一个比喻互联网企业是开自助式茶馆的市面上板凳太贵,也不合适自己做了板凳给茶客坐也可以廉价供应其他的茶馆、面馆、饭馆等传统IT企业是做板凳和买板凳的家具企业设计/制造销售服务观察到的现象垂直应用成为IT发展的主要驱动力以前的系统是水平式的通用的计算机系统通用的OS通用的DBMS(OneSizeFitsAll)中间件上面开发的应用软件Google为自己的应用设计了GFS和Map/Reduce等(CasebyCase)。被开源了以后,Hadoop被寄予希望解决一类问题(OneSizeFitsaBunch)带来的变化思想方面:破除了迷信,人们不再认为所有数据管理问题必须依赖RDBMS市场方面:数据库市场长期以来形成的三足鼎立和开源系统MySQL一家独大的局面发生松动技术方面:理论研究和技术探讨进入“春秋战国”时代,应用需求的变化和硬件技术的发展催生了新的技术和实现思路,数据库进入一个蓬勃发展的时期中国数据库界的机遇KnifeRe-invent现状我国已成为大数据开源技术的最大试验场大数据技术应用经验交流大会Hadoop用户/开发者大会大多数报告重点在于Scale怎么用开源的技术搭建大数据平台数据条数很多200亿/天机器个数很多交易量很大营业额很高在线客户很多联想1:开源是双刃剑小偷和强盗美国WTO谈判代表:我们在和小偷谈判吴仪副总理回敬:我们来和强盗谈判强盗是越抢越强,小偷是越偷越弱制定规则、划定势力范围、引领方向开源是双刃剑迅速推动应用发展习惯性懒惰,等待开源扼杀创新能力重利益,轻责任,淡使命联想2:从认可到敬佩2010年3月世界互联网大会抵制中国Greatfirewall如此漠视我国互联网发展原因何在?最大的用户群推动了社会经济发展主要是用别人的,贡献出来供别人用的不多中国的互联网企业和数据界如何赢得尊重认可(Recognition)=》尊重(Respect)=》敬佩(Admire)联想3:KnifeRe-invent已经有很多种刀剪裁、厨房、手术、理发、修脚、…对应于不同的用途对于新的应用,有三种做法将就用原来的刀(Onesizefitsall)改造原来的刀(Extensibledatabase)发明新的刀(onesizefitsabunch)OneSizeFitsaBunch值得探索的道路数据库的假定前提数据存在磁盘上(内存小,外存慢)多用户共享OLTP(并发、恢复)SPARC体系结构(三层模式两级映射)封闭世界假设(CWA,DB完备,算子闭包,说明性语言)满足1NF(范式理论,3NF/BCNF,数据库设计)传统数据库管理系统的问题大量系统开销(ShoreDBMS上的实验)各种锁和恢复机制用于解决内外存的一致性问题VoltDB13Reality$Check$TPCXC$CPU$cycles$On$the$Shore$DBMS$prototype$Elephants$should$be$similar$前提条件的变化应用需求的变化应用环境变化硬件变化体系结构的变化计算环境的变化应用需求的变化Web搜索、电商、极大规模(Largescale)淘宝“双十一”(光棍节)网购前期收藏,0点秒杀收藏夹、产品数据库、购物车、账户多个数据库热点同时影响:查询种类、负载12306春运流量流量集中,售票逻辑复杂区间票、订票、预留票1个座位,25站,有300种不同的起点、终点组合放票时间按照始发站规定各不相同应用环境的变化硬件的变化41内存(Memory)处理器(CPU)网络(Network)TimeBandwidt
本文标题:周傲英教授大数据报告47
链接地址:https://www.777doc.com/doc-24974 .html