大型集群上的快速和通用数据处理架构

大型集群上的快速和通用数据处理架构AnArchitectureforFastandGeneralDataProcessingonLargeClustersMateiZaharia著CSDNCODE翻译社区译加州大学伯克利分校电气工程和计算机科学系技术报告编号：UCB/EECS-2014-12翻译社区项目地址：版权声明本文由加州大学伯克利分校计算机科学研究生部MateiAlexandruZaharia博士著。委员会负责：ScottShenker教授，IonStoica首席教授，AlexandreBayen教授，JoshuaBloom教授。本论文原文版权归MateiAlexandruZaharia博士所有，译文版权归所有译者共同所有。允许个人或课堂使用全部或部分作品的电子版或硬拷贝，不收取费用。副本不允许制作或以商业盈利为目进行制作出售。以其他方式进行复制、转载、发布，或再版均需预先取得授权许可。译者名录本论文翻译由CSDNCODE翻译平台（）组织，网友自愿报名参与。共有35名译者，7名审校先后报名参与本论文的翻译工作。最终有29名译者、6名审校完整跟进并完成翻译工作。在此，我们对这些译者、审校以及项目经理吴小然表示诚挚的谢意。感谢CSDNCODE翻译平台及北京语智云帆科技有限公司提供翻译平台和技术支持。以下列出了完整跟进此项目至完成的译者、审校和项目经理名单。项目经理：CSDNID:xiaoran27昵称/姓名：吴小然个人简介：美一天进步一点点，尽人事，听天命。主审校：CSDNID:aiuyjerry昵称/姓名：邵赛赛个人简介：邵赛赛，开发工程师，专注于大数据领域，开源爱好者，现从事Spark相关工作，Spark代码贡献者。CSDNID:liyezhang556520昵称/姓名：张李晔个人简介：英特尔大数据研发工程师，apachesparkcontributor审校：CSDNID:u011278817昵称/姓名：余根茂个人简介：心若没有栖息的地方，到哪里都是在流浪。CSDNID:u012969795昵称/姓名：Ali个人简介：很高兴能和大家一起走过来，谢谢。要有到深圳来玩的，吱个声，聚聚~CSDNID:lance_123昵称/姓名：王联辉个人简介：Hadoop/Hive/SparkContributor，2009年开始从事Hadoop相关的工作，经历了Hadoop千台规模的扩张及解决方案。对Hadoop,Hive,HBase,Yarn,Storm,Spark等项目有丰富的实践经验且熟悉其核心代码，热衷于大数据开源项目与技术。CSDNID:derek12344321昵称/姓名：马继个人简介：大家好，我叫马继，目前在亚信从事spark相关研究工作，希望能在这个平台认识更多的spark爱好者，一起为社区贡献力量。初译（按工作量排名）：CSDNID：Aylee_Liu昵称/姓名：Ayleeliu个人简介：我不认同“不以物喜，不以己悲”，但并不代表我要大喜大悲，遇到开心的事要笑，对自己的缺点不避讳；我喜欢向日葵，不是因为她高傲，而是她可以一直面对阳光，作为一个小人物，我只信奉：做好眼前的事，未来一定有惊喜。CSDNID：qfdai2昵称/姓名：代其锋个人简介：沉迷Spark已有半载，被Spark的设计原理和强大功能所深深吸引，这次能有幸参与Spark主要作者MateiZaharia博士的毕业论文让我不仅对作者开发Spark的思路脉络有了清晰认识，更让自己能站在一个更高视角了解大数据的发展和趋势。CSDNID：shiyuzh2007昵称/姓名：AlexZhou个人简介：平和追求希望珍惜CSDNID：caidaoqq昵称/姓名：潘义文个人简介：妹子，能交个朋友吗？哈哈......CSDNID：u011582658昵称/姓名：雷力明个人简介：国内某小二本（XJTU）一个，正在上研一。平时喜欢读书，有时写点代码，有时看看论文，有时出去户外运动，有时看看电影，还喜欢打游戏，Braid死忠粉。CSDNID：sun7545526昵称/姓名：孙爱华个人简介：之前几年一直接触j2ee，最近从事云计算的研究，范围包括openstack,ceph,hadoop等技术，初出茅庐的spark其魅力让我无法抗拒，相信它一定会有更好的前景。CSDNID：litao471625wo昵称/姓名：栗涛个人简介：非常幸运可以参与到Spark论文的翻译工作，也收获了很多理解和研究论文的经验。不能像阅读论文的时候，遇到不太理解的词语、概念，可以跳过去，翻译的过程更像一个研究的过程，要理解上下文，来表达某些语句的技术重点。希望以后还可以更多的参与到类似的翻译工作，一起和大家交流学习。CSDNID：zhangkan1983昵称/姓名：张侃个人简介：希望能多为开源社区做一些贡献，正从事大数据/车联网相关工作，欢迎交流。CSDNID：laizx昵称/姓名：赖正兴个人简介：一名热爱软件开发技术的老程序员！CSDNID：luogankungmail昵称/姓名：PK时发型不乱个人简介：PK时发型不乱CSDNID：lvhaozhi昵称/姓名：吕浩志个人简介：感谢CSDN给了我开阔眼界的机会。CSDNID：jacty0219昵称/姓名：陈骏个人简介：一个略微忧郁的英语爱好者兼码农，正在慢慢得朝着笔译之路前行。CSDNID：wuyang630昵称/姓名：武扬个人简介：从大公司起步，到小公司创业，无论是谈技术还是谈事业希望能与更多志同道合的同学交流CSDNID：yuangeqingtian昵称/姓名：yuangeqingtian个人简介：下次有这种项目，记得叫上我CSDNID：lazyman500昵称/姓名：Dongxu个人简介：这个人很懒，什么都没有留下。。CSDNID：liuchao_9昵称/姓名：刘超个人简介：感谢CSDN发起这次协作翻译，以及参与协调的工作人员。很多优秀的技术文档都是英文的，平时也是直接看英文的，也觉得自己可以读懂，没有什么问题，但当要翻译成中文，贡献给读者时才发现很难。一句话可能要仔细琢磨好多次，在不改变原作者意思CSDNID：ljkang1990昵称/姓名：刘见康个人简介：大家好，我叫刘见康，人称康帅博，健康的康，帅气的帅，博学的博。我的理想是成为一名德智体美劳全面发展的暴栈工程师，因为不会弹吉他的摄影师不是好程序员。平时喜欢看书、听音乐、摄影，弹弹吉他唱唱歌，篮球羽毛球打的不错，代码写的也还可以，不约，谢谢！CSDNID：qwewegfd昵称/姓名：杨志斌个人简介：爱老婆，爱儿子，我爱我家。CSDNID：usen521昵称/姓名：张冰个人简介：在业余时间能有机会结合自己的兴趣爱好做点积极的事情，是一件很有乐趣的事。参与翻译活动纯属偶然，但很高兴得到这么一个机会，认真的翻译认真的玩，不求多么完美，自己满意就好。CSDNID：xhz1234昵称/姓名：徐洪志个人简介：没伞的孩子，拼命跑CSDNID：pastgift昵称/姓名：周逸灵（本本乱）个人简介：周逸灵，男，汉，1987年生，2010年日语毕业；籍贯江苏，现居上海；后端开发，熟悉C、Python、Docker；热爱技术、涉猎广泛。CSDNID：Martin19870726昵称/姓名：周项勇(MartinZhou)个人简介：致力于实时/离线大数据分析！实时大数据分析系统Druid拓荒者。热心开源事业，Zookeeper管理系统ZookeeperEdit、Zookeeper集群一键安装脚本Zookeeper-ClusterInstaller开发者。现从事在线广告业务数据分析，和DSP(Demand-SidePlatform)系统研发工作。CSDNID：u011941712昵称/姓名：籽皓个人简介：谢谢CSDN的这次活动，让我了解了自己曾经不知道的技术，希望下次还可以参加类似的活动。CSDNID：fancylee0808昵称/姓名：李奕飞个人简介：CSDNID：LinuxCoder昵称/姓名：LinuxCoder个人简介：美国拿到计算机硕士学位，在国外从事7年的技术工作。CSDNID：S1012W2昵称/姓名：叶秋个人简介：丘吉尔曾说过，Wemakealivingbywhatweget,butwemakealifebywhatwegive.我虽拥有的不多，但也希望能发挥自己所长做些有意义的事情。不给自己设限，世界就没有边界。CSDNID：wanghua13717589807昵称/姓名：王华个人简介：CSDNID：ytfuestc昵称/姓名：袁腾飞个人简介：爱生活，爱程序，爱篮球，正在奋力研究sparkCSDNID：zhang177昵称/姓名：张刚个人简介：大家好，我叫张刚，2011年硕士毕业，现任职于某研究院从事项目管理及软件设计工作，爱好笛子，游泳，心理咨询等，业余时间热衷于公益活动。我相信一个人的视野决定他的深度，一个人的思维决定他的高度，所以不断学习，不断挑战，将是我不变的追求。以下译者对本文亦有贡献：CSDNID:u012830490昵称/姓名：私家宅院个人简介：为了让生活更精彩！CSDNID:u014388509昵称/姓名：OopsOutOfMemoryCSDNID:harryxujiao昵称/姓名：馬小喬CSDNID:pandonghua_de昵称/姓名：pandonghua_deCSDNID:lu8000昵称/姓名：木风卜雨CSDNID:kevenking昵称/姓名：kevenkingCSDNID:mqshen昵称/姓名：mqshen摘要基于大型集群的快速通用数据处理架构由计算机科学博士MateiAlexandruZaharia加州大学伯克利分校教授、主席ScottShenker撰写过去的几年中，计算系统经历着重大的变革，为了满足不断增长的数据量和处理速度需求，越来越多的应用向分布式系统扩展。如今，从互联网到企业运作，再到科技设备，不尽其数的数据源都在产生大量的、有价值的数据流。然而，单一的机器处理能力并没有跟上数据增长的速度，使得这些有价值的数据越来越难以被使用。以至于越来越多的组织——不仅仅是互联网公司，还有一些传统企业和研究室——迫切需要将他们重要的计算能力扩展到成百上千台机器上去。在这同时，数据处理所需的速度和复杂性也在逐渐增加。在许多领域中，除了简单的查询，像机器学习和图分析这样的复杂算法也得到日益广泛的应用。另外，除了批量处理，一些组织还需要在实时数据源上进行流分析，以保证能够及时采取行动。未来的计算平台不仅需要能满足常规作业的扩展，同时也需要对新的应用有更好的支持。针对上述的各种问题，本文提出了一种集群计算架构，能够解决这些新出现的数据处理作业的需求，同时还可以应对越来越大规模的扩展。虽然早期的集群计算系统，如MapReduce，已经能够进行批量处理，但我们的架构更支持流处理和交互查询，并且拥有和之前系统相同的可扩展性和容错性。然而当前所部署的大部分的系统仅支持简单的单路运算(例如,聚合或SQL查询)，而我们的系统针更为复杂的分析（例如，机器学习的迭代算法）扩展到了对多路算法的支持。最后，与处理特定工作的专有系统不同的是，我们的架构允许这些算法相互结合，从而实现更丰富的新应用。例如，流处理和批量处理，或SQL和复杂分析之间的相互结合。为了实现上述的各种特性，我们通过简单的扩展MapReduce，为其增加了数据共享原语，也就是所谓的弹性分布式数据集（RDDs）。我们发现，这样的扩展足以能够有效地覆盖大部分作业的需求。在开源的Spark系统中我们实现了RDDs，同时使用了模拟测试程序和真实的用户应用对其进行评估。在许多应用领域中，Spark已经接近或是超过了专有系统的性能，同时提供更强大的容错保证，并允许这

大型集群上的快速和通用数据处理架构

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

电池片质量之挑战

电算化管理办法

国安创想公司财务部结费主管岗位目标和考核指标说明书

人力资源部年度工作规划

《RTX管理员手册》[完整版]

《“如何正确面对压力”主题班会》

环境部保洁工作手册(修改)

PE工程师培训教材

XX财务中心报帐员岗位手册表1

政府与非营利组织会计第六章

相关文档

相关搜索