您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 第九章 含虚拟变量的回归模型
理解大数据企业级Hadoop和流数据分析x了解 IBM 如何增强企业级 Hadoop 可扩展性和可靠性 x洞察 IBM 唯一的移动和静止大数据分析平台 x学习大数据用例和解决方案的技巧和诀窍 x快速了解 Hadoop 理解大数据关于作者PaulC.Zikopoulos,文学士,MBA,是IBMSoftwareGroup信息管理部门的技术主管,同时还领导WorldWideDatabaseCompetitive和BigDataSWAT团队。Paul是一名国际知名的获奖作家和演说家,有着超过18年的信息管理经验。Paul撰写过320篇杂志文章和14本关于数据库技术的书,包括《DB2pureScale:RiskFreeAgileScaling》(McGraw-Hill,2010年);《BreakFreewithDB29.7:ATourofCost-SlashingNewFeatures》(McGraw-Hill,2010年);《InformationonDemand:IntroductiontoDB29.5NewFeatures》(McGraw-Hill,2007年);《DB2FundamentalsCertificationforDummies》(ForDummies,2001年);《DB2forWindowsforDummies》(ForDummies,2001年)等。Paul是一名DB2认证的高级技术专家(DRDA和Clusters)和解决方案专家(BI和DBA)。在空闲时间,他喜欢各种各样的运动,如带他的狗狗Chachi一起跑步;练习综合格斗;试图弄清楚为什么他的高尔夫差点会莫名其妙的上升,以及尝试理解他女儿Chloë的世界。您可以通过paulz_ibm@msn.com联系他。另外,也可以关注他的微博@BigData_paul,随时了解大数据发展。ChrisEaton,理学士,IBM信息管理产品全球技术专家,主要关注数据库技术、大数据和工作负载优化。Chris在Linux、UNIX和Windows平台下的DB2领域有19年的经验,担任过许多角色,从技术支持到开发,再到产品管理。Chris的整个职业生涯都在聆听客户的意见,并致力于使DB2成为更好的产品。他是几本关于数据管理空间的图书作者,包括《TheHighAvailabilityGuidetoDB2》(IBMPress,2004年),《IBMDB29NewFeatures》(McGraw-Hill,2007年)和《BreakFreewithDB29.7:ATourofCost-SlashingNewFeatures》(McGraw-Hill,2010年)。Chris还是一位国际知名的获奖演说家,常在全球数据管理会议中发表演讲,他在ITToolbox上有昀受欢迎的DB2博客,。DirkdeRoos,理学士,文学士,IBM全球技术销售团队一员,专攻IBM大数据平台。Dirk于11年前加入IBM,此前在TorontoDB2Development实验室工作,担任信息架构师。Dirk拥有NewBrunswic大学计算机科学学士学位,同时还取得了文学士学位(英语成绩优异)。ThomasDeutsch,文学士,MBA,IBM大数据业务项目主管。Tom在过去的几年中致力于帮助客户使用ApacheHadoop、识别架构机遇、管理多客户参与的早期阶段项目。他在从IBMResearch到IBMSoftwareGroup的基于Hadoop的技术转换中扮演着结构性角色,他同时参与IBMResearchBigData研究以及从研究到商业产品的过渡。在此之前,Tom在CTO办公室信息管理部门工作。在此工作中,Tom所在的团队致力于新型技术,并帮助客户采用IBM创新的EnterpriseMashups和云产品。Tom通过FileNet收购进入IBM,在FileNet他负责FileNet旗舰ContentManagement产品和先锋FileNet产品创新以及其他IBM软件,包括Lotus和InfoSphere。他在业内有着20多年的经验,同时是两个初创企业的老员工,Tom是技术、策略以及今天企业面临的业务信息管理问题方面专家。Tom从纽约Fordham大学获得学士学位,从Maryland大学获得MBA学位。GeorgeLapis,MSCS,IBM硅谷研究和开发实验室大数据解决方案架构师。他在数据库软件领域有着超过30年的经验。他是硅谷的IBMAlmaden研究中心R*和Starburst研究项目的创办会员,也是编译器开发团队成员之一,进行几个DB2版本的研发。他的专长主要包括编译器技术和实现。大约10年之前,George从研究转到开发,他领导当前实验室的编译器开发团队,主要从事DB2的SQL/XML和XQuery功能的研发。George花费几年时间在OptimDatabase工具集客户实现方面,昀近是IBM大数据业务。George昀近的角色是领导IBM’sInfoSphereBigInsights平台的工具开发团队。他也是几本数据库专刊的合著者,也发表过许多文章。他还是一名认证的DB2DBA和Hadoop管理员。关于技术编辑Steven Sit,理学士,MS,IBM 硅谷研究和开发实验室的一名编程主管,IBM 大数据平台在该实验室开发和设计。Steven 和他的开发团队帮助 IBM 客户和合作伙伴评估、原型化和实现大数据解决方案,以及构建大数据开发模式。在过去的 17 年中,Steven 在许多 IBM 项目中担任重要职务,包括业务智能、数据库加工和内容搜索。Steven 拥有 Western Ontario大学计算机科学学士学位和 Syracuse 大学计算机科学硕士学位。 理解大数据企业级Hadoop和流数据分析PaulC.ZikopoulosChrisEatonDirkdeRoosThomasDeutschGeorgeLapis 纽约 芝加哥 旧金山 里斯本 伦敦 马德里 墨西哥 米兰 新德里 圣胡安 首尔 新加坡 悉尼 多伦多 McGraw-Hill图书可以特价批量采购用于馈赠和促销,或者用于企业培训计划。要联系销售代表,请将电子邮件发送到bulksales@mcgraw-hill.com。理解大数据:企业级Hadoop和流数据分析版权所有©2012byTheMcGraw-HillCompanies。保留所有权利。在美国印刷。除1976年的版权法许可,没有出版商的提前书面许可,不得以任何形式或通过任何手段再现或分发,或者在数据库或检索系统中存储本出版物的任何内容,程序清单可在计算机系统中输入、存储和执行,但不得再现进行出版。此处提及的所有商标或版权是其各自所有者的财产,McGraw-Hill提及包含这些标志的产品不是为了声明所有权。本书内容描述的功能不一定在本书中提及的任何产品的昀新版本中都提供,无论本书如何描述。IBM保留针对当前InfoSphereStreams或InfoSphereBigInsights版本或后续版本而包含或排除本书中提及的任何功能的权利。此外,本文中做出的任何性能声明都不是IBM的官方公告;而是作者在未经审核的测试中观察到的结果。本文中表达的观点代表作者的观点,不一定是IBM公司的观点。1234567890DOCDOC10987654321ISBN978-0-07-179053-6MHID0-07-179053-5策划编辑PaulCarlstroem编辑企划PattyMon项目经理SheenaUprety,CenveoPublisherServices采购协调员StephanieEvans技术编辑LisaTheobald校对PaulTyler生产主管GeorgeAnderson排版CenveoPublisherServices插图CenveoPublisherServices封面设计总监JeffWeeks本信息由McGraw-Hill从据信可靠的来源获取。但是,由于我们的来源、McGraw-Hill或其他方可能存在人为或机械错误,McGraw-Hill不保证任何信息的准确性、充分性或完备性,并且不对任何错误或遗漏或使用这些信息所导致的结果负责。这是我在IBM工作18年中编著的第五本图书——难以置信时间过得如此之快,信息管理技术不仅已成为我的职业,还在一定程度上成为了我的爱好(插入Chloe在两年前学会了通用的“失败者”姿势后阅读本书的照片)。我的一生致力于向人们贡献我的图书。实际上我希望将本书贡献给我生命中的、在2011年8月12日跨过100岁生日的公司:IBM。在这个人才流动频繁的时代,美国劳动部表明普通的学习者到38岁时将参加过10到14个工作,1/4的员工与其雇主相处的时间不到1年,1/2的员工与其雇主相处的时间不超过5年。人们时常询问我在IBM的18年任期的情况,都觉得难以理解我们这一代。在IBM的18年里,我很荣幸地学习和参与了昀新的技术、营销、销售、技术销售、写作、实用性设计、开发、合作伙伴计划、渠道、教育、支持、服务、公开演讲、竞争分析,并且不断在学习。IBM始终是一个帮助渴求进步的人实现卓越成就和提供机会的地方,我就是一位永不满足、渴求进步的人。IBM大力提倡向他人学习——我常常想知道其他人是否希望借助我拥有的这样指导团队(MartinWildberger、BobPiciano、DaleRebhorn和AlysePassarelli)崭露头角。感谢IBM提供永无止境的机会和学习经验。昀后,我将本书献给我的两个女儿,她们的天真总是温暖着我的灵魂:GraceMadeleineZikopoulos和ChloëAlyseZikopoulos。—PaulZikopoulos这是我创作的第四本图书,每次我都会将我的图书献给我的妻子和家庭。本书也不例外,因为正是他们的支持才让本书得以诞生,将无数的个人时间用于写书的任何人都可以作证。献给我的妻子Teresa,她对我所做的所有事情都全力支持,包括写书的疯狂想法。她非常清楚写一本书需要多少时间,因为她自己就是一位作家,但在我告诉她我打算编写本书时,她仍然没有任何怨言(您就是一位圣人)。再次献给Riley和Sophia,她们现在的年龄完全能阅读我的图书了(她们并不是真的对我的任何东西感兴趣,因为它们都还不到10岁)。爸爸已完成了这本书,让我们出去尽情玩耍吧。—ChrisEaton感谢Sandra、Erik和Anna对我的支持,为我提供时间完成此工作。另外,感谢Paul让本书得以诞生并给了我参与编写的机会。—DirkdeRoos我想感谢对我提供大力支持的妻子并将本书献给Lauren和William,既然本书已出版,我可以再次带他们去迪斯尼乐园了。我还要感谢AnantJhingran对我的指导和为我提供这一机会。—ThomasDeutsch“如果您热爱您所做的事,您绝不会虎头蛇尾。”我将本书献给在IBM与我合作多年的所有同事,是他们陪伴我学习和成长,使这一想法成为现实。—GeorgeLapis感谢IBM大数据研发部门的同事,是他们创造了供我每天研究的令人激动的技术。我还想感谢Paul为我提供参与编写本书的机会。昀后也是昀重要的,感谢我的妻子Amy和双胞胎孩子Tiffany和Ronald,感谢您们为我所做的一切,感谢您们带来的欢乐,感谢您们支持我在本书上投入这么多时间。—StevenSit概览第I部分大数据:业务视角1什么是大数据?提示:您的每一天都是它的一部分32为什么大数据至关重要?153为什么选择IBM解决大数据?35第II部分大数据:技术视角4关于Hadoop:大数据术语515InfoSphereBigInsights:分析静止的大数据816IBMInfoSphereStreams:分析移动的大数据123.8目录序言xv致谢xxi关于本书xxiii第I部分大数据:业务视角1什么是大
本文标题:第九章 含虚拟变量的回归模型
链接地址:https://www.777doc.com/doc-29780 .html