您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据下的数据管理领域研究体会
第 10 卷 第7 期 2014 年 7 月41李国良清华大学大数据下的数据管理领域研究体会每个研究领域都有入门的门槛,进入门槛之前,研究者像无头的苍蝇一样,感觉处处有困惑,到处碰壁;而进入门槛之后则变得得心应手,柳暗花明。但是如何跨过这道门槛则需要研究者不懈的努力拼搏。在此结合数据管理方面的研究介绍本人的点滴工作体会。选题具有前瞻性首先,选题是各个研究领域重中之重的问题,选择一个合适的题目对研究的开展起到至关重要的作用。每个研究题目都包含关键词:IEEE 杰出新人奖 研究体会问题提出、方案攻关、技术优化、问题扩展四个阶段。下面通过一个“猪会飞”的例子来形象地描述科研的这几个阶段:A提出了“猪会飞”的新问题,并给出了“如何让猪飞”的初步解决方案;针对A提出的新问题,B研究“如何让猪飞得更快”,C研究“如何让猪飞得更高”,而D研究“如何让猪飞得又高又快”,⋯⋯,接下来出现很多关于“猪飞”的研究成果。不难看出,A提出了问题,而B、C、D进行了方法的优化以及问题的扩展。通常情况下,每个研究题目都有一个研究周期,问题刚提出时研究很火热(例如1998年半结构化数据管理问题的提出,2006年不确定性数据问题的提出),随着研究进展,问题研究难度越来越大(例如2005年半结构化数据管理问题已经得到了广泛的研究,此后相关研究逐渐变少),到最后问题逐渐研究透彻,直到没有研究空间。研究问题的热度随着时间变化的过程如图1编者按:李国良是清华大学计算机系副教授,主要研究海量多源异构数据的融合与管理,在数据管理顶级会议和期刊发表论文40余篇。他针对互联网数据海量性、多源性、异构性、实体不一致性、不完整性、不准确性的特点,围绕“多源异构数据融合管理”这一重要问题,以互联网数据质量最大化为目标,以多源数据融合计算为核心,以为用户提供高质量的信息服务为宗旨,研究多源异构数据获取、表示、融合、检索的理论与方法。从数据获取、数据统一表示、数据融合、数据检索等四个层次研究多源异构数据处理的关键科学问题,建立了一套多源异构数据融合与管理方法。凭借在数据管理方面的突出贡献,李国良获得2014年IEEE数据工程领域的杰出新人奖(IEEETCDEEarlyCareerAward)。该奖项面向全球范围内获得博士学位不超过5年的青年学者评选,旨在表彰在数据管理研究中作出突出贡献的学者。本年度仅有李国良一人获得该奖项,在美国芝加哥召开的ICDE2014大会上进行颁奖。该奖项由IEEE-CS下属的数据工程技术委员会颁发。图1 问题的不同研究阶段专栏第 10 卷 第 7 期 2014 年 7 月42所示。但是如何了解一个研究问题在每个时间点的研究热度呢?个人认为有几个比较好的方法:(1)按照在顶级会议发表的论文数量画一张类似于图1的时间-热点研究曲线,通过该曲线可以了解每个研究问题在不同时间点的热度,并可以通过预测的方法来判断未来热度走势。(2)分析该研究问题在不同档次会议上论文的发表情况,新问题一般发表在顶级会议上,而随着研究的开展,研究难度逐步增大,论文逐渐向其他低档次会议转移,因此可以根据在各种档次会议上的论文发表情况来推断该问题的研究热度。(3)可以多和知名研究者(牛人)进行交流,讨论研究热点和趋势。新问题和老问题的研究方法截然不同。新问题不需要复杂的技术深度,也不需要和现有方法进行对比分析。然而提出新问题是一件非常难的事情,需要一定的研究积累,一般情况下,新问题都是由牛校牛研究组的牛人提出来的,而更多的研究者则跟随这些人研究如何解决已有的问题,类似于“挖坑”(新问题)和“灌水”(提出各种方法来解决该问题)。提出新问题的难点在于说服审稿人接受该问题,详细给出该问题的科学意义、应用前景、研究挑战和如何进行实验评测(是否有相关数据集,如何评测分析)。而研究老问题的难点在于如何提出新技术和新方法来解决该问题,突破老方法的技术壁垒。提出的方法一定要有技术深度和创新性,此外还需要和现有方法进行详细的实验比较和分析。老问题的研究难度大,而且随着时间的变化,研究难度越来越大,因此研究老问题的过程类似于啃骨头,最开始骨头上肉很多,很容易吃到肉,随后肉越来越少,越来越难啃。因此把握住研究热点从而挑选一个有前瞻性的题目就变得十分重要。不仅研究生面临着选题的问题,很多青年教师由于各种原因也需要更换研究题目(例如原有题目已经过时或者更换了研究环境)。选题时经常遇到的一个问题是什么研究题目具有前瞻性?前瞻性题目一般是问题提出不久,还有很多难点需要攻克,例如图1曲线中上坡的位置,研究问题越早(例如目前的众包和知识图谱),越容易出成果,而且容易得到其他研究者的关注。为了得到该曲线,可以首先阅读大量顶级会议的论文,画出每个研究题目的时间-热度图,挑选出比较适合于自己的研究的题目。另外一个方法就是多讨论多交流,多参加国际会议,和国内外同行进行深入讨论,选出合适的题目。还有就是通过学科交叉来发现新的问题或者找到新的应用。青年教师深入科研第一线要想取得优秀的学术成果,青年教师必须要深入到研究第一线。低年级博士生对于科研没有经验,对选题、攻关、实验、论文撰写都不熟悉,像无头的苍蝇一样无从下手,很难独立完成一个出色的学术成果,因此需要导师进行深入指导,带领研究生逐渐走入学术研究大门。一名优秀的导师能使研究变得事半功倍,早日达到科研顶峰。由于计算机技术更新换代非常快,很多问题容易过时,因此青年教师一定要坚守在科研第一线,对现有热点有着深入的把握,否则很容易落伍。研究生一般针对某个具体问题进行深入研究,仅对某一特定问题了解深入,而对其他问题略知一二。但是对于青年教师来讲,知识面一定要广,对本领域的每个问题都要有所了解。其实不同领域的研究是相通的,只不过是门槛不一样而已,各个领域的研究都会有借鉴意义,因此青年教师一定要扩充自己的知识面,做到融会贯通。关键技术攻关选择了一个题目之后就要对关键技术攻关,提出新的方法来解决问题。一个好的解决方案一定要新颖,有技术深度和创新性,切忌堆积现有技术或者简单修改现有技术,而没有任何实质性贡献。评价一个方法是否有创新性和技术深度的标准一般是小同行在十分钟内很难想到该方法。对第 10 卷 第7 期 2014 年 7 月43于不同问题,研究思路不尽相同,但是数据管理领域的基本思路是通过设计索引来提高查询处理的性能,因此从事数据管理工作的研究者一定要熟练掌握常用的索引技术(B树、R树等)和查询优化算法(排序连接和哈希连接等)。通过现有索引技术来激发灵感,设计针对指定问题的索引技术。给出关键技术后,要对提出的方法进行实验分析,验证提出方法的有效性。实验时,一定要分析每个提出的关键技术点,展示每个关键技术点的有效性,如果有相关工作,要进行深入对比分析。科学研究切忌狗熊掰棒子,掰一个扔一个,最后什么都没留下。做科研一定要持之以恒,不退缩,不气馁,不眼高手低,只有坚持才能取得成绩。遇到困难可以多和实验室同学讨论交流,不要钻牛角尖,换个思路或许可以另辟蹊径。论文撰写要过关学术论文的撰写类似于八股文,每个领域都有自己的规则(包括论文风格、论文结构、技术深度和实验设计等),出色的研究者对撰写论文的规则都了如指掌。所以每个研究领域都有一个门槛,只有过了这道门槛,论文才有可能被顶级会议接受。在数据管理研究领域中期刊、会议(尤其是SIGMOD,VLDB,ICDE1等顶级会议),对论文撰写的要求很高,其规则主要如下。(1)技术难度大、创新性强:至少包含3个贡献点,每个贡献点至少写1.5页,而且一定要有创新性,不能简单地利用现有技术,需要提出新颖的方法。(2)逻辑清晰:文章的撰写一定要提纲挈领,首先给出整篇论文的思路(引出3个技术点),然后对其进行详细描述,让读者能够比较容易抓住论文的贡献和思路。(3)图文并茂:技术难点需要通过图的形式来进行直观的展现,而且要通过全局的例子来详细阐述每个技术点,体现技术点的效果。(4)实验充足:一定能验证提出方法的有效性。数据管理领域更关注计算性能,因此一定要分析所提方法的效率和可扩展性。(5)相关文献了解透彻:一定要透彻分析与现有工作的区别和联系,给出提出方法先进性原因。(6)表述良好:论文一定要自包含,让读者(即使外行)能够读懂文章,一定要仔细检查,避免语法错误。重视论文宣讲论文宣讲为同行之间的学术交流提供了一个重要的平台。作者可以通过论文宣讲来向同行介绍自己的新成果,展示新技术,宣传自己的研究小组。国内研究者对论文宣讲重视度不足,往往达不到预期的效果。论文宣讲不是简单地介绍论文的所有技术细节,而是介绍新问题、新动机、新方法和新技术,让听众记住自己的工作,所以宣讲一定要有特点。由于听众并不一定十分熟悉作者的研究领域,因而论文宣讲切忌介绍细枝末节,一定要逻辑清晰,重点突出,图文并茂,浅显易懂。推理证明等技术难点可以留给听众会后通过阅读论文了解。但同时也不要让人感觉平淡,没有任何技术难度,因此作者需要仔细考虑如何组织自己的讲稿。数据管理领域会议介绍计算机领域不同于其他领域,计算机研究者更注重顶级会议(主要是由于计算机领域相关技术更新换代较快,会议论文发表快)。数据管理的顶级会议包括SIGMOD,VLDB和ICDE。SIGMOD采用双匿名(投稿匿名,审稿匿名)的方式审稿。每篇论文分给3~4个审稿人评审,对于有争议的论文,作者有反馈的机会(rebuttal阶段)来回答解释审1SIGMOD:ACMInternationalConferenceonManagementofData,数据管理国际会议;VLDB:VeryLargeDataBase,超大数据库;ICDE:IEEEInternationalConferenceonDataEngineering,数据工程国际会议。专栏第 10 卷 第 7 期 2014 年 7 月44稿人提出的问题。2013年以前,SIGMOD每年征集投稿一次,投稿时间大约在11月初。为了缩短论文发表周期、提高论文质量,从2013年起,SIGMOD采用两轮投稿。论文评审采用期刊评审方式,对评审后有争议的论文,作者需要根据审稿意见修改论文,进入二次评审。VLDB采用期刊的方式进行审稿,作者每个月都可以投稿,一个月后可以获得审稿意见(接受、拒绝、修改)。如果论文需要修改,则作者有两个月的修改时间。ICDE仍采用传统的会议审稿方式,每年7月份投稿,下一年的4月初召开会议。数据管理的研究热点随着大数据时代的到来,数据管理的研究热点从数据库的查询处理和优化转移到大数据计算模型和处理技术,主要的热点研究问题包括以下四点。(1)大规模数据处理、并行和分布式数据管理:针对大规模数据处理问题,研究者们开发了很多高效的分布式平台和框架,例如HadoopDB,Spark,Shark等。在这些框架之上,很多研究者开始重新关注一些传统数据处理问题,如查询优化、近似性连接等,根据数据的特点为大规模数据处理设计新的算法,满李国良CCF会员。清华大学副教授。主要研究方向为大数据管理、群体计算、城市计算等。liguoliang@tsinghua.edu.cn足并行处理的查询需要。(2)新服务模型、多租户数据库和众包计算:工业界的需求也在潜移默化地影响数据管理的相关研究,一些新兴的服务和计算模型正在快速兴起。比如云计算、多租户数据库,新硬件的数据库技术,众包计算等。(3)复杂数据管理:随着社交网络、语义网、知识库的发展,复杂数据管理逐渐得到数据库领域的广泛关注,例如图数据管理和社会媒体数据处理。(4)非结构化数据管理:为了处理互联网产生的海量多源异构数据,数据库研究人员提出了非结构化数据处理技术,例如数据抽取、数据清洗、数据融合等。■致谢:感谢我的导师冯建华教授、周立柱教授以及启蒙教师李建中教授,感谢新加坡国立大学的黄铭钧教授和美国加州大学Irvine分校的李晨教授,感谢课题组所有成员以及所有合作者,没有他们的指导、支持和帮助,就没有我取得的成绩。第五届中国数据挖掘会议召开第五届中国数据挖掘会议(CCDM2014,会议编号:CCF-TC-14-48N)5月23~25日在浙
本文标题:大数据下的数据管理领域研究体会
链接地址:https://www.777doc.com/doc-6317469 .html