您好,欢迎访问三七文档
(二)立项依据与研究内容1.项目的立项依据1.1研究意义近年来,海量数据的采集、分析和使用已成为信息服务与科学研究的主要领域,尤其是伴随web2.0技术出现,各类网络媒体产生的海量数据中蕴含着巨大的经济和社会价值。语义标注作为海量数据分析与利用的基础性工作,通过对原始数据作标注(文字的或符号的),使其具有语义信息,不仅可以使人理解,也可以使机器理解。常见的语义标注主要涵盖词义区分、内容分类、含义注释、相关性判断和信息抽取、图像标注等工作(戚欣,2011;宋鸿彦,2010;张玉芳,2011;周亦鹏)。目前,众包方式迅速改变了海量数据的收集与处理方式,也为训练机器学习算法提供了更好的训练样本,海量数据语义标注领域得到日益广泛的应用(Sayeed,2011;Brew,2010;Kittur,2008;Russel,2008)。众包是指公司或机构把过去由员工或少数专家执行的工作任务,以自由自愿的形式外包给非特定的大众网络的做法(JeffHowe,2006)。众包的任务管理针对任务发布、执行和评估过程进行管控,是提高众包质量的有效手段。近年来,在《MISQuarterly》、《DecisionSupportSystems》等国际重要期刊上也相继有相关的论文发表,例如,Agerfalk(2008)对众包任务管理中的双边责任问题进行了探讨,Schumaker(2013)探讨采用机器学习方法对众包手段进行改进,提高赛车预测方案的效果。从实践角度看,尽管众包在商业以及学术研究领域日益广泛应用,利用众包获得可靠的结果仍然是一个具有挑战性的现实问题(Kazai等,2011)。根据众包对象不同,可划分为三种模式:常规性事务众包、创新活动众包和信息内容众包(Penin,2010)。与常规性事务众包及创新活动众包相比,信息内容众包,尤其是面向海量数据语义标注的众包,具有如下特点:一项众包任务是由多个数量巨大的人工智能任务(HIT,HumanIntelligenceTask)组成的,每个HIT的难度也不确定;二是众包任务由多个工作者参与完成,而工作者的能力水平参差不齐,需要对工作者进行筛选,而且难以采用静态标准;三是任务分配策略的选择直接关系到成本的增长,对于有偿众包而言,更需要针对微任务的分配方法;四是大量标注可能是不准确的,而且质量评估难以采用传统的黄金标准。这些特征使得面向海量数据语义众包的结果质量难以控制,具有较大的不确定性,因此,整个众包过程更加需要有效的任务管理机制和方法。从理论视角看,已有一些学者在质量控制领域的研究相继展开(Le,2010;Sheng,2008;Donmez,2009;Hsueh,2009;Ambati,2010),主要集中在:众包任务和工作者的匹配机制,众包标注样本的选择策略,噪声数据如何消除,标注结果的评价标准等问题。尽管这些研究取得了一定进展,但它们与大规模实际应用还存在较大差距,在国内的研究与实践更为匮乏。其主要问题具体体现在以下方面:(1)目前还未形成通用的基于众包的海量数据语义标注过程框架,对于众包的任务管理还缺乏系统性的方法。众包任务如何合理地进行分配,如何建立人工标注的评价标准及标注样本的选择策略,人工标注的噪声数据如何消除,以及众包各环节如何有机地衔接,目前此类问题的相关研究还较为匮乏。(2)如何利用有限的资源完成海量数据的有效分析和处理是众包需要解决的问题。如果希望在昀少时间和昀小预算条件下获得高质量的标注,就需要动态地选择所需要标签的数量。目前,仅有少量研究(Kittur,2008)考虑到此类问题,但并未提出有效的算法,如何根据不同的语义标注条件下自动地进行标注样本的选择仍然是众包需要解决的关键性问题。(3)如何建立有效的监控机制,采用合适的算法动态地监控评估标注对象以及工作者的能力,及时淘汰不合格的工作者,从而提高众包质量,这类问题还有待深入研究。本项目将针对海量数据语义标注的上述问题开展深入研究。研究成果将丰富众包机制、众包质量控制、众包与机器学习结合等关键技术的理论成果,为海量数据的分析与处理提供关键理论和技术支撑。同时,为基于海量数据的信息服务和科学研究实践提供低成本、高效率和高可靠性的有效手段,在自然语言处理、网络舆情分析、金融数据挖掘、市场营销管理等领域也具有应用和推广价值。1.2国内外研究现状及发展动态分析(需结合科学研究发展趋势来论述科学意义;或结合国民经济和社会发展中迫切需要解决的关键科技问题来论述其应用前景)我们查找了六个主要英文在线数据库,利用“crowdsourcing”作为关键词,共查找了611篇文献,在中文学术期刊网全文数据库,检索CSSCI索引与核心期刊的“众包”文献,共检索到相关文献69篇。研究文献主要出现在近五年,研究文献主要出现在近五年,集中发表在国际会议上,主要为外文文献,如表1所示。表1众包领域相关文献梳理文献类型ACMIEEEScienceDirectSageEmeraldSpringerLink中文CSSCI检索与核心期刊合计会议论文274110----------384杂志--333316813769296合计274143331681373680本研究重点关注众包任务管理、质量管理、过程管理等相关主题,根据所检索的文献题目和摘要进行筛选,选出与质量相关的英文文献共有42篇,中文文献7篇。以众包过程为主线,对研究文献进行梳理,包括:众包任务设计与分配、众包任务工作者选择、众包实施与结果评估等三方面,通过对国内外研究文献进行评述,分析这些相关研究成果对本课题的支撑和启发意义。表2众包领域代表性文献研究内容与方法研究主题研究内容与方法代表性文献任务单元(粒度)设计通过实验设计研究任务是否容易分解;HIT单元规模与质量Kazai(2011)Sayeed(2010)Asad(2011)Burger-Helmchen(2012)张志强(2013)利用Amazon’sMechanicalTurk平台实验研究任务发布方式(提供样例;预标注;用户提示等)对质量的影响Wesley(2012)Moris(2011)工作者选择和任务匹配利用实验设计研究工作者培训对质量影响Le(2011)利用积分与等级建立基于信誉的工作者选择机制Kochhar(2010);Davis(2011)基于工作者兴趣、技能建立轮廓Satzger(2011);Law(2012);吕英杰,张朋柱等(2013)以往工作评价,先导性问题回答以及输入检验进行经验和问题测试Grimm(2011)供需自动化匹配流程Difallah(2013)静态匹配:众包任务难度与标注者能力匹配Whitehill(2009)Afuah(2012)Corney(2009)监控机制与激励机制设计设计反恶意策略进行任务构造以复杂度和新颖度为任务特征设计实验Eickhoff(2011)Kittur()识别随机类型与统一类型欺骗工作者EM算法采用序列集合差异性算法张志强(2013)Kouritzin(2008)以奖励额度为任务特征设计实验,分析赏金大小对结果质量影响Sorokin(2008)采用流程建模方法进行工作流设计,工作单元分解与合并Potter(2010)Doan(2011)Schenk(2011)Kittur(2013)Afuah(2012)众包质量评估方法黄金标准数据Raykar(2010)Smyth(1995)Donmez(2009)Bhardwaj(2010)多数投票法(VM)EM算法Kappa模型Alonoso(2012)Ipeirotis(2010)Hsueh(2009)TurkRank算法研究标注者数量对结果影响Anthony(2010)EM算法研究任务数量及工作者数量对结果影响张志强(2013)机器学习(ML)方法研究噪音平滑Whitehill(2009)朴素贝叶斯分类器无监督和半监督学习技术Snow(2008)Tang(2011)Pei-YunHsueh,(2009)1.2.1众包任务设计与分配众包任务设计研究主要从如何设计好的众包任务角度出发,探讨如何发布任务能吸引和指导众包工作者参与任务,并获得高质量的结果。主要集中在三方面:①任务分解。Asad等(2011)在进行众包数据意见挖掘时,将标注任务划分为更加细粒度的任务,通过建立工作者质量指标来较少低质量的标注,然后在意见词汇中通过机器学习技术发现模式与目标。Sayeed(2011)研究了众包任务粒度划分,以及众包的界面如何设计等问题。Kazai(2011)研究了众包任务单元的设计对标注质量会产生怎样的影响。②众包界面设计。Moris等(2011)研究发现,通过使用图片和音乐等,众包工作者的绩效可以在短期内得以改善。Sayeed(2011)研究了众包任务粒度划分,以及众包的接口设计。③工作者引导。Le等(2011)调查了初始工作者培训对于改善微任务质量的影响,尤其是对于相关性判断的任务。尽管目前研究提到了将任务进行划分等问题,但关注的是任务分解的粒度,即每个微任务单元的大小,并未涉及每个任务应标注次数,Snow等(2008)提出标注次数达4次以上时,众包可以达到与专家相媲美的质量。但是具体的标注次数直接关系到整个标注任务的成本,而且每个微任务难度不同,如果采用统一的标注次数可能会引起资源的浪费。如何在有限的预算下,根据具体语义标注的众包任务特点给出适合的分配方案等问题尚需深入研究。1.2.2众包工作者选择众包工作者的选择与匹配也是决定众包质量的关键成功因素,如何根据技能、能力、经验、兴趣等定位合适的目标工作者也是研究热点。已有文献主要采取的方式包括:①基于信誉的工作者选择方式,如Kochhar等(2010)以及Saxton(2013)等主要采用积分和等级的方式帮助工作者建立信誉,根据历史信誉的高低进行排序,作为当前众包任务选择的优先级。②基于兴趣和技能的选择方式。Welinder(2009)等研究了自评价专长、兴趣、自信心、理解力等对于工作者选择的影响。③基于经验和问题测试的选择方式。如Grady(2010)利用以往工作评价以及测试问题相结合,对工作者的资质进行检查,从而做出选择。④基于用户特征及任务特征的双边匹配方式。这也是众包领域较活跃的研究领域,如Difallah等(2013)将工作者的社会网络轮廓与路由决策的任务内容进行匹配;Whitehill(2009)等考虑到了众包任务的难度以及工作者的能力;Afuah(2012)关注的是微任务的工作者能力,建立了能力筛选指标。Satzger(2013)根据需求者的轮廓(如社会关系、历史、兴趣等),任务类型和属性,工作者的历史,以及任务的质量需求等诸多选择给出昀适合的方法。吕英杰,张朋柱,刘景方(2013)提出了面向创新任务的知识型人才选择机制,并采用基于TOPSIS的多指标决策算法,为众包工作者选择提供了借鉴思路。许开全等(2013)重点针对基于众包的分类数据挖掘技术进行研究。上述模型与方法的启示是:强调了任务的特质(如任务难度)以及工作者的特质(能力、水平、兴趣等)对众包质量的重要性。但需要指出的是,这些方法的前提是分别先建立了工作者的模型以及任务的模型,然后按照特定的准则进行排序,再采用一定的算法进行优化匹配。局限性在于:建立工作者的模型需要大量的经验数据,而这些经验数据的获得较为困难;任务的难度和级别等特征都是事先定义的,而这种定义本身具有主观性;采用已有算法在参与数量极为庞大的工作者中进行筛选并排序,也会影响到匹配的效率。1.2.3众包实施与结果评估众包实施的有关研究主要集中在两方面:①监控机制设计,集中在防止恶意用户,如Eickhoff(2011)以复杂度和新颖度为任务特征,设计反恶意策略;张志强(2013)采用EM算法识别随机类型与统一类型欺骗工作者。②激励机制设计,例如,Sorokin(2008)以及Mason(2010)分析了赏金大小对结果质量影响。张鹏,鲁若愚(2012)基于委托代理理论提出了众包的创新激励机制。需要指出,酬金对结果质量影响等机制对于常规型众包和创新型众包较为适用,但对于
本文标题:众包研究项目申请书
链接地址:https://www.777doc.com/doc-8693414 .html