您好,欢迎访问三七文档
朱扬勇,孙婧.推荐系统研究进展[J].计算机科学与探索,2015,9(5):513-525.推荐系统研究进展*朱扬勇1,2,孙婧1,2+1.上海市数据科学重点实验室(复旦大学),上海2012032.复旦大学计算机科学技术学院,上海201203RecommenderSystem:UptoNowZHUYangyong1,2,SUNJing1,2+1.ShanghaiKeyLaboratoryofDataScience,FudanUniversity,Shanghai201203,China2.SchoolofComputerScience,FudanUniversity,Shanghai201203,China+Correspondingauthor:E-mail:jingsun@fudan.edu.cnZHUYangyong,SUNJing.Recommendersystem:uptonow.JournalofFrontiersofComputerScienceandTechnology,2015,9(5):513-525.Abstract:Recommendersystemistheproductofcyberagetoday.Therehavebeenmanyachievementsinresearchandapplication.Thispapermakesacomprehensivesurveyoftherecommendersystem.Itproposesthreeresearchphases,andpointsoutthemilestoneeventsineachstageofrecommendersystemdevelopment.Intheageofbigdata,exploitingrecommendationintheperspectiveofdata,thispaperclassifiestherecommendersystemintosevenmainclassesaccordingtothedifferentdatausedinrecommendation,andanalyzesandcommentstherecommendedmodelsusedineachclassificationandtheiradvantagesanddisadvantages.Exploitingbigdataintheperspectiveofrecom-mendation,thispaperproposesthatmakingrecommendationbasedonbigdataisoneofthepromisingresearchdirec-tions.Finally,thispapercomparestheevaluationmetricsofrecommendation,andgivesfutureresearchdirections.Keywords:recommendersystem;personalization;collaborativefiltering;bigdata摘要:推荐系统(recommendersystem,RS)是当今网络时代的产物,在技术研究和应用方面取得了很多成果。综述了推荐系统领域的研究状况和进展,提出了3个研究阶段,并指出了每个阶段标志性意义的事件。在当前大数据环境下,从数据的角度看推荐,提出了推荐系统新的分类方法,即根据推荐时所使用的数据不同分*TheNationalNaturalScienceFoundationofChinaunderGrantNos.61170096,71331005(国家自然科学基金);theShanghaiFoundationforDevelopmentofScienceandTechnologyunderGrantNos.13dz2260200,13511504300,14511107302(上海市科学技术发展基金).Received2014-12,Accepted2015-03.CNKI网络优先出版:2015-03-31,(05)-0513-13doi:10.3778/j.issn.1673-9418.1412023E-mail:fcst@vip.163.com计算机科学与探索2015,9(5)1引言随着互联网、移动技术的发展,推荐系统已经渗透到人们的衣食住行中。将哪件衣服推荐给消费者被购买的可能性最大?该到附近哪家餐馆吃饭最合口味?该买哪个地段的房子是最佳的投资?当天走哪条路线不会堵车?类似的例子还有很多。如何对未来做出正确的决策,为用户提供便捷访问的高质量推荐,正是推荐系统研究领域的主要目标。近年来,推荐系统被广泛应用到很多领域,例如电子商务、音频视频网站、音乐电台、社交网络、个性化阅读、个性化广告、基于位置的服务和移动推荐等,并催生了很多新的推荐技术,涌现出一些著名的推荐系统,如Amazon的个性化产品推荐、Netflix的视频推荐、Pandora的音乐推荐、Facebook的好友推荐和GoogleReader的个性化阅读等。推荐系统广泛应用在电子商务、大规模零售业和各种知识管理应用中,不仅给运营商带来了利益,也给用户带来了诸多便利。推荐系统是主动地从大量信息中找到用户可能感兴趣的信息的工具。构建支持用户在线决策的系统,推荐个性化、匹配度高的产品或项目是推荐系统领域的核心问题。它最早可追溯到认知科学、近似理论、信息检索、预测理论、管理科学和市场中的客户选择模型等[1]。鉴于推荐系统的理论和实际应用价值,本文综述了推荐系统的研究进展,试图为进一步深入研究推荐系统理论和拓展其应用领域奠定一定的基础。本文组织结构如下:第2章提出了推荐系统的3个研究阶段及其发展过程;第3章详细评述了推荐系统的各种分类算法;第4章给出了推荐系统的评测指标;第5章指出了推荐系统未来的研究方向。2推荐系统研究阶段社交网络和电子商务的发展使得推荐系统的研究和应用越来越广泛。根据谷歌学术搜索关键字“recommendersystem”得到的统计结果如图1所示,可以直观地看出,从1992年至今,以发表论文数目来说,与推荐系统相关的研究成果显著增长。纵观推荐系统的研究发展进程,将推荐系统分为如下3个阶段,每个阶段又有其标志性意义的事件。第一阶段是推荐系统形成的初期阶段。这一时期属于面向系统的探索阶段,不仅有基于协同过滤的系统,还有基于知识的系统(比如FindMe系统),表明了推荐系统的可行性和有效性,极大地激发了人们推动该领域在科研及商业实践方面不断发展的积极性。这一时期有以下3个标志性意义的事件:(1)协同过滤。1992年XeroxPaloAlto研究中心开发了实验系统Tapestry[2],该系统是基于当时相对新颖的利用其他用户显式反馈(评分和注释)的思想,帮助用户过滤邮件,解决邮件过载问题。这篇论文也是最早使用“协同过滤”(collaborativefiltering,CF)一词的,自首次在文章中提出后被广泛引用。尽管Tapestry能够提供较好的推荐,但它有一个主要的缺陷,即需要用户书写复杂的查询语句。(2)自动推荐。1994年产生了第一个能够自动推荐的系统GroupLens[3]。该系统也是为文本文档为7种类别,同时指出了每个类别使用了哪些推荐模型及其优缺点。提出了在大数据环境下进行推荐是未来推荐系统研究的一个大方向,分析了推荐视角下的大数据机制。最后比较和总结了推荐系统的评价指标,给出了未来的主要研究方向和可能的突破点。关键词:推荐系统;个性化;协同过滤;大数据文献标志码:A中图分类号:TP301300002500020000150001000050000201520112007200319991995论文数量/篇1623919696059158692736919920年份Fig.1Numberofpublishedpapersabout“recommendersystem”图1“推荐系统”论文数量514朱扬勇等:推荐系统研究进展(Usenet新闻消息)过滤而开发的,和Tapestry不同之处在于,Tapestry专指一个点(比如一个网站内、一个系统内)的过滤机制,GroupLens则是既能跨网计算又能自动完成。(3)推荐系统。1997年Resnick等人[4]首次提出“推荐系统”(recommendersystem,RS)一词,认为该词比“协同过滤”更合适来描述推荐技术。原因有二:第一,推荐人可能不显式地和被推荐者合作,他们相互之间可能不知道对方。第二,推荐除了指出哪些应该被过滤掉,还可能建议特别感兴趣的项目。自此,“推荐系统”一词被广泛引用,并且推荐系统开始成为一个重要的研究领域。第二阶段是推荐系统商业应用的出现。这一时期推荐系统快速商业化,效果显著。MIT的PattieMaes研究组于1995年创立了Agents公司(后更名为FireflyNetworks)。明尼苏达州的GroupLens研究组于1996年创立了NetPerceptions。这一时期工作主要解决在大大超越实验室规模的情况下运行带来的技术挑战,开发新算法以降低在线计算时间等。这一时期标志性事件有:(4)电子商务推荐系统。最著名的电子商务推荐系统是亚马逊(Amazon.com),顾客选择一个感兴趣的商品后,页面下方就会出现“通常一起购买的商品”和“购买此商品的顾客同时购买”的商品列表。Linden等人公布了在Amazon.com中使用的基于物品内容的协同过滤方法,该方法能处理大规模的评分数据(当时有2900万客户和几百万的商品目录),并能产生质量良好的推荐,大大提高了Amazon的营业额,据统计,推荐系统的贡献率在20%~30%之间[5]。另一个成功的应用是Facebook的广告,系统根据个人资料、用户朋友感兴趣的广告等对个人提供广告推销。第三阶段是研究大爆发,新型算法不断涌现阶段。2000年至今,随着应用的深入和各个学科研究人员的参与,推荐系统得到迅猛发展。来自数据挖掘、人工智能、信息检索、安全与隐私以及商业与营销等各个领域的研究,都为推荐系统提供了新的分析和方法。又因为可以获得海量数据,算法研究方面取得了很大进步,更是在2006年被Netflix的100万美元大奖推上了高峰。这一时期标志性事件有:(5)推荐分类。2005年Adomavicius等人的综述论文[1]将推荐系统分为3个主要类别,即基于内容的、协同的和混合的推荐方法,并提出了未来可能的主要研究方向。到目前为止,这篇文章引用率高达5181次,此文对推荐系统领域的研究有承上启下的作用。(6)Netflix竞赛。2006年10月北美最大的在线视频服务提供商Netflix宣布了一项竞赛,任何人只要能够将它现有电影推荐算法Cinematch的预测准确度提高10%,就能获得100万美元的奖金。该比赛在学术界和工业界引起了较大的关注,参赛者提出了若干推荐算法,提高推荐准确度,降低了推荐系统的预测误差,极大地推动了推荐系统的发展。(7)推荐系统大会RecSys。2007年第一届ACM推荐系统大会在美国举行,到2014年已经是第8届。这是推荐系统领域的顶级会议,主要是提供一个重要的国际论坛来展示推荐系统在较广领域的新的研究成果、系统和方法。迄今为止,推荐算法的准确度和有效性方面得到了诸多改进,极大完善了推荐效果,并可满足更多的应用需求。然而随着Web2.0的发
本文标题:推荐系统研究进展
链接地址:https://www.777doc.com/doc-7470384 .html