您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 基于标签权重评分的推荐模型及算法研究_孔欣欣
第38卷计算机学报Vol.382015论文在线出版号No.23CHINESEJOURNALOFCOMPUTERSOnlinePublishingNo.23———————————————本课题得到国家自然科学基金(61003046,61472099)、国家“九七三”重点基础研究发展规划项目基金(2012CB316200)、国家科技支撑计划(2015BAH10F00)资助.苏本昌,男,1989年生,硕士研究生,主要研究方向为数据质量,孔欣欣,女,1994年生,硕士研究生,主要研究方向为数据质量,王宏志(通信作者),男,1978年生,博士,副教授,博士生导师,主要研究方向为大数据管理、数据质量管理、XML数据管理等,wangzh@hit.edu.cn.高宏,女,1966年生,博士,教授,博士生导师,主要研究领域为无线传感器网络、物联网、海量数据管理和数据挖掘.李建中,男,1950年生,教授,博士生导师,主要研究领域为无线传感器网络、物联网、数据库和海量数据管理.基于标签权重评分的推荐模型及算法研究孔欣欣苏本昌王宏志高宏李建中(哈尔滨工业大学计算机科学与技术学院哈尔滨150001)摘要推荐系统已经被越来频繁地应用到各种电子商务网站与一些社交网站,在提高用户的满意度的同时也带来了巨大的商业利益。然而,当前的推荐算法由于原始数据的不完整性以及算法本身处理数据的特殊性,运行效果不理想。例如,某些推荐系统会产生冷启动、复杂兴趣推荐困难、解释性差等问题。为此,本文提出一种基于标签权重评分的推荐系统模型,旨在使用一种较为简洁的方式——标签权重评分来获取用户最准确的评价和需求,并通过改进当前的一些推荐算法来处理标签权重评分数据,从而生成对用户的推荐,最后以标签权重评分的形式向用户展示推荐结果并作出合理的解释。扩展实验中,本文通过进行电影推荐实验,证明了本文技术的有效性和可行性。关键词推荐系统;标签;标签权重评分;数据挖掘中图法分类号TP391论文引用格式孔欣欣,苏本昌,王宏志,高宏,李建中,基于标签权重评分的推荐模型及算法研究,2015,Vol.38:在线出版号No.23KongXinXin,SUBen-Chang,WANGHong-Zhi,GAOHong,LIJian-Zhong,ResearchontheModelingandRelatedAlgorithmsofLabel-WeightRatingBasedRecommendationSystem,ChineseJournalofComputers,2015,Vol.38:OnlinePublishingNo.23ResearchontheModelingandRelatedAlgorithmsofLabel-WeightRatingBasedRecommendationSystemKongXinXin,SUBen-Chang,WANGHong-Zhi,GAOHong,LIJian-Zhong(SchoolofComputerScience,HarbinIntstituteofTechnology,Harbin150001)AbstractRecommendationSystemhasbeenfrequentlyappliedintovariouse-commercewebsitesandsocialnetworkingsites.Withimprovingusers’satisfaction,recommendationsystemhasalsobroughthugecommercialinterests.However,astheoriginaldataisincompleteandsomerecommendationalgorithmshavetheirownspecialwayofprocessingdata,currentrecommendationsystemsometimescannotworkverywell.Forexample,somerecommendationsystemsarebotheredwithcold-startproblem、difficultforcomplexinterestrecommendationproblem、poorinterpretabilityandsoon.Consequently,inthepaper,weproposearecommendationsystemmodelingbasedonlabel-weightrating.Inthissystem,firstwewillgetthemostaccurateevaluationanddemandinginformationofusersinamoreconciseway—label-weightratingmethod.Thenwewillgeneraterecommendationsusingimprovedexistingrecommendationalgorithm.Finally,wewillshowtherecommendationstotheusersintheformoflabel-weightratingandmakereasonableexplanationtousers.Intheextendedexperimentswedesignaseriesofmovierecommendationsexperimentstoprovetheeffectivenessandfeasibilityofthemodeling.Keywordsrecommendationsystem;label;label-weightrating;datamining2015-07-1523:19:15计算机学报2015年1引言推荐系统[1-3]的主要任务通过分析用户信息、物品信息或其他辅助信息,获得用户对物品的偏好特征,并据此为用户进行物品推荐。当前的推荐算法主要包括以下三种[4]:基于内容的算法、基于协同过滤的算法和基于标签的方法。基于内容的算法[5,6](Content-BasedAlgorithm,以下简称CB)通过为每个物品抽取内容特征来描述该物品,通过用户过去所喜好的物品的特征描述用户偏好特征,通过计算用户与物品之间相关性进行推荐。基于协同过滤的算法[7,8](CollaborativeFilterAlgorithm,简称CF)有两种情况:一种是通过对不同用户对相同物品的行为分析找出相似用户,根据相似用户的偏好对指定用户进行物品推荐,这种称为基于用户的协同过滤推荐(User-basedRecommendation);另外一种是通过对相同用户对不同物品的行为分析找出相似物品,根据相似物品的相似度为指定用户进行推荐,这种称为基于物品的协同过滤推荐(Item-basedRecommendation)。基于标签的方法[9,10](Tag-BasedAlgorithm,简称TB)引入了标签信息,形成用户-标签-物品三元关系,其中标签来源于Web2.0环境下用户对物品的描述。TB算法通过分析用户的标签偏好、物品的标签特征,基于二者相似性为用户进行物品推荐。以上三种方法在当前推荐系统中已得到广泛应用,然而它们都有着以下缺陷:(1)冷启动问题[11-13]。当推荐系统中加入了新的用户,由于没有该用户历史偏好数据(如CB算法和CF算法)或标签数据(如TB算法),以致无法为用户进行有效的推荐。(2)复杂兴趣推荐困难。当用户的兴趣突然发生变化或者多个用户共用一个账户时,用户的兴趣就变得复杂。以上三种方法对用户历史兴趣依赖过重,很难适应这种情况,推荐也就变得不准确。(3)可解释性差问题。为提高用户满意度,推荐系统在进行物品推荐的同时会提供解释来说明推荐原因。推荐解释的方式与所使用的推荐算法有着直接关系。CB算法会提供抽取的内容特征来作解释,但是物品的特征一般很难提取。比如电影推荐,很有可能从两部不同电影描述信息中提取出相同的演员导演的信息,这样的推荐解释缺乏区分度和信服力。CF算法会提供与所推荐物品相似的物品作为说明或者提供同样偏好所推荐物品的用户作为解释。这样的推荐解释的不足之处在于它默认相似用户偏好同一物品是基于相同的理由,这显然是不准确的。比如用户A和用户B都喜欢“阿甘正传”,而用户A是因为喜欢“幽默”,用户B是因为喜欢“汤姆汉克斯”。如果向A推荐一部电影,解释为“B也喜欢”,就不合适了。TB算法会为推荐的物品提供标签解释,但是不同的物品可能具有相同的标签,这时区分度就不大,会影响用户满意度。比如电影“美国队长”具有标签“科幻”“剧情”两个标签,电影“黑暗骑士”也具有“科幻”“剧情”两个标签,然而看过的人知道“美国队长”中科幻元素更强些,“黑暗骑士”的剧情更胜一筹,所以仅仅有标签还是不够。针对以上问题,本文提出了一种基于标签权重评分的推荐系统模型(Label-WeightRatingbasedRecommendation,简称LWR)。标签权重评分(Label-WeightRating,简称LWR)是对传统标签的一种扩展,我们通过为每个标签配以相应的评分,来描述该物品或用户在该标签上的权重。同时,该方法较以往的方法还能最大化地降低客观因素对用户评分的影响。例如[14]中的示例,某用户可能本来很喜欢𝑎餐馆,但最近一次在该餐馆就餐时发生过不愉快的事情,则用户在对该餐馆打分时极可能给出较低分数,这就使得评分出现了偏差。而当前提出的方法可以较为公正客观地解决这一问题,例如可以采用标签权重评分方法,我们可以将对餐馆的标签评分分为:饭菜质量,用餐环境,餐厅服务。此时用户可以对每一项打分,因为这种细分能够最大化地降低客观因素对用户打分的影响,使得评分更为准确、真实。本文的组织结构如下:第1章提出标签权重评分推荐模型;第2章设计标签权重评分推荐算法;第3章进行相关实验及其结果分析;第4章总结全文。2系统模型这一章我们介绍了基于标签权重评分推荐系统模型。首先我们给出标签权重评分数据表示,然后给出推荐系统架构及其数据处理流程,最后说明了本文模型在解决冷启动问题、复杂兴趣推荐问题、可解释性差问题上的优越性。论文在线出版号No.23孔欣欣等:基于标签权重评分的推荐模型及算法研究32.1数据表示定义1(标签)标签是用来描述物品特征的,我们把标签定义为𝑡=(𝑡1,𝑡2,…,𝑡𝑝),其中𝑡𝑘为标签的第𝑘个基本属性,可以是标签名称、词性等。定义2(标签权重)本文在传统标签的基础上进行了扩展,即在描述物品时不仅给出标签特征,还会给出该物品在特征上权重,即我们用标签权重代替标签对物品进行描述。我们定义标签权重为:𝑠=(𝑡,𝑡𝑎𝑔𝑅𝑎𝑡𝑖𝑛𝑔),其中𝑡为标签属性,𝑡𝑎𝑔𝑅𝑎𝑡𝑖𝑛𝑔为权重属性。定义3(基于标签权重评分的数据表示)在基于标签权重评分的推荐系统中数据表示可以描述为一个五元组:𝑀≔(𝑈,𝐼,𝑅,𝑆,𝑌)𝑈为用户集合,∀𝑢∈𝑈,𝑢=(𝑢1,𝑢2,…,𝑢𝑚),其中𝑢𝑘(𝑘=1,2,…,𝑚)为用户的第𝑘个基本属性。例如,当𝑚=3时,𝑢=(1,Ben,24)表示编号为1的用户姓名为Ben,,年龄为24。𝐼为物品集合,∀𝑖∈𝐼,𝑖=(𝑖1,𝑖2,…,𝑖𝑘,…,𝑖𝑛),其中𝑖𝑘为物品的第𝑘个基本属性。例如,当𝑛=3时,𝑖=(3,美国队长2,“2014”)表示编号为3的物品名字为美国队长2,上映年份为2014。𝑅为用户对物品的偏好评分集合,∀𝑟∈𝑅,𝑟=(𝑟1,𝑟2,…,𝑟𝑘,…,𝑟𝑙),其中𝑟𝑘表示用户𝑢对物品𝑖的偏好评分的第𝑘个基本属性,比如评分时间、地点等上下文信息。在本文中,我们不考虑上下文信息对推荐结果的影响。所以,为简洁起
本文标题:基于标签权重评分的推荐模型及算法研究_孔欣欣
链接地址:https://www.777doc.com/doc-6460460 .html