大数据驱动下的微博社会化推荐

大数据驱动下的微博社会化推荐重庆大学软件信息服务工程实验室余俊良微博的数据特点微博是一个以内容消费为核心的偏弱关系社交网络，关系的构建多是依托于兴趣。它是半开放的，用户看到的大部分内容，来自于2层关注构建的网络。而对社交网络而言，用户关系网络结构、内容信息、用户是其数据三要素。微博的数据特点用户关系网络结构：呈现海量、社会化、兴趣弱关系、半开放等4个方面的特点。微博关系网络拥有超过6亿个节点、1000多亿条边，每天有海量信息通过这张网络传输。它就像一个虚拟社会，带着社会化分工、去中心化、非对等性的属性；每个用户都有自己的真实身份和角色，比如橙V、蓝V、普通用户，承担不同的职责并具备不同的话语权，在内容的生产、传播、消费的过程中，扮演着不同角色。微博的数据特点内容信息：微博的信息是简短、丰富而碎片化的，同时存在着UGC和媒体内容，具备极快的传播速度。微博由点及面和Timeline的Feed流设计，使其具备极好的信息传播能力，这是微博的优势，但同样也会引发问题——飞速的传播让旧信息很快被淹没掉，不管其价值多寡。因此对于推荐系统来说，其主要目标就是让优质信息沉淀下来并获得更多的曝光机会，这也是之所以要做“错过的微博”的原因。微博的数据特点微博用户具备个性化的行为和偏好，承担着良好的社会化分工角色。同时，微博通过基于UID的账号体系来识别用户，记录历史数据并存储关系数据，从而精确地了解每一个用户，也为后面个性化推荐打下良好的基础。微博推荐系统设计微博推荐的设计主要包括产品、架构、算法3个方面。产品设计微博自然推荐分为用户和内容推荐两个部分。微博推荐系统产品设计用户推荐微博推荐系统产品设计用户推荐效果衡量指标：用户推荐结果点击率------千次曝光的用户关系达成量--------关系达成后的互动率和用户行为量产品设计原则：推荐是用户预期之外的非自然流量，应该顺应用户的行为，以自然流畅的方式展现给用户。微博推荐系统产品设计内容推荐内容推荐的产品目标是加速优质信息传播以满足内容消费需求，“错过的微博、赞过的微博、正文页相关推荐、热点话题”则是其中具有代表性的内容推荐产品，这里重点介绍下“错过的微博”的设计思路。微博推荐系统产品设计“错过的微博”前身是一个叫做“智能排序“的推荐产品，主要用于解决信息过载情况下的排序问题。正常情况下，微博用户平均每天会接收到2000+条Feed，而真正阅读的内容不超过200条，那么怎样才能让用户看到更多高价值信息，减少低质内容曝光，从而提升内容消费体验，这正是产品的设计目的。“智能排序”采用了简单直接的设计思路：Feed流按价值高低整体排序，这样做存在两个问题：1.定义及量化信息对用户的价值2.信息价值和时间顺序的平衡微博推荐系统产品设计“智能排序”不是一个优雅的解决方案，而后通过数据分析发现：用户错过的90+%信息中，只有部分内容是对用户具有极高价值且不容错过的，所以这里无需对未读Feed全排序，只需要将最高价值的信息找出来并推荐给用户，其它的Feed仍按正常时间序排列。这样做一方面可以让Feed流整体上符合Timeline的排序，用户感觉自然流畅；另一方面，与用户对最高价值的信息认知上比较接近，算法效果比较理想。产品推出后，用户认可度很高，互动率远远高于普通Feed。微博推荐系统架构设计推荐系统的架构设计，包含在线服务，以及数据存储、传输、计算两个部分。数据部分的整体架构分为Online和Offline两个部分，其中Online部分通过Kafka/Scribe把用户的即时行为和发布内容传输到流式计算系统Storm中做即时处理，处理的结构化数据存储到Redis中。而Offline的数据，主要通过Hadoop平台做基础的存储，然后通过Spark/MapReduce等分布式计算后，将直接应用到在线服务的数据存储到HBase/Lushan/Redis等数据库中，亦或是存放到在线服务的本地文件。微博推荐系统架构设计微博推荐系统架构设计在线服务的架构设计通过UVE（UniformValueEstimate）来分发非自然流量——广告、运营、推荐。推荐经过应用层接入后，会进入在线服务的核心处理模块lab_common_so，这个模块主要实现了3项功能。•流量切分：即按满足同样数据分布的方式切分流量，用于算法策略的灰度实验。•排序：通过LR模型（ctrorRPMorctr*click_value）实现推荐结果的精选排序。•算法策略选择：动态加载更新算法策略库.so文件。微博推荐系统架构设计微博推荐候选集非常庞大，架构设计中分为初选与精选两个模块，精选模块位于lab_common_so中，而初选由独立的功能模块来承担，来源于3个维度：•离线计算：如用户推荐95%的结果来自离线计算。•Storm流式计算：实时计算用户行为触发的推荐结果，并即时推荐给用户。•离线计算（生成半加工品的推荐资源数据）+在线计算（通过索引IDX连接）。用于精选排序的ctr预估模型，基于Hadoop平台数据，通过Spark来分布式训练。微博推荐系统架构设计微博推荐系统算法设计微博推荐系统算法设计数据挖掘部分，这里基于微博社交数据建模来完成用户亲密度、用户影响力、领域关键节点、粉丝相似度、关注相似度、兴趣协同的量化计算，从而数据化地描述微博社交网络、用户关系、用户兴趣和能力，并将其作为在线推荐计算的中间结果数据。基础算法中，都是大家比较熟知的NLP、用户分析、传播模型等算法，不做过多介绍。算法设计和实践的重点是核心算法和混合技术微博推荐系统算法设计核心算法中。协同过滤是经典的推荐算法，在微博中广泛应用，共使用过如下四种：微博推荐系统算法设计其中，user-based协同的应用最为广泛。微博借助UID账号体系，经过多年积累，存储了充足的用户数据，user-basedCF结果精确，且有良好的推荐理由；相对而言，微博信息的时效性很强，item-based协同效果不太理想。此外，微博具有良好的社会化属性，拥有大量各个领域的专家和关键节点，从而在一些对专业知识要求较高的场景，基于keyUser-based的协同具有良好的效果。在智能排序研发时曾借鉴Facebook的经验，实践过Edgerank算法（加一些公式描述），是相对经典的协同过滤，引入了时间衰减因素，来提升推荐结果的时效性。微博推荐系统算法设计Content-based算法广泛应用在内容推荐中，这里将以微博正文页相关推荐为例进行介绍，如图所示分为在线和离线两个部分。微博推荐系统算法设计离线部分:多种候选物料（如微博、电影）经过NLP结构化处理后选取优质候选，以关键词、分类为key构建索引。其中微博、话题、长微博的候选集索引通过流式计算产生，可以做到分钟级的实时更新。此外，由于微博内容简短，可提取的有效关键词数量有限，为了提升推荐的覆盖率和准确度会以优质微博、长微博、话题为训练语料，离线开展词扩展、词聚类计算（基于word2vec）则用于在线相关性计算的辅助。在线计算:用户访问正文页后，推荐服务会基于Storm流式计算的分类、关键词向量结果查询索引获取推荐候选集，并计算微博正文同各个推荐候选集的相关度，选择相关而不相似的候选集开展ctr/RPM计算,并由此排序得到推荐推荐结果呈现给用户。微博推荐系统算法设计排序模型:基于机器学习的Learningtoranking是推荐中常用解决排序问题的算法技术，微博推荐的排序模型采用经典的LR模型。微博推荐系统算法设计在线计算时的feature向量会随着推荐服务日志记录下来，尤其是场景相关的feature，并通过特征工程的ETL框架将各类产品汇集和处理以生成训练样本，开展模型训练。基础feature分为用户、item、场景3个维度，而实际应用的feature多为交叉特征。另外，对于多种推荐候选集共存的场景，这里通过ctr*click_value的方式来解决综合排序问题，click_value的计算主要考虑候选集结果对用户产生的长远影响，如用户阅读一篇长文章、关注一个新用户的click_value要远高于点击一个相关微博。微博推荐系统算法设计时序混合：微博推荐会随着用户行为而实时调整推荐结果，这里通过时序混合算法策略来达成这一目的，在不同的阶段采用不同的算法。如图是一个正文页的例子。微博推荐系统算法设计在实际场景中，很多用户会先后访问同一个正文页，在初始曝光阶段，系统会采用content-based算法给出推荐结果，而正文页得到了充分曝光和足够多可信用户的互动行为后，会采用协同过滤的算法计算推荐结果，并呈现给后续访问的用户。这个算法思路基于一个朴素的假设：访问同一个正文页的用户存在相似的即时兴趣，从而这里可以采用user-basedCF并结合贝叶斯平滑来选择点击率最好的item做好推荐结果。微博推荐系统算法设计模型融合：单一的算法模型都存在局限性，为了解决复杂的社会化推荐问题，通常会采用模型融合的方法来实现模型间的优势互补，提供最佳的推荐结果。分层模型融合和分片线性模型是微博推荐中应用较多的。分层模型融合:即上一层模型的输出作为下一层模型的feature输入，通常采用多层LR或LR+GBDT的方式，如图所示。微博推荐系统算法设计分片线性模型：由于线性模型的局限性，很多时候无法学到泛化效果好的非线性关系，为了应对各类跨平台、分场景的推荐问题，我们引入了分片拟合、分而治之的分片线性模型，即多个模型解决同一个问题，每个模型应用于其效果最好的条件流量。以微博用户推荐为例，我们从用户类型维度将空间/流量划分为3个局部区域——蓝V、橙V和普通用户，它们各有一个线性预测模型来分片融合给出推荐结果，取得了很好的效果。另外在微博广告实践中也从平台维度划分流量空间并采用了分片线性模型，从而大幅提升了CTR预估的精准性。

大数据驱动下的微博社会化推荐

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

第1讲人工智能概述、数据模型

敏孚机械设计部经理050830

应用工程师问答—37低压差稳压器

商业银行市场风险资本计量内部模型法监管指引

第六章运输合理化

矿用产品安全标志现场评审细则

【人事制度】出差管理制度（暂行）

现代企业管理第三章(简)——企业管理思想

厨房防火安全管理条例

工程部工具管理条例

相关文档

相关搜索

大数据驱动下的微博社会化推荐

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

第1讲 人工智能概述、数据模型

敏孚机械设计部经理050830

应用工程师问答—37低压差稳压器

商业银行市场风险资本计量内部模型法监管指引

第六章运输合理化

矿用产品安全标志现场评审细则

【人事制度】出差管理制度（暂行）

现代企业管理第三章(简)——企业管理思想

厨房防火安全管理条例

工程部工具管理条例

相关文档

相关搜索

第1讲人工智能概述、数据模型