您好,欢迎访问三七文档
Mahout推荐系统翁迟迟,李强,王聪一.算法原理二.基本架构三.UI设计四.心得体会一.算法原理1.协同过滤2.基于内容3.混合推荐系统协同过滤的优缺点·优点1.具有推荐新信息的能力,可以发现用户潜在但自己尚未察觉的兴趣爱好。2.能够推荐艺术品、音乐、电影等难以进行内容分析的产品。·问题1.冷启动问题(新产品、新用户)2.打分稀疏性问题3.算法可扩展性基于内容与条目或用户(或两者)相关的内容。基于内容的方法的主要特点在于用户和条目相关的内容的积累与分析。基于内容的方法的主要特点在于与用户和条目相关的内容的积累与分析。系统收集信息主要通过用户显示和隐式的行为来完成。混合推荐系统2011中国推荐系统峰会上,张栋博士在总结自已参加netflix竞赛感受时就曾说到:一个好的推荐器无法打败无数技术组合起来的推荐器。Netflix竞赛获胜者说:”我们没有发现完美的模型,而我们最好的结果是来自对具有互补作用的模型预测结果的组合”混合推荐系统1.基于内容通过聚类算法将相同类型的文本进行归类,推荐与评分高相似的内容。采用mahout的kmeans算法优点:1.可以处理冷启动问题;2.不受打分稀疏性问题的约束;3.能推荐新出现的产品和非流行的产品;·问题:1.受到信息获取技术的约束;2.没有考虑人对物品的态度K-means算法分组时,将类似的事物放在一起。K-means算法思想的核心是聚类的中心点。也叫做中心或平均值。将组成聚类的元素想象成一块有质量的物体,聚类的中心点就应等同于这块物体的质量中心。Kmeans算法随机选择k个中心点,表示候选聚类的初始中心点,接下来会计算这些中心点和各个数据点的距离,然后将各个数据点添加到距离最近的中心点的聚类。这样做的结果是,聚类中心点发生了改变,所以需要重新计算中心点,直到其位置不再发生变化。它的优势是兼容各种度量,可以方便地实现算法的并行,将数据分割成N份,每份数据都可以并行地在N个计算单元上各自进行聚类。对数据的顺序不敏感。K-means的空间复杂性是O(n),时间复杂性是O(tkn)。缺点是无法处理异常点.混合推荐系统2.基于关联规则通过寻找频繁项集来推荐相关性比较高的内容采用了mahout的fpg算法沃尔玛的啤酒和尿布交叉学科量子计算机化学生物经济二.基本架构评论用户内容用户体验(1)感观体验(2)交互体验一.首页的宽度国内一些网站首页的宽度Yahoo!950pxMySpace960px网易960px淘宝960px新浪950px搜狐950px在实际的网页设计中,我们也非常容易发现,在1024*768分辨率下,如果你的宽度一旦超过960px,当你将页面最大化的时候,页面下方就会出现横拉条,因为人们的视觉习惯是从上到下,在用户体验的设计中允许下拉条,但是一旦出现横拉条,就会觉得很不舒服。二.放弃看上去很美的效果网站是用来传递信息的,那么聚焦的信息才是最重要的。我们往往被一些看上去很美设计或者效果所迷倒,而这些往往得不偿失。比如3D效果。3D效果带来的恶果是加载的速度非常慢,为真正让用户在最短时间内获取你网站上传递的信息,能放弃多少3D效果就放弃多少。不要在同一个页面上使用太多好看的元素,比如可爱的图标,就如同满桌的菜品会让我们因为选择太多,而影响我们的注意力一样.太多好玩的图标摆在一起,用户也会分散注意力的。三.用户的评论消费者上网购物时越来越习惯查看评论,很多网购者把评论看做是他们最需要的网络特色,如何获得用户的评论?1激励机制,这个是最普通也是最有效地刺激用户产生评论的方式,如评论后即可获得5个积分。2制造影响用户的问题,人们要发表评论话题,肯定得有刺激用户心灵的内容。3评论流程设计合理,人的天性是懒惰的,要诱发用户评论,必须让用户通过最简单的流程发表自已的意见,不需要填验证码,或者采用备选答案式选择性评论,这样用户更方便4制造评论的氛围,人喜欢在一个有说话氛围的地方说话,所以,在评论引导方面,不妨做一些马甲先做做样子。5给予用户激励,人都是有虚荣心的心理,发给用户各类荣誉,可以提高用户的贡献和参与热情。是否改变评分的范围?大多数网站的评分范围是1~5(含)的正整数分值,为什么不是1~10分,甚至是1~100分,不是让你更灵活地表达自已对商品的满意程度?对一个商品的不同方面进行评分,对于学术,我们可以对文章的创新性,可读性,完整性进行评分。推荐系统评价1准确度2覆盖率3多样性4响应速度5在线更新心得体会1对问题本质及数据性质的理解比使用什么算法更重要,领域知识数据算法。2计算能否马上完成,任何解决方案的计算都需要时间,应用的反馈速度对于业务在经济方面的成功是至关重要的。不能盲目地假设应用能在限定的反馈时间内在所有的数据集上完成所有的计算,需要仔细测试算法在各种操作中的性能。2考虑数据规模,反馈速度问题,从海量数据中获得有意义的结果,100个用户时,可能非常靠谱,面对100000个时,结果变得非常糟糕。3简单的模型更好,应该从最简单的模型开始,然后在解决方案中通过逐步添加其他智能元素改进效果,遵循KISS(KeepItSimple,Stupid)原则。
本文标题:mahout
链接地址:https://www.777doc.com/doc-3133572 .html