您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 交通运输 > 基于大数据的用户行为分析研究
龙源期刊网基于大数据的用户行为分析研究作者:高薇王勐来源:《电子技术与软件工程》2016年第14期摘要社交网络媒体发展备受关注,微信、微博以及博客等社交媒体不断使人们生活方式发生改变。微信、QQ、微博、大众点评、美团、淘宝、京东以及亚马逊等用户日益增加,用户通过朋友圈或主动发出评论的数量逐渐递增。在信息化多元化的时代,用户已经成为各个行业的代言人,为品牌推广起到不可替代的作用。如何更好地获取用户真实的购买意愿,并精准的为用户提供购物渠道和优惠信息,将成为提升品牌荣誉、改善用户体验以及获取最大效益的新型渠道。当前存在许多营销手段和推送方式,但准确度还不够,并且时常出现错误推送。本文通过利用销售的案例并结合数据分析来阐述中文舆情的可行性,利用Hadoop平台的文本分析和数据存储数据库(DB2BLU),提高分析的准确程度。【关键词】信息化大数据Hadoop文本分析1背景21世纪是数据信息迅速膨胀的时代,互联网的应用范围和边界不断延伸,如移动互联、社交网络、电子商务等。现今,用户可以借助互联网平台表达社情民意,体现用户的意愿,评论和态度。例如京东的用户对某商品的评论信息,商家通过用户的评论和反馈分析,从而进行优化改善,为用户提供定制性的服务,甚至可以预测用户的需求,从而达到更加准确的销售目的;看似庞大无规则的数据,包含着大量的用户标签及潜在的用户肖像。存储与分析中文文本数据是技术上的关键,如何能够存储并分析海量数据,生成精确的用户标签,依赖于数据存储系统和文本分析系统的技术。本文的数据存储运用DB2BLUAcceleration,利用DB2BLU速度快、与Cognos无缝结合的特性来存储和分析数据。中文文本分析基于Hadoop的文本分析平台,快速进行中文分词和建立标签词典,本文将在后面章节进行具体介绍。2中文微博数据分析逻辑微博是现代网络社会沟通的重要工具,以新浪微博为例,很多大型零售商会建立自己主页,发布近期的打折、新品信息。但是,这些信息往往不能针对每个用户的喜好来发布,类似于广播一样,每一条微博是否对每个粉丝(用户)有意义,需要用户自己来过滤。但实际上,粉丝自身发布的微博含有大量的数据信息,这些信息包含用户的个人爱好,自己年龄阶段,近期的想购买的款式,甚至是自己希望有的款式与功能等。这些数据大多数为非结构数据。如图1,显示了整个营销分析流程的逻辑。从客户发布微博开始,到商家向用户发布商品目录和优惠信息,整个流程分为五个步骤:龙源期刊网(1)客户发布微博,从微博上初步获取的数据为“粗数据”,掌握用户自定义的标签,作为用户肖像的一部分。(2)获取商家的粉丝。(3)将用户的微博进行语义分析,基于Hadoop的文本分析平台将对中文进行分词,分词后将与字典进行比较和分类,总结出该用户的兴趣爱好所在。(4)指定相关营销策略,根据微博内容实时或定时更新客户肖像,向用户推送相应的商品折扣和新上架产品信息。(5)消费者使用消费券或根据打折信息购买相关产品。3方案架构整个系统架构,如图2所示,主要由文本分析系统、DB2BLU数据库以及Cognos数据分析工具组成。首先从互联网上获取数据以后,将原始数据送入文本分析平台进行分析,主要做中文分词、情感分析等工作;然后将文本分析结果整合后输出送入DB2BLU数据库中,进行存储、建表,建表包括客户肖像表、商品目录表、促销策略表等;最后,利用DB2BLU与Cognos无缝集成的优势,用Cognos对数据进行分析。根据Cognos分析出的结果,生成促销的报表,继而将优惠信息分别推送给每个用户。如图3所示,为基于Hadoop平台的文本分析架构图,整个架构主要由三部分组成:引擎部分:用户发布的微博中获取的数据生成文本格式送入文本分析引擎,在输入之前,由于客户的ID、性别、地点已经提取出来,可以作为客户肖像的一部分,但并不送入文本分析系统。引擎部分主要处理中文分词、将分词与词汇库中的字典进行匹配、分类。分词的作用主要将动词,以及动词后的名词分开,情感词,以及表达情感的对象分开等。词汇库部分,主要负责存储客户合作模型的词汇词典,这一部分的词典部分有手工添加,部分由系统根据词汇库聚类生成,词汇库存于HBase上;最后是负责输入输出文本的部分,这一部分利用JAQL来拼接“原始标签”与分词后的标签,一起构成客户肖像表。本文用于存储客户肖像的为DB2BLUAcceleration。BLUAcceleration的架构如图4所示。使用DB2BLU具有的性能优势,采用列式存储,只对需要的数据列进行读取,可以减少I/O。采用霍夫曼编码对数据进行压缩,降低内存消耗。SQL采用并行运行方式,利用CPU寄存器,避免并列干涉。使用列存储算法,便于更多的缓存数据,提供内存利用率,有效减少I/O。4结束语龙源期刊网本文介绍了基于大数据的中文舆情分析系统,采用基于Hadoop平台的文本分析,以及IBMCognos无缝集成DB2BLU加速器的优化分析能力,提供快速的查询和分析功能。整个系统针对互联网大量的数据进行处理、文本分析,经过分析为客户定制肖像,商家可以根据肖像来向客户推送客户需要的优惠信息。经过样本数据测试,推送给用户的信息,与用户的自然标签(用户自己为自己设定的)对应性很高。在实时性、大量重复词汇的处理上面,由于中文语义分析的局限性,还有待优化和提高。参考文献[1]张艺帆,王永,郭辉.基于大数据的中文舆情分析[C].IBMdebeloperWorks技术主题,2014.[2]郝增勇.基于Hadoop用户行为分析系统设计与实现[D].北京交通大学,2014.[3]刘海峰.社交网络用户交互模型及行为偏好预测研究[D].北京邮电大学,2014.[4]任思颖.基于大数据的网络用户行为分析[D].北京邮电大学,2014.龙源期刊网
本文标题:基于大数据的用户行为分析研究
链接地址:https://www.777doc.com/doc-7912403 .html