您好,欢迎访问三七文档
当前位置:首页 > 机械/制造/汽车 > 汽车理论 > 第三届泰迪杯全国大学生数据挖掘竞赛
第三届“泰迪杯”全国大学生数据挖掘竞赛优秀作品作品名称:基于电商平台家电设备的消费者评论数据挖掘分析荣获奖项:一等奖作品单位:华南师范大学作品成员:赵晓荣叶呈成黄佳锋指导老师:薛云泰迪杯大学生数据挖掘竞赛论文报告页基于深度学习的电热水器评论数据挖掘分析摘要:近年来,随着互联网的广泛应用和电子商务的迅速发展,网络文本及用户评论分析意义日益凸显,因此网络文本挖掘及网络文本情感分析技术应运而生,通过对文本或者用户评论的情感分析,企业能够进行更有效的管理等。本文针对电商平台的电热水器的评论数据,利用基于半监督递归自编码(RAE)的深度学习模型,进行评论的情感分析。为了保证评论数据挖掘分析的质量和全面性,我们重新从京东和苏宁易购平台爬取了评论数据集,对数据进行预处理——评论“去空、去重”、中文分词、停用词过滤等,再利用半监督RAE深度学习模型对这些评论进行情感分析。之后,本文主要进行两个方面的数据挖掘分析工作:一方面是根据不同品牌电热水器的评论数据情感分析结果,提炼出各个品牌产品的差异化卖点;另一方面是根据不同电商平台的评论数据情感分析结果,进行不同电商平台的服务质量比较,进而可以使电商平台根据自身优势吸引消费者。关键词:深度学习,情感分析,RAE,差异化卖点泰迪杯大学生数据挖掘竞赛论文报告(RAE)onanalysisoftheemotionofcommentswhichusersdeliveredaboutelectricwaterheater.Inordertoensurethequalityofthedatamininganalysis,wecrawledtherelevantcommentsdatasetsfromJingdongandSuningplatform.Thenwepreprocessedcommentsdataonwipingemptyandheavyout,Chinesewordsegmentation,filteringstopwords,wordfrequencystatistics,etc.Nextweanalyzesentimentonthesecommentsusingamethodbasedonsemi-supervisedRAE.Later,thispaperanalyzedmainlycommentsintwoaspectsofdataminingwork:ontheonehand,accordingtosentimentanalysisresultofthecommentsofdifferentbrandelectricwaterheater,extractingdifferentiationofvariousbrandproductssellingpoint;Ontheotherhand,accordingtothecommentsofdifferentelectricbusinessplatformdatasentimentanalysisresults,andcomparedifferentelectricbusinessplatformofservicequality,andelectricbusinessplatformcantakemeasurestoattractconsumersaccordingtotheirownadvantages.Keywords:deeplearning;sentimentanalysis;RAE;differentiationofsellingpoint泰迪杯大学生数据挖掘竞赛论文报告挖掘目标本次建模针对电商平台上关于电热水器的评论数据,采用基于半监督RAE深度学习模型的数据挖掘方法,达到以下两个目标:1)利用半监督RAE模型对同一品牌电热水器的评论进行情感分析,根据分析结果得到用户针对各属性的满意度,从而提炼出该产品的优势和劣势。分析不同品牌电热水器的评论数据,提炼出其差异化卖点。2)对不同电商平台对应相同电热水器的评论数据进行情感分析,根据分析结果得出各个电商平台服务的优势与劣势。2.分析方法与过程2.1.总体流程图1总体流程图泰迪杯大学生数据挖掘竞赛论文报告页本用例主要包括以下几个步骤:步骤一:爬取网络评论数据,评论数据的获取是本次数据挖掘分析的第一步。本文中利用火车头数据采集器,对评论文本进行抽取,最后将评论文本批量存进txt文件中,得到实验数据。步骤二:数据预处理,直接从网上爬取的评论数据中往往不能直接分析需要进行数据预处理。第一步要“去空、去重”;第二步对评论数据进行中文分词,将一句评论分成多个词语进一步分析;第三步进行停用词过滤,去除掉评论中与情感判定不相关的词。步骤三:文本矩阵转化,使用基于半监督RAE深度学习模型进行情感分析,需要将文本词语全部转换为词向量,本论文中构建了一个词表和词向量表,词表中为全部文本词语和词语的编号,词向量表中为全部词语的词向量。步骤四:情感分析,构建基于半监督RAE的深度学习模型,利用选出的积极、消极评论各占一半左右的数据集训练情感分析模型,并进行测试,得到符合要求的模型。利用构建的模型分析得出评论数据的情感倾向。步骤五:属性提取并统计,将所有提及到电热水器的某些属性的评论数据从实验数据集中筛选出来,统计各个属性相关评论数据的积极评论和消极评论占该产品的积极评论和消极评论的百分比。步骤六:结果分析,根据分析结果提取产品的差异化卖点或者每个电商平台的竞争优势和劣势,进而制定合适的营销策略。2.2.具体步骤步骤一:爬取网络评论数据随着电子商务的迅速发展,网购的消费者越来越多,他们不再只是被动的获取网络知识,而是可以通过网络发表产品评论来分享自己的用户体验,而评论中所包含的丰富信息,对企业管理具有重要的价值。通过数据挖掘等技术手段实现对客户评论的智能分析,商家可以获得客户对产品的意见和态度,获取网络评论数据中的有价值的信息,做出相应的营销策略和产品改进方案等。而网络数据挖掘分析的第一步就是爬取网络评论数据。本次论文中采用火车头数据采集器爬取网上评论数据,将批量的URL存放泰迪杯大学生数据挖掘竞赛论文报告页进采集队列中,设置采集内容的规则,从评论网页上爬取实验需要的评论文本数据,详细步骤如下:1)采集网址规则我们首先采集美的F50-21W6的评论数据,打开它的评论页面我们要采集的评论共有6065条,分203页显示,如图2所示:图2美的F50-21W6评论页面为采集该商品的所有评论数据,这里采用批量网址采集,将203个网址导入进行数据采集,如图3所示:泰迪杯大学生数据挖掘竞赛论文报告)设置采集内容规则为了抽取出网页中有用的网络商业评论信息,还需要对采集内容规则进行设置。首先在京东网上打开美的F50-21W6的评论页面,可以看到在京东网上评论的标签为“心得”。接下来打开该页面的源代码,搜索到“心得”部分,可以发现它的结构如下:dldt心得:/dtdd不错!性价比非常高!/dd/dl其中的“不错!性价比非常高!”就是我们想要的网络商业评论文本。最后,根据评论在HTML文档中的结构分布,设置采集内容规则,如图4所示泰迪杯大学生数据挖掘竞赛论文报告)结果发布为了后续研究工作的方便,本文选择将采集到的网络商业评论存储在同一个txt文件中,文件编码为”UTF-8”,最终得到一个存储全部评论文本的txt文件。美的F50-21W6的评论示例如下:美的电热水器质量不错,价格比店里要便宜。物流给力机子不错很好很好看也很实用,配送很快,安装师傅人也很好的。头天下单,第二天就到货安装好了,非常满意本文实验中:从京东上选择了三个品牌的电热水器的评论数据进行抓取——美的F50-21W6、海尔EC5002-D、格兰仕G50E302T,用于提炼不同品牌产品的差异化卖点;从苏宁易购上爬取了美的F50-21W6电热水器的评论数据,用于比较和京东电商平台的服务特点。本次实验数据见附件。泰迪杯大学生数据挖掘竞赛论文报告页步骤二:数据预处理与数据库中的结构化数据相比,从网页上爬取的数据属于半结构化或者非结构化数据,即具有有限的结构,或者根本就没有结构,即使具有一些结构,也是着重于格式,而非文档内容,不同类型文档的结构也不一致。此外,网页数据缺乏机器可理解的语义,而数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结构来发现有价值的信息,因此有些数据挖掘技术并不适用于网络文本挖掘,即使可用也需要建立在对网络文本数据进行预处理的基础之上。如果要对网络评论数据进行情感分析,就必须先将文本数据进行预处理,转化为结构化的数据。该步骤中,从以下几个方面对步骤一中从网页上爬取的评论数据进行预处理。1)“去重”、“去空”对于存储了全部网络商业评论的txt文件,每行代表了一个评论
本文标题:第三届泰迪杯全国大学生数据挖掘竞赛
链接地址:https://www.777doc.com/doc-5076031 .html