您好,欢迎访问三七文档
1淘宝评论数据挖掘----以淘宝连衣裙店铺评论数据挖掘为例内容摘要数据挖掘方法能够找到海量数据中有潜在价值的知识与模式,所用到的数学算法在经过多年完善修正已经日趋稳定,在金融、电信等领域的应用也有很多的成功案例。近年随着电商的发展,数据挖掘技术在电子商务上的应用也逐渐受到关注,主要应用的方向是淘宝用户的消费行为偏好的研究。本文尝试使用数据分析的方法、借助数据挖掘工具,对淘宝上150家不同消费层次连衣裙店铺的评论进行挖掘分析,旨在从淘宝用户的评论中发现不同消费层次的消费者对连衣裙消费的关注点以及影响因素。同时以淘宝评论数据挖掘为例子希望能拓展数据挖掘应用于淘宝数据挖掘上的研究,以提供新的思路与借鉴。关键词:数据挖掘,文本分析,淘宝评价,分词,词频统计AbstractDataminingisabletofindoutthepotentialvalueandknowledgeofmassdataandthemathematicalalgorithmsofitusedinrecentyearshasbecomestable,theapplicationinthefieldsoffinance,telecommunicationsandothersalsohavemanysuccessstories.butinthefieldofmicro-bloguserinterest,ithasnotyetusingmaturely.Recentyears,withthedevelopmentofelectricitycommerce,theapplicationofdataminingtechnologyinelectroniccommercehasgraduallybeenconcerned,thoseresearchismainlyusedinconsumerbehaviorofTaobaouser.ThispaperattemptstoexploreTaobaoconsumerhabits,consumerpreferencesandpreferenceswithdataanalysismethodanddataminingtools,meanwhile,IhopetoexpandtheapplicationscopeofdatamininginTaobaouserreviewsresearchandprovidenewideasandreferences.2Keywords:datamining,textanalysis,Taobaoevaluation,participle,Wordfrequency目录1.绪论-------------------------------------------------------------------------------------11.1研究背景-----------------------------------------------11.2研究意义-----------------------------------------------31.3研究方法-----------------------------------------------31.3.1文本采集工具--------------------------------------31.3.2文本预处理以及分析--------------------------------41.3.2文献综述-----------------------------------------42.数据挖掘概述-------------------------------------------------------------------------42.1数据挖掘概念-------------------------------------------42.2数据挖掘与传统数据分析的区别---------------------------52.3数据挖掘方法-------------------------------------------52.4聚类分析-----------------------------------------------62.4.1聚类分析的概念------------------------------------62.4.2聚类分析的算法------------------------------------63.淘宝评论分类模型构建与实现----------------------------------------------------63.1淘宝评论的概述-----------------------------------------73.2连衣裙消费者分类特征的发现与分类模型的建立-------------73.2.1连衣裙消费者分类特征的发现------------------------73.2.2连衣裙评论分类模型的建立-------------------------104.实例分析------------------------------------------------------------------------------114.1淘宝评论数据挖掘--------------------------------------114.1.1样本的确定--------------------------------------114.1.2评论挖掘----------------------------------------124.2淘宝评论数据预处理------------------------------------124.3淘宝评论数据的筛选统计--------------------------------134.4淘宝评论的分析----------------------------------------184.4.1K-means快速聚类--------------------------------1834.4.2分析结论----------------------------------------215.总结与展望---------------------------------------------------------------------------22参考文献--------------------------------------------------------------------------------23后记--------------------------------------------------------------------------------------24致谢--------------------------------------------------------------------------------------2411.绪论1.1研究背景随着互联网技术的发展与成熟,目前,互联网的应用显然已经成为改变人们生活习惯、生活状况的主要产业。随着阿里巴巴在美国的上市,电子商务已经成为促进经济发展一支强大的力量。2015年2月3日,中国互联网络信息中心(CNNIC)在京发布第35次《中国互联网络发展状况统计报告》(以下简称《报告》)。《报告》显示,截至2014年12月,我国网民规模达6.49亿,互联网普及率为47.9%,具体如图1.1。互联网普及的同时,网络购物人群也在增长,截至2014年12月中国网络购物规模已经达到36142万人,网民使用率高达55.7%,图1.2显示2006-2013年中国网购交易额一年年增长趋势。图1.32013年中国网络购物市场用户购买商品品类分布图中可以看到服装鞋帽类是网购中占最大比例的,高达75.6%。图1.1中国网民规模和互联网普及率Figure1.1ChineseInternetusersandInternetpenetration2图1.22006-2013年中国网购交易金额及增长率Figure1.22006-2013China'sonlineshoppingtransactionamountandgrowthrate图1.32013年中国网络购物市场用户购买商品品类分布Figure2013Distributionofchina’sonlineshoppingproductcategories近年来,电子商务快速发展,使得越来越多的传统企业看到了电子商务的发展潜力,并将战略市场转向网络商城,使得网络店铺数量如雨后春笋一般。然而消费者在3网络购物中的行为与在实体店中的购物行为是有巨大差别的,其中比较显著的差别便是产品评论,基于淘宝评论的数据挖掘研究淘宝消费者的评论显示出的影响购物者消费的因素,对淘宝评论的数据挖掘能帮助商家了解用户购物行为,从而调整店铺的经营策略,实现更多盈利。1.2研究意义本文以淘宝连衣裙为例,挖掘不同层次的消费者对于在淘宝上对于其购买的连衣裙的评价,通过数据挖掘算法中的k-中心算法和关联规则算法对这些评价进行分类,从评价的分类中将消费者划分为几个类别,分析不同类别的消费者网购连衣裙的影响因素,使得淘宝卖家更加了解用户的购物行为,从而为淘宝卖家提出提高营业额的策略。1.3研究方法1.3.1文本采集工具本文中淘宝评论的数据是通过八爪鱼采集器进行采集的。采集流程如图1.4。通过该流程采集提取淘宝网页中的评论文本,采集后的数据以.xls文件格式保存。图1.4八爪鱼淘宝数据采集流程图Figure1.4DataAcquisitionflowchart41.3.2文本预处理以及分析本次研究文本预处理主要通过WORD以及EXCEL这两个软件,首先将保存的数据在EXCEL中利用宏功能将没有规则的文本进行分词处理,再将划分好的词导出到WORD中进行词语的筛选以及格式的去除,分词中无用的词语剔除,然后保存为纯文本。接着再利用EXCEL对分词好的文本进行词频计算统计,以及比率计算,也就是对文本进行量化处理。文本预处理结束后利用SPSS软件对评价进行分析,首先利用Pearson算法进行相关性分析,验证样本的相关性,并判断是否需要降维处理。相关性分析结束后,进行聚类分析,利用K平均值聚类算法对数据进行一轮分类,再接着用利用系统聚类算法对数据进行二次分类。1.3.2文献综述数据挖掘的概述以及淘宝评论分类模型的构建主要是通过阅读大量文献整理得出的。2.数据挖掘概述2.1数据挖掘概念随着人们对数据的深入了解及广泛使用,现在人们对数据的定义不仅仅是对事物定性或定量的记录,事实上数据还应包括信息和知识等。信息和知识可以反映为某些行为以及现象,我们需要从海量并且真实的数据中提取出可以为人类所用,并且是针对用户兴趣的信息和知识,最终为可以服务于人类的潜在的信息和知识。互联网发展快速的时代,信息时刻处于爆炸状态,面对丰富的信息资源,人类如何高效地找出对自己有价值的数据成为了亟待解决的问题。由此,数据挖掘技术应用而生。数据挖掘是利用分析工具在大规模数据中发现模型和数据间的关系的过程。通过分析过程可以进行预测,帮助分析者寻找数据间关联,发现作用因素。数据挖掘是解决数据爆炸而信息匮乏问题的一种有效方法和途径。在互联网上的数据主要有三种形式:文本数据(contentdata)、结构数据(structuredata)以及日志数据(usagedata)。根据这三种数据类型,数据挖掘技术大体分为:内容数据(contentmining)、结构挖掘(structuremining)以及日志挖掘(usagemining)。互联网信息多为结构化的文本数据,随着互联网的高速发展,如今,互联网中还存在着半结构化的超文本信息以及非结构化的视频信息和video信息。以上信息均为内容挖
本文标题:淘宝数据挖掘论文
链接地址:https://www.777doc.com/doc-4610025 .html