数据挖掘在淘宝卖家评论中的应用

电子商务客户评论的有效性及其引导分析摘要：许多电子商务网站（如B2C商城淘宝网）为买家提供了对所购商品进行评论的平台，该平台为买家创造了了解商品、信息交流、接收反馈信息等的机会。同时，买家可以通过对这些评论的参考，充分利用其中的有效信息来引导自己对该商品的购买，同时也可以保障购买质量。然而，在大量的买家评论中，一定会存在一些重复冗余的信息。在当今电子商务高度发展的环境下，买家若是能够从这些大量评论中进行筛选，找出有效的评论从而引导自己更好地购买商品，这将大大保证购买的质量，同时也在无形中引导自己给该商品的交易做出恰当实际的评价。这篇文章旨在以淘宝网为例子，分析其买家的评论，教大家如何辨别有效评论并引导潜在客户对该商品的购买。提出一种挖掘新颖信息的算法，并分析了算法的可行性以及有效性。关键词：电子商务淘宝网买家评论潜在客户有效信息0前言随着互联网商业化的迅速发展,电子商务网站大量涌现,市场竞争日趋激烈。网站经营者需要知道网站受用户欢迎的程度,用户们如何使用该网站,网站的成功与不足之处,并找到进一步改善的方法。网站投资者需要了解网站的运营状况、品牌实力和发展潜力等,评估网站的价值,以便作出投资决策。消费者需要了解如何寻找最好的网站,以获得最好的服务和最大的价值。解决这些问题就必须采用合适的标尺和方法来评估网站。因此,电子商务网站评价的强烈社会需求促使网站评价的研究和实践活动蓬勃发展起来。本文拟对电子商务网站评价研究与应用进行分析,以利于进一步推动这一研究的深入开展和促进电子商务网站评价应用更健康地发展。电子商务网站评价是指根据一定的评价方法和评价内容与指标对电子商务网站运行状况和工作质量进行评估。作为电子商务市场发展和完善的重要推动力量,电子商务网站评价不仅使自身得到快速发展,并且通过评价活动促进电子商务网站的整体水平和质量的提高,监督和促进电子商务网站经营规范和完善,从而推动电子商务的健康发展。电子商务网站评价能够在一定程度上解决商务网站和顾客之间的信息不对称问题。顾客可以根据中立的网站评价结果,获得可靠的各个商务网站的评价信息,从而降低信息搜寻成本,并且有助于更方便、更迅速地选择合适的网站进行商务活动或获得最好的服务。例如,在网上购物方面,消费者利用网站评分结果,就可以从产品的价格、质量,网上商店的特别优惠措施等各方面比较不同的网上商店,从而使消费者能够根据自己的需要找到最合适的网站,并能买到价廉物美的产品21世纪是电子商务高度发展的时代，作为亚太地区最大网络零售商的淘宝网，占据着中国80%以上的网购市场份额。因此，对淘宝网的研究无论是从理论上还是现实上都具有重大意义。本文研究的出发点就是针对淘宝商品的大量买家评论数据。一般顾客在淘宝店铺购买商品之后，都会在评论平台上发表一下对所购商品的看法，而这些评论对潜在买家而言无疑是一笔财富。倘若买家能够从这些评论中迅速挖掘出真实可靠的有效信息，势必会对自己的购买行为产生极大帮助。新颖信息挖掘1.1挖掘模型新颖信息挖掘就是从文本中挖掘出读者所关心的、有用的、新颖的信息，该技术在冗余信息过滤领域有着广泛的应用[5]。新颖信息挖掘模型主要由三个部分组成，即预处理、分类和新颖信息挖掘（如图1所示）。当某一位买家的评论输入到模型中后，首先借助机器学习方法进行预处理；预处理之后进入分类阶段，该阶段的主要任务就是借助事先给定的主题（或关键字）来过滤不相关的评论；最后进入新颖信息挖掘阶段，该阶段的任务就是通过和历史记录做对比，判断该条评论是否是新颖的。图1新颖信息挖掘模型本文中，所有买家的评论将被人为地分为三类：质量、价格与物流供应。因此，我们所关注的是预处理与新颖信息挖掘这两个阶段。1.2挖掘算法文献[6]介绍了新颖信息挖掘算法的两种基本思想，即“一对一比较”与“多对一比较”。本文是基于“一对一比较”这一思想，即通过当前评论记录与其之前每一条记录相比较，获得该条记录的新颖度，然后与预先给定的一个阈值相比较，若小于，则认为该条评论记录是冗余的，否则是新颖的。在写出挖掘算法步骤之前，先介绍几个基本概念。（设数据库中已存放CN条买家评论数据记录）ijijj(1)jiiNTNNTN定义1.1：设i表示数据库存放的第i条买家评论记录，n表示预先给定的关键词数目，w（i=1,2,…,CN,j=1,2,…,n）表示第个关键词在i中的权重，则：w其中，表示第个关键词在中出现的次数，表示中共有多少个单词.12121.2iik(1ki1)iik'k,1(2)(,,,)(,,,).ikikiiiinkkkknddiiCNidddg定义：令表示第条记录，表示之前的某一条记录，则与的相似度用余弦函数表示为：cos(,)=（11k）其中，…，…11111.3i(11)iiikkiiiikCNikk定义：令i表示第条记录，表示i之前的某一条记录，则i的新颖度N()可以表示为：N()=1-max(cos(,))(1i)(3)其中，max(cos(,k))表示第条记录的冗余度.买家评论预处理（机器学习方法）分类新颖信息挖掘DB相关评论新颖评论给定主题（或关键字）历史记录新颖信息挖掘的算法步骤如下：（1）给定阈值与n个关键词；（2）浏览数据库中的第i条评论记录，由（1）式算出第j个关键词在i中的权重ijw（i=1,2,…,CN,j=1,2,…,n）；（3）由（2）式算出第i条记录与其之前的每一条记录的相似度（i=1,2,…,CN）；（4）由（3）式计算出第i条记录的新颖度（i=1,2,…,CN）；（5）根据“一对一比较”这一思想，确定第i条记录是否冗余（i=1,2,…,CN）.1.3算法的可行性和有效性分析文献[7]给出了用F值法来衡量新颖信息挖掘算法的可行性以及有效性。在统计学中，F值法广泛应用于信息检索、文件分类以及查询分类等领域。F值的表达式如下：2,4PRFPRMMPRSSAMSA（）其中表示查准率，表示查全率，表示通过阈值控制检索出的相关信息总量，表示中真正是相关信息的数量，表示系统中的相关信息总量.查准率、查全率以及F值是用来衡量挖掘模型检测新颖信息效率的三个指标，而文献[8]给出了另外三个指标，分别是——冗余查准率（RP）、冗余查全率（RR）以及冗余F值（RF），这三个指标从冗余信息的角度来分析新颖信息挖掘算法的可行性与有效性。冗余查准率和冗余查全率定义如下：,MrMrRPRRSrArSrMrSr其中表示通过阈值控制检索出的不相关信息总量,表示中真正是不相关信息的数量，Ar表示系统中不相关信息总量.定义了冗余查准率与冗余查全率之后，下面给出冗余F值（RF）的表达式：25RPRRRFRPRR（）1实例本文所需数据来源于淘宝网上一家手机店铺在2010年内所收到的1269条买家评论记录，将其存放为SQLserver2005中的一张表——comments。在存放数据库里之前，我们人为地将数据分为三类：质量类（标记为1）、价格类（标记为2）与物流供应类（标记为3）。comments包括以下5列：buyerId（买家账号），buyerStar（买家星级），content（评论内容），catid（所属类别），dateTime（评论时间）。表1给出了comments的前5行。表1comments表的前5行按照catid列进行频数分析，如表2所示。表2各个类别的新颖率类别记录数新颖记录数新颖率16566300.960422672600.973833463210.9277SUM126912110.9543限定阈值从0到1，步长取为0.05，根据第1.2介绍的挖掘算法，从检索新颖信息的角度算出不同阈值下的查准率、查全率以及F值，如表3所示。表3不同阈值下算法的查准率、查全率以及F值ASMPRF0.001211126912110.95431.00000.97660.051211126812110.95501.00000.97700.101211126812110.95501.00000.97700.151211126812110.95501.00000.97700.201211126712110.95581.00000.97740.251211126612110.95661.00000.97780.301211126612110.95661.00000.97780.351211126612110.95661.00000.97780.401211126212110.95961.00000.97940.451211125812110.96261.00000.98100.501211125712110.96341.00000.98140.551211125312100.96570.99920.98210.601211124212090.97340.99830.98570.651211123012060.98050.99590.98810.701211121111880.98100.98100.98100.751211117911590.98300.95710.96990.801211113711200.98500.92490.95400.851211105110400.98950.85880.91950.9012118728640.99080.71350.82960.9512113853790.98440.31300.47491.00——————从检索冗余信息的角度，给出不同阈值下算法的冗余查准率、冗余查全率以及冗余F值，如表4所示。（限定的范围从0.5到0.95，步长仍取为0.05）表4不通阈值下算法的冗余查准率、冗余查全率及冗余F值ArSrMrRPRRRF0.555816150.93750.25860.40540.605827250.92590.43100.58820.655839340.87180.58620.70100.705858350.60340.60340.60340.755890380.42220.65520.51350.8058132410.31060.70690.43160.8558218470.21560.81030.34060.9058397500.12590.86210.21980.9558884530.06000.91380.1125根据表4中的数据，借助matlabR2008a软件作出R—PRF曲线，如图2所示。图2R—PRF曲线从表3、表4及图1可以很清晰地看出：当阈值达到0.65时，RF值达到最大为0.7010，此时F值恰好也达到最大为0.9881。因此，当检索买家评论记录数据库时，建议阈值最好控制在0.65左右。2结论基于淘宝买家评论记录数据库，本文构建了新颖信息挖掘模型，并在模型的基础上给出了新颖信息挖掘算法，最后从挖掘新颖信息与挖掘冗余信息两个角度分析了算法的可行性与有效性。在文本信息挖掘中，一般都会预先给定一个阈值，通过本文的分析发现，在检索买家评论记录数据库时，最好控制在0.65左右。参考文献[1]Kwee,A.T.,&Tsai,F.S.(2009).Mobilenoveltymining.InternationalJournalofAdvancedPervasiveandUbiquitousComputing,1(4),43-68.[2]Kwee,A.T.,Tsai,F.S.,&Tang,W.(2009).Sentence-levelnoveltydetectioninEnglishandMalay.LectureNotesinComputerScience(LNCS),5476,40-51.[3]Tang,W.,&Tsai,F.S.(2009).Thresholdsettingandperformancemonitoringfornoveltextmining.In:SIAMInternationConferenceonDataMiningWorkshoponTextMining(

数据挖掘在淘宝卖家评论中的应用

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

易飞ERP质量管理培训

煤矿电工学第三章采区机械设备的电气控制课件

4第四章建筑灭火器的配置(谢)

武汉银行理财产品扬短避长

绿化工程技术标1

第七章煤矿灾害预防与事故应急管理

婚姻法律知识问答

美国肯尼迪大学C-MBA工商管理硕士证书课程

建设项目审批工作流程及申报材料清单

073上海地区地下公共场所热环境状况调查正文

相关文档

相关搜索