您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > Data-Mining
1目录数据挖掘在电子商务中的应用..............................................................................................1与DM有关的主要国际期刊和会议......................................................................................4数据挖掘软件调研................................................................................................................7数据挖掘在电子商务中的应用数据挖掘在电子商务中主要是对客户信息以及客户在网站上的浏览和查找信息的挖掘,其能够发现客户的共性和个性的知识、必然和偶然的知识等,而其目的是得到对用户的访问模式及浏览行为的分析,从而为市场决策提供有用的信息和服务。电子商务中常用的数据挖掘技术有路径分析、关联规则挖掘、聚类分析和分类分析等。1.路径分析技术路径分析是一种找寻频繁访问路径的方法,它通过对web服务器的日志文件中客户访问站点的访问次数分析,挖掘出频繁访问路径。由此得到客户对那些页面爱好,从而更好的改进设计,为客户服务。从浏览路径中发现潜在的知识的过程称为路径模式挖掘(pathpatternmining)。分为三个步骤:第一,用浏览过程中的每个站点组成的序列构成原始路径,其中既包括向前引用,也包括向后引用。这时,只有前者是有效地信息,因此删除向后引用得到的每个子序列都是从访问起始点开始的最大向前引用。第二,获取最大的引用序列。第三,确定最大引用序列。2.关联分析技术关联分析的目的就是为了挖掘出隐藏在数据间的相互关系,从而找到客户对2网站上各种文件之间访问的相互联系,即发现其关联规则。常用的Apriori算法分为两步,首先找出满足最小支持度阈值的频繁项集;然后由它们形成满足最小置信度阈值的强关联规则。可以将web挖掘得到的关联规则用于改进电子商务站点的结构,将相关联的商品放在一起,减轻用户过滤信息的负担,增加交叉销售。3.聚类分析技术聚类分析就是根据数据对象的属性信息或对象间的关系,将数据对象分组成为多个类或簇,划分的原则是在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。属于同一个类的对象可以作为一个整体来对待。在Web使用挖掘中,存在两种类型的聚类:用户聚类和网页聚类。用户聚类主要是把所有用户划分为若干组,具有相似特征(或浏览模式)的用户分在一组,这类知识对电子商务和为用户提供个性化的服务特别有用。网页聚类可以找出具有相关内容的网页组,这对网上搜索引擎及提供上网帮助的应用特别有益。聚类分析时对类的划分主要采用的度量方式是距离,通过距离来衡量数据间的相似度和相异度,同时数据间的相似系数也是数据分组的重要标准。典型的聚类算法包括k-means算法、PAM算法、因素分析、机器学习方法及神经网络方法等。4.分类分析技术分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其他数据库中的数据进行分类。分类与聚类是容易混淆的两个概念,但二者有显著的区别:分类时建立模型的数据对象的类别是已知的,而聚类时处理的所有对象的类别都是未知的。在电子商务中分类是一项非常重要的任务,也是应用最多的技术。通过分类自动推导3出定数据的推广描述,从而对未来数据进行预测。可以在Internet上找到未来的潜在客户,获得这些潜在的客户市场,这样就可以针对这一类客户的特点展开商务活动,提供有针对性的个性化的信息服务。数据分类是基于数据的某些属性的值进行的。5.数据抽取技术与传统商务活动相比,电子商务具有更多的虚拟和不确定的因素:如客户购买的心理、动机、能力、欲望等。数据挖掘要解决的任务就是如何从零散的无规则的数据中找到有用的和有规则的数据。基本方法之一是进行数据抽取,数据抽取的目的是对数据进行浓缩,给出它的紧凑描述。如求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形方式表示。更主要是它从数据泛化的角度来讨论数据总结。数据泛化是一种把最原始、基本的信息数据从低层次抽象到高层次上的过程。可采用多维数据分析方法和面向属性的归纳方法。在电子商务活动中,采用多维数据分析方法进行数据抽取,它针对的是电子商务活动中的客户数据仓库。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。可把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。4与DM有关的主要国际期刊和会议1.国际期刊a)A类b)B类c)C类52.国际学术会议a)A类b)B类c)C类67数据挖掘软件调研1.OrangeOrange是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++和Python开发,它的图形库是由跨平台的Qt框架开发。2.RapidMinerRapidMiner,以前叫YALE(YetAnotherLearningEnvironment),其是一个给机器学习和数据挖掘和分析的试验环境,同时用于研究了真实世界数据挖掘。它提供的实验由大量的算子组成,而这些算子由详细的XML文件记录,并被RapidMiner图形化的用户接口表现出来。RapidMiner为主要的机器学习过程提供了超过500算子,并且,其结合了学习方案和Weka学习环境的属性评估器。它是一个独立的工具可以用来做数据分析,同样也是一个数据挖掘引擎可以用来集成到你的产品中。3.Weka由Java开发的Weka(WaikatoEnvironmentforKnowledgeAnalysis)是一个知名机器学机软件,其支持几种经典的数据挖掘任务,显著的数据预处理,集群,分类,回归,虚拟化,以及功能选择。其技术基于假设数据是以一种单个文件或关联的,在那里,每个数据点都被许多属性标注。Weka使用Java的数据库链接能力可以访问SQL数据库,并可以处理一个数据库的查询结果。它主要的用户接品是Explorer,也同样支持相同功能的命令行,或是一种基于组件的知识流接口。4.JHepWork为科学家,工程师和学生所设计的jHepWork是一个免费的开源数据分析框架,其主要是用开源库来创建一个数据分析环境,并提供了丰富的用户接口,以此来和那些收费的的软件竞争。它主要是为了科学计算用的二维和三维的制图,并包含8了用Java实现的数学科学库,随机数,和其它的数据挖掘算法。jHepWork是基于一个高级的编程语言Jython,当然,Java代码同样可以用来调用jHepWork的数学和图形库。5.KNIMEKNIME(KonstanzInformationMiner)是一个用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台。它给了用户有能力以可视化的方式创建数据流或数据通道,可选择性地运行一些或全部的分析步骤,并以后面研究结果,模型以及可交互的视图。KNIME由Java写成,其基于Eclipse并通过插件的方式来提供更多的功能。通过以插件的文件,用户可以为文件,图片,和时间序列加入处理模块,并可以集成到其它各种各样的开源项目中,比如:R语言,Weka,ChemistryDevelopmentKit,和LibSVM。
本文标题:Data-Mining
链接地址:https://www.777doc.com/doc-4678973 .html