您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据挖掘常用算法概述
关联分析关联规则挖掘的提出关联规则挖掘的典型案例:购物篮问题在商场中拥有大量的商品(项目),如:牛奶、面包等,客户将所购买的商品放入到自己的购物篮中。通过发现顾客放入购物篮中的不同商品之间的联系,分析顾客的购买习惯哪些物品经常被顾客购买?同一次购买中,哪些商品经常会被一起购买?一般用户的购买过程中是否存在一定的购买时间序列?具体应用:利润最大化商品货架设计:更加适合客户的购物路径货存安排:实现超市的零库存管理用户分类:提供个性化的服务其他典型应用相关文献的收集购物篮=文档(Document)项目=单词(Word)相关网站的收集购物篮=词句(Sentences)项目=链接文档(Document)什么是关联规则挖掘?关联规则挖掘简单的说,关联规则挖掘发现大量数据中项集之间有趣的关联在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。应用购物篮分析、交叉销售、产品目录设计、loss-leaderanalysis、聚集、分类等。关联规则挖掘形式化定义给定:交易数据库每笔交易是:一个项目列表(消费者一次购买活动中购买的商品)查找:所有描述一个项目集合与其他项目集合相关性的规则应用*护理用品(商店应该怎样提高护理用品的销售?)家用电器*(其他商品的库存有什么影响?)在产品直销中使用附加邮寄其它相关概念包含k个项目的集合,称为k-项集项集的出现频率是包含项集的事务个数,称为项集的频率、支持计数或者计数关联规则的基本形式:前提条件结论[支持度,置信度]buys(x,“diapers”)buys(x,“beers”)[0.5%,60%]major(x,“CS”)^takes(x,“DB”)grade(x,“A”)[1%,75%]关联规则兴趣度的度量值:支持度推导出的数据间的相关性可称为规则(或模式),对规则兴趣度的描述采用支持度、置信度概念。支持度(Support):规则XY在交易数据库D中的支持度是交易集中包含X和Y的交易数与所有交易数之比,记为support(XY),即support(XY)=|{T:XYT,TD}|/|D|,它是概率P(XY),具体表示为:S=总交易数同时包含项目集X和Y的交易数购买商品Y的交易同时购买商品X和Y的交易购买商品X的交易关联规则兴趣度的度量值:置信度置信度(Confidence),规则XY在交易集中的置信度是指包含X和Y的交易数与包含X的交易数之比,记为confidence(XY),即confidence(XY)=|{T:XYT,TD}|/|{T:XT,TD}|,它是概率P(X|Y),具体表示为:最小支持度和最小置信度用户(分析员)不关心可信程度太低的规则,因而用户需要输入两个参数:最小支持度和最小置信度。C=购买商品X的交易数同时购买商品X和Y的交易数购买商品Y的交易同时购买商品X和Y的交易购买商品X的交易支持度和置信度举例零售商场销售分析:数据项为商品,记录集合为交易记录集合规则为:“购买商品X的顾客,同时购买商品Y”,即XY;设最小支持度为0.3;最小置信度也为0.3。分析结果:Item1Item2置信度C支持度SAB10.33BA0.330.33BC0.330.33BD0.660.66CB10.33CD10.33DB10.66DC0.50.33交易号顾客号商品号数量日期1甲A143/4/95甲B33/4/952乙C25/6/95乙B35/6/95乙D135/6/953乙B108/6/95乙D128/6/95频繁项集及其基本特征频繁项集的定义如果项集满足最小支持度,则称之为频繁项集(高频项集)频繁项集的基本特征任何频繁项集的子集均为频繁项集。例如:ABC是频繁项集,则AB、AC、BC均为频繁项集在数据库表分区的情况下,一个项集是频繁的,则至少在一个分区内是频繁的关联规则挖掘的种类布尔vs.数值型关联(基于处理数据的类型)性别=“女”职业=“秘书”[1%,75%]布尔型关联规则性别=“女”收入=2000[1%,75%]数值型关联规则单维vs.多维关联age(x,“30..39”)^income(x,“42..48K”)buys(x,“PC”)[1%,75%]buys(x,“Book”)^buys(x,“Pen”)buys(x,“Ink”)[1%,75%]单层vs.多层分析那个品种牌子的啤酒与那个牌子的尿布有关系?各种扩展相关性、因果分析关联并不一定意味着相关或因果最大模式和闭合相集添加约束如,哪些“小东西”的销售促发了“大家伙”的买卖?关联规则挖掘的基本过程找出所有的频繁项集F,其中对于任何的ZF,在交易集合D中至少s%的事务包含Z根据置信度和频繁项集F,产生关联规则。具体方法如下:conf(XY)=supp(X)/supp(XY)如果conf(XY)c成立,则产生XY的规则,因为:supp(XY)=supp(XY)s且conf(XY)c因此关联规则的挖掘可以转换为频繁项集的挖掘和频繁项集之间的关联。关联规则挖掘:一个例子对于AC:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%交易ID购买商品2000A,B,C1000A,C4000A,D5000B,E,F频繁项集支持度{A}75%{B}50%{C}50%{A,C}50%最小值尺度50%最小可信度50%关联规则挖掘的优缺点优点它可以产生清晰有用的结果它支持间接数据挖掘可以处理变长的数据它的计算的消耗量是可以预见的缺点当问题变大时,计算量增长得厉害难以决定正确的数据容易忽略稀有的数据查找频繁项集—Apriori算法查找具有最小支持度的频繁项集是关联规则挖掘最为重要的步骤Apriori算法是目前最有影响力的一个算法,在1994年,由R.Agrawal,S.Srikant提出该算法基于频繁项集的特征:如果项集l={i1,i2,…,in}是频繁的,当且仅当项集的所有子集均为频繁项集.也就是说,如果supp(l)s,当且仅当supp(l’)s,l’l因此,我们可以采用层次顺序的方法来实现频繁项集的挖掘。首先,挖掘一阶频繁项集L1。在此基础上,形成二阶候选项集,挖掘二阶频繁项集。依此类推。Apriori算法连接:用Lk-1自连接得到Ck剪枝:一个k-项集,如果它的一个k-1项集(它的子集)不是频繁的,那他本身也不可能是频繁的。伪代码:Ck:长度为k的候选项集Lk:长度为k的频繁项集L1={frequentitems};for(k=1;Lk!=;k++)dobeginCk+1=从Lk生成候选项集;对于数据库中的任一交易tdo如果t中包含Ck+1中所包含的项集,则计数加1Lk+1=Ck+1中超过最小支持度的频繁项集endreturnkLk;Apriori算法—例子TIDItems100134200235300123540025数据库Ditemsetsup.{1}2{2}3{3}3{4}1{5}3itemsetsup.{1}2{2}3{3}3{5}3扫描DC1L1itemset{12}{13}{15}{23}{25}{35}itemsetsup{12}1{13}2{15}1{23}2{25}3{35}2itemsetsup{13}2{23}2{25}3{35}2L2C2C2扫描DC3L3itemset{235}扫描Ditemsetsup{235}2Apriori够快了吗?—性能瓶颈Apriori算法的核心:用频繁的(k–1)-项集生成候选的频繁k-项集用数据库扫描和模式匹配计算候选集的支持度Apriori的瓶颈:候选集生成巨大的候选集:104个频繁1-项集要生成107个候选2-项集,并且累计和检查它们的频繁性要找长度为100的频繁模式,如{a1,a2,…,a100},你必须先产生21001030个候选集重复扫描数据库:如果最长的模式是n的话,则需要(n+1)次数据库扫描关联规则结果显示(TableForm)关联规则可视化UsingRuleGraph扩展知识:多层关联规则项通常具有层次底层的项通常支持度也低某些特定层的规则可能更有意义交易数据库可以按照维或层编码可以进行共享的多维挖掘食品面包牛奶脱脂奶光明统一酸奶白黄TIDItemsT1{111,121,211,221}T2{111,211,222,323}T3{112,122,221,411}T4{111,121}T5{111,122,211,221,413}扩展知识:多维关联规则单维关联规则(维内关联规则)关联规则中仅包含单个谓词(维)通常针对的是事务数据库buys(X,“milk”)buys(X,“bread”)多维关联规则:规则内包含2个以上维/谓词维间关联规则(不重复谓词)age(X,”19-25”)occupation(X,“student”)buys(X,“coke”)混合维关联规则(存在重复谓词)age(X,”19-25”)buys(X,“popcorn”)buys(X,“coke”)分类与预测本章内容分类与预测的基本概念决策树分类实例:移动通信客户流失分析系统神经网络其他分类方法预测(回归)建立模型过程历史数据模型建模记录集合预测数学公式规则集合分类为一个事件或对象进行归类预测分类标签(离散值)基于训练集形成一个模型,训练集中的类标签是已知的。使用该模型对新的数据进行分类分类模型:分类器(分类函数、分类规则等)预测:对连续或者有序的值进行建模和预测(回归方法)典型应用客户/用户分类信用评分目标营销医疗诊断…………分类和预测分类的相关概念训练集(TrainingSet):由一组数据库记录或者元组构成,每个记录由有关字段值组成特征向量,这些字段称为属性。用于分类的属性称为标签属性。标签属性也就是训练集的类别标记。标签属性的类型必须是离散的,而且标签属性的可能值的数目越少越好。分类的两个步骤模型创建:对一个已经事先确定的类别创建模型每个元组属于一个事先确定的类别,使用分类标签属性予以确定用于创建模型的数据集叫:训练集。单个元组称为训练样本模型可以用分类规则,决策树,或者数学方程的形式来表达。模型使用:用创建的模型预测未来或者类别未知的记录估计模型的准确率使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较准确率:测试集和训练集是独立的。分类过程:模型创建(学习过程)训练集NAMERANKYEARSTENUREDMikeAssistantProf3noMaryAssistantProf7yesBillProfessor2yesJimAssociateProf7yesDaveAssistantProf6noAnneAssociateProf3no分类算法IFrank=‘professor’ORyears6THENtenured=‘yes’模型分类过程:使用模型模型测试集NAMERANKYEARSTENUREDTomAssistantProf2noMerlisaAssociateProf7noGeorgeProfessor5yesJosephAssistantProf7yes未知数据(Jeff,Professor,4)Tenured?本章内容分类与预测的基本概念决策树分类实例:移动通信客户流失分析系统神经网络其他分类方法预测(回归)使用决策树进行分类决策树一个树型的结构内部节点上选用一个属性进行分裂(决策节点)每个分叉都是分裂的一个部分叶子节点表示一个分布节点的子节点个数跟算法相关age?student?creditrating?noyes
本文标题:数据挖掘常用算法概述
链接地址:https://www.777doc.com/doc-4085919 .html