您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 我国社会经济发展综合评价指数研究
统计分析、数据挖掘与商业智能应用研究小组关联规则--CARMAContinuousAssociationRuleMiningAlgorithm报告人:徐启元指导教师:谢邦昌日期:2007年11月30日统计分析、数据挖掘与商业智能应用研究小组目录关联规则基本概念CARMA算法简介CARMA模块的基本概念案例分析及Clementine操作步骤购物篮分析----Tabular类型数据网络日志分析----Transactional类型数据值得注意的问题CARMA算法原理(参考)统计分析、数据挖掘与商业智能应用研究小组关联规则算法简介•关联分析的目的是寻找数据项间的相关性.常用技术:–关联规则:即寻找在同一个事件中出现的不同项目的相关性•例如:找出顾客经常同时购买哪些商品。网民浏览的网页之间有没有什么关联性。统计分析、数据挖掘与商业智能应用研究小组CARMA算法简介CARMA是一种比较新的关联规则算法,它是1999年由Berkeley大学的ChristianHidber教授提出来的。1234能够处理在线连续交易流数据仅需一次,最多两次对数据的扫描就可以构造出结果集允许在算法执行过程中按需要重新设置支持度占用内存少CARMAOn-line统计分析、数据挖掘与商业智能应用研究小组CARMA模块中的基本概念•Antecedent&Consequent它们指的是规则的前项和后项。•Instances对于每一条规则,它的Instances值指的是所有记录中包含该规则的antecedent的记录的数量。面包牛奶前项Antecedent后项ConsequentIDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3orangenoodlemeatbeer4fishsoftdrinkfrozenmealbread总共4条购买数据,其中有三条都包含bread,那么该条规则的instances等于3统计分析、数据挖掘与商业智能应用研究小组CARMA模块中的基本概念•Support它的定义和instances很接近,不同的是support描述的不是数量,而是比例。•RuleSupport它在Support定义的基础上更进一步,它指的是所有记录中既包含某规则的antecedent,又包含consequent的记录所占的比例。IDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3orangenoodlemeatbeer4fishsoftdrinkfrozenmealbreadSupport=3/4×100%=75%四条记录中只有一条既包含了前项bread,又包含了后向milk,所以RuleSupport=1/4×100%=25%统计分析、数据挖掘与商业智能应用研究小组CARMA模块中的基本概念•ConfidenceConfidence=RuleSupport/Support该指标反映的是规则预测的准确程度。•DeployabilityDeployability=Support–RuleSupport它的作用与confidence类似。IDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3orangenoodlemeatbeer4fishsoftdrinkfrozenmealbread根据规则“面包=》牛奶”,那么购买了面包的第一、二及四行都会被预测购买了牛奶,但事实上这三个预测只有第二个是正确的,所以confidence=1/3×100%=33.3%统计分析、数据挖掘与商业智能应用研究小组CARMA模块中的基本概念•Lift在已知某规则的consequent发生的先验概率的情况下,某规则的Lift被定义为Confidence和该先验概率的比率值。IDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3milknoodlemeatbeer4fishsoftdrinkfrozenmealbread那么对于一条记录,那么不采用任何规则进行预测,随便猜测该顾客是否该买牛奶的正确率是50%已知有50%的人购买了牛奶:)如果采用“面包=》牛奶”的规则进行预测的话,正确率,即confidence=33.3%比随便猜测的正确率还低。那么此时的Lift值为多少呢???Lift=33.3%/50%=66.6%1所以只有那些Lift1的规则才是有意义的规则统计分析、数据挖掘与商业智能应用研究小组源数据格式•CARMA模块能够处理一下两种格式的数据•Tabular数据格式Transactional数据格式统计分析、数据挖掘与商业智能应用研究小组案例研究之购物篮分析•数据准备•使用数据为clementine自带的Baskets1n数据集;•该数据集样本量为1000,每笔交易包含了顾客的卡号、性别、年龄、收入、付款方式等一系列个人信息,以及其购买的各种食品清单;•该数据集为Tabular格式的数据。•研究目的•为超市货架的摆放提供科学的依据;•为超市商品促销决策提供支持。统计分析、数据挖掘与商业智能应用研究小组案例研究统计分析、数据挖掘与商业智能应用研究小组购物篮分析•加入type模块对变量类型进行设置。先点击ReadValues将各个变量实例化。统计分析、数据挖掘与商业智能应用研究小组购物篮分析•将CARMA模块加入流中,并双击打开进行参数设置。点击点击统计分析、数据挖掘与商业智能应用研究小组购物篮分析•对Model选项卡进行设置。修改RuleSupport、RuleConfidence以及RuleSize的大小。点击此处,打开Model选项卡编辑对这三个选项进行编辑以控制输出的规则的数目统计分析、数据挖掘与商业智能应用研究小组购物篮分析•对Expert选项卡进行设置,如果对CARMA算法比较了解的用户,可以对该选项卡进行设定以获得使CARMA模块具有更好的性能。选择此项,则输出的规则中后项(consequent)只能由一个元素。选择该选项可以让CARMA算法周期性的剔除掉当前不太重要的规则,加速建模。设定周期的大小,周期设定的越小,则越省内存,但是CARMA算法执行时间常;反之,则短。设定该选项可以加速CARMA算法的执行。其大致思想是:一开始先给定一个较高的support值,将不显著的规则排除在外,然后再一次降低support值。设定support值降低的速度选择该项,则CARMA模型会输出不包含antecedent的规则。统计分析、数据挖掘与商业智能应用研究小组购物篮分析执行后建立的模型会显示在Canvas内。共产生16条规则每一行分别显示了一组规则,以及度量该规则的一组指标,如:Lift、support等。点击该图标可以按指定规则筛选出自己想要的规则。生成对应规则集的节点,包括三种节点:SelectNode、FilteredNode以及Ruleset节点。统计分析、数据挖掘与商业智能应用研究小组购物篮分析置信度(Confidence)最高的前三个规则:Cannedveg&BeerFrozenmealFrozenmeal&BeerCannedvegCannedveg&FrozenmealBeer促销统计分析、数据挖掘与商业智能应用研究小组购物篮分析CARMA模型可以直接放在流中对数据进行打分预测(scoring)。在打分之前可以双击模型打开Settings选项卡进行相关的参数设置。设定用于预测的规则个数为选取规则设定标准,从而可以根据该规则选出最显著的n条规则,n由上一个选项设定。设定该项,则允许用于预测的n条规则可以有相同的后项,即可以允许几条规则有相同的预测结果。勾选该项,则在应用规则进行预测之前,系统会剔除掉不符合要求的数据行,不对其进行预测。统计分析、数据挖掘与商业智能应用研究小组购物篮分析对CARMA模型设置好了以后就可以将CARMA模型加入流中对数据进行预测了,本文仅用一条规则进行预测,结果存入表中(见下页)。统计分析、数据挖掘与商业智能应用研究小组购物篮分析预测值预测置信度所使用规则的编号统计分析、数据挖掘与商业智能应用研究小组购物篮分析用CARMA模型预测顾客的购买行为ConfectioneryFreshmeatDairyWine统计分析、数据挖掘与商业智能应用研究小组购物篮分析除了直接使用生成的CARMA模型进行预测外,还有一种预测方式即使用RuleSet。使用Generate菜单生成想要的RuleSet节点,并将该节点放入流中进行预测。点击确定以后可以生成一个规则集节点,将该节点加入流中就可以进行预测了。统计分析、数据挖掘与商业智能应用研究小组案例研究之网络日志分析•数据准备•使用数据为某网站五天的访问日志;•该数据集记录数为173665,每行记录对应用户对服务器的一个页面请求,记录了用户IP地址、请求时间、请求页面URL、访问协议、请求状态以及端口号等信息。本文为了简化仅引入前三个变量,且页面已经过分类,访问已按事务划分;•该数据集为Transactional格式的数据。•研究目的•找出用户的访问模式,为网站结构上的调整和网站经营决策提供支持。统计分析、数据挖掘与商业智能应用研究小组网络日志分析加载数据集统计分析、数据挖掘与商业智能应用研究小组网络日志分析•使用CARMA模块来处理Transactional格式的网络日志数据,并从中找出关联规则。•双击打开打开Fields选项卡进行编辑。勾选该项,将CARMA模型处理的数据格式改为Transactional格式指定数据的唯一标识,标识相同的记录属于同一个事务该栏用以指定交易数据字段,本文中这里指定的是当前请求的页面种类。统计分析、数据挖掘与商业智能应用研究小组网络日志分析双击打开Model选项卡进行编辑,设定RulesSupport、RuleConfidence以及RuleSize等参数。统计分析、数据挖掘与商业智能应用研究小组网络日志分析•查看CARMA模型生成的规则集统计分析、数据挖掘与商业智能应用研究小组网络日志分析数据中定义的第一类页面为娱乐新闻版面,第二类是灌水版面。访问娱乐新闻版面访问灌水版访问灌水版面访问娱乐新闻版整合访问量将灌水版和娱乐新闻版整合为一个“我主娱乐”新版统计分析、数据挖掘与商业智能应用研究小组值得注意的问题•CARMA模型运算速度不是最快的,但是它只需要对数据集一至两遍的扫描就可以构造规则集;•CARMA模型及可以处理Tabular格式的数据,也可以处理Transactional格式的数据;•CARMA模型中需要设定的RuleSupport的大小,而不是Support;•CARMA模型不能处理数值型的数据。统计分析、数据挖掘与商业智能应用研究小组CARMA算法原理•Carma算法也包括两个部分•寻找频繁项集•在频繁项集的基础上产生关联规则•Carma寻找频繁项集的过程又分为PhaseI和PhaseII–PhaseI:产生频繁项集的超集,即产生潜在频繁项集V在PhaseI中可以随时调整最小支持度–PhaseII:对潜在频繁项集V进行删减得到最终的频繁项集统计分析、数据挖掘与商业智能应用研究小组CARMA算法原理•初始V为空集,将事务按照序号排序,逐条读入事务数据,并计算以下三个整数存储在V的支持格(SupportLattice)中:–Count(v):v被插入V以后在事务数据库中出现的次数–firstTrans(v):v被插入V时所在事务的事务序号–maxMissed(v):v被插入V之前已读入的事务个数例如:项集{a,b}在j时刻进入V,当j时刻时以上三个整数的情况统计分析、数据挖掘与商业智能应用研究小组CARMA算法原理•根据Count(v)、maxMissed(v)定义了v项集的支持度的上限和下限:•minSupport(v)是项集的实际支持度•maxSupport(v)用来判断项集v用来是否可以保留在V中max()(ma
本文标题:我国社会经济发展综合评价指数研究
链接地址:https://www.777doc.com/doc-538399 .html