您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 置信度度量的缺陷和改进
数据挖掘导论论文置信度度量的缺陷和改进摘要:置信度通过确定Y在包含X的事务中出现的频繁度,从而确定Y和X是否相关联。可是这种度量方式也存在着局限性,我们可以通过引入兴趣度/提升度来消除置信度存在的不足。但单独引入提升度也会对某些模型做出错误的评估,这就需要我们通过不断的对比,找出该模型对应的最好度量。关键词:置信度提升度兴趣因子IS度量置信度度量的作用:置信度度量通过规则进行推行具有可靠性。对于给定的规则X→Y,置信度越高,Y在包含X的事务中出现的可能性就越大。置信度也可以估计Y在给定X下的条件概率。如:网球拍网球111211310410501611事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度(X^Y)/D=0.5,置信度(X^Y)/X=0.6。若给定最小支持度α=0.5,最小置信度β=0.6,认为购买网球拍和购买网球之间存在关联。(支持度揭示了A和B同时出现的频率,如果A和B一起出现的频率非常小,那么就说明了A和B之间的联系并不大;但若一起出现的频率非常频繁,那么A和B总是相关联的知识也许已经成为常识而存在了)置信度度量存在的缺陷:虽然通过置信度可以知晓事务之间是否存在关联,但是置信度度量也存在着一些无可避免的缺陷,和自相矛盾。咖啡咖啡茶15520茶755809010100其中,关联规则:茶→咖啡置信度=P(咖啡|茶)=0.75但P(咖啡)=0.9虽然置信度高,但规则存在误导p(咖啡|茶)=0.9375我们对100人做度量,发现有20人会买茶叶,其中有15人会买喝咖啡,5人不买咖啡,那么我们通过置信度计算发现(买茶买咖啡)这个的置信度非常高,我们于是可以推算出买茶的人都会买咖啡。但是其实我们看接下来的调查,另外不买茶叶的80人中,有75人买咖啡。不管他是否买茶,买咖啡的人的比例是90%,而买咖啡的买茶者却只占75%,也就是说,一个人如果买了茶,则他买咖啡的可能性从80%降到75%。综上所述,我们可以发现,其实喝茶和喝咖啡其实是两个相对独立事件。所以我们可以概括一下,置信度的缺点,就是置信度度量忽略了规则后件中项集的支持度。改进置信度度量——引进兴趣度/提升度从买茶和买咖啡的例子来看,如果考虑买咖啡者的支持度,我们可以发现许多买茶的人也买咖啡,但是,既买咖啡又买茶的人所占的比例少于所有买咖啡的人所占的比例,这表明买茶者和买咖啡者存在着一种逆相关。我们可以引入提升度(lift),来计算置信度和规则后件项集支持度的比率:lift(AB)=c(AB)/s(B),那么对于二元项集来说,我们可以做这样一个变换:lift(XY)=c(XY)/s(Y)=(p(X,Y)/p(X))/p(Y)=p(X,Y)/p(X)p(Y)那么这里,我们则可以把lift(XY)称为兴趣因子,表示为I(A,B)通过概率学知识我们可以知道,如果X事件和Y事件相互独立(或者我们称之为满足事件独立性假设),那么p(X,Y)=p(X)*p(Y),那么我们则可以这样来表示兴趣因子的度量:当I(A,B)=1时,我们称A和B是相互独立的,当I(A,B)1时,我们称A和B是负相关的,否则我们称A和B是正相关的。拿茶和咖啡的例子来说:置信度=P(咖啡|茶)=0.75P(咖啡)=0.9Lift=0.75/0.9=0.8333因此,买茶叶和买咖啡是负相关。但是从计算模型,我们可以很轻易地感觉出单纯用兴趣因子来做关联度度量的不靠谱,它存在着一定的缺陷。例一:YYX10010X090901090100YYX90090X010109010100从表一得出的数据我们可以知道X,Y是正相关,而表二兴趣因子却将近一,表明了X,Y是相对独立的,可是我们观察得出,有X必有Y,无X必无Y,因此二者应该是相关联的。例二:PPQ88050930Q502070930701000{P,Q}和{R,S}的兴趣因子分别为1.02,4.08。这个结果存在着一些问题,P和Q的兴趣因子将近1,从理论上说P和Q是相对独立的,可是它们同时出现的概率是88%,置信度是0.946;而S和R的兴趣因子虽然是4.08,但是它们同时出现的概率只有2%,置信度是28.6%,这表明了{S,R}的关联不及{P,Q}。在这种情况下,置信度可能是一种更好的选择,因为置信度表明P和Q之间的关联94.6%远远强于R和S之间的关联28.6%。从以上两个例子,说明了提升度也是有很大的缺陷的。对此我们可以再引入IS度量。IS度量是用于处理非对称二元变量),(),(),(BASBAIBAIS=)()(),(BSASBASRRS205070S5088093070930100010)1.0)(1.0(1.0Lift11.1)9.0)(9.0(9.0Lift拿例二的例子来说,{P,Q}和{R,S}的IS值分别是0.946和0.286,与兴趣因子给出的结果相反,说明了{P,Q}之间的关联强于{R,S}。当然,IS度量同样存在着局限性,当评估一对相对独立的项集时,IS=(A,B)=)()(),(BSASBAs=)()()()(BSASBSAS=)()(BsAs,IS值取决于S(A)和S(B),所以就存在与置信度度量类似的问题,即使是不相关或负相关的模式,度量值也可能很大。例子表明,某些度量方法对特定的应用效果较好,而对某些模型往往会评估错误,我们在对一个模型进行评估的时候应采用多种度量来比较结果。一个好的度量应具有三个特点:1){A,B}=0如果A和B是统计独立的2){A,B}随P(A,B)单调增长而P(A)和P(B)保持不变3){A,B}随P(A)[orP(B)]单调减小而P(A,B)和P(B)[orP(A)]保持不变参考数据挖掘导论(课本)和老师的课件
本文标题:置信度度量的缺陷和改进
链接地址:https://www.777doc.com/doc-2143677 .html