您好,欢迎访问三七文档
统计学专业硕士课程第四章分类的其他技术之一贝叶斯分类BayesClassifier贝叶斯分类简介基于属性集与类变量之间的概率关系建立分类模型基于属性集间的相关关系有两种实现途径:属性集间相互对立——朴素贝叶斯属性集间具有相关性——贝叶斯信念网络一基础知识贝叶斯定理贝叶斯定理在分类中的应用统计学专业硕士课程4贝叶斯定理设、是一对随机变量它们的联合概率是指当取而且取值为的概率定义条件概率为:在发生的条件下,发生的概率,为在发生的条件下,发生的概率,为YX),(),(YXPyYxXPXxyYX)(XYPYX)(YXPY统计学专业硕士课程5贝叶斯定理由概率论基础知识可知:上式为概率论乘法定理,对其进行调整可得:该公式称作贝叶斯公式(贝叶斯定理\贝叶斯准则\贝叶斯定律))()()()(),(YXPYPXYPXPYXP()()()()()()()()PYPXYPYPXYPYXPXPYPXY贝叶斯定律解决案例考虑两队之间的足球比赛:队0和队1.假设65%的比赛队0胜出。剩余的比赛队1胜出。队0获胜的比赛中只有30%是在客场。而队1获胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行,哪一支队伍最有可能胜出。X代表比赛东道主,Y代表比赛的胜者队0取胜的概率P(Y=0)=0.65队1取胜的概率P(Y=1)=0.35队1取胜时作为东道主的概率P(X=1|Y=1)=0.75队0取胜时队1作为东道主的概率P(X=1|Y=0)=0.3计算目的P(Y=1|X=1)和P(Y=0|X=1)应用贝叶斯定律:)1()11()1()11(XPYXPYPXYP5738.065.03.035.075.035.075.0)0()01()1()11()11()1()0,1()1,1()11()1(YPYXPYPYXPYXPYPYXPYXPYXPYP分母应用全概率公式练习:旅客搭乘飞机必须经电子仪器检查是否身上携带金属物品。如果携带金属,仪器会发出声音的概率是97%,但身上无金属物品仪器会发出声音的概率是5%。已知一般乘客身上带有金属物品的概率是30%,若某旅客经过仪器检查时发出声音,请问他身上有金属物品的概率是多少?贝叶斯定理在分类中的应用统计学视角看分类:X表示属性集,Y表示类变量,如果类变量与属性集间的关系不确定,则我们将X和Y看做随机变量,用P(Y|X)以概率的方式捕捉二者之间的关系利用训练集中X和Y的每一种组合对P(Y|X)进行学习利用得到的P(Y|X),对于给定的测试记录X'找出最大的条件概率P(Y'|X'),Y'为最终分类结果。贝叶斯定理在分类中的应用统计学视角看分类:将属性集和类变量看做随机变量给定一组属性集(A1,A2,…,An)目的是预测分类变量C的值很明显,我们寻找的分类变量C的值,应该是maximizesP(C|A1,A2,…,An)如何计算这些概率统计学专业硕士课程11贝叶斯定理在分类中的应用我们能从数据集中得到P(C|A1,A2,…,An)方法:对于所有C的取值,利用贝叶斯定律计算后验概率P(C|A1,A2,…,An)maximizesP(C|A1,A2,…,An)的C取值是最佳选择也就是选择maximizesP(A1,A2,…,An|C)P(C))()()|()|(212121nnnAAAPCPCAAAPAAACP先验概率后验概率类条件概率对于所有后验概率的计算此项是一个常数如何计算这些概率二、朴素贝叶斯假设给定分类下各属性Ai间相互独立P(A1,A2,…,An|C=Cj)=P(A1|Cj)P(A2|Cj)…P(An|Cj)=P(Ai|Cj)对于所有的AiandCj,我们很容易计算P(Ai|Cj)因此类的确定就转化为选择最佳的CjmaximalP(Cj)P(Ai|Cj)统计学专业硕士课程13案例给定数据集中的属性集合为:有房(refund)婚姻(maritalstatus))年收入(taxableincome)类变量为是否拖欠贷款(evade)TidRefundMaritalStatusTaxableIncomeEvade1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10categoricalcategoricalcontinuousclass如何利用数据计算先验概率和类条件概率?TidRefundMaritalStatusTaxableIncomeEvade1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10categoricalcategoricalcontinuousclass先验概率:P(C)=Nc/Ne.g.P(No)=7/10P(Yes)=3/10分类属性的类条件概率P(Ai|Ck)=|Aik|/Nc|Aik|是类Ck中属性值为Ai的记录数e.g.P(Status=Married|No)=4/7P(Refund=Yes|Yes)=0如何利用数据计算先验概率和类条件概率?222)(221)|(ijijiAijjiecAP连续属性的类条件概率(1)离散化连续变量转换为有序变量划分为二元分类变量(Av)or(Av)(2)假设变量服从某种概率分布如果连续变量服从正态分布使用数据估计分布参数(e.g.,均值、方差)高斯分布可用来估计类条件概率P(Ai|c)如何利用数据计算先验概率和类条件概率?TidRefundMaritalStatusTaxableIncomeEvade1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10categoricalcategoricalcontinuousclass0072.0)54.54(21)|120()2975(2)110120(2eNoIncomeP假设年收入变量为正态变量For(Income,Class=No):IfClass=Nosamplemean=110samplevariance=2975统计学专业硕士课程朴素贝叶斯分类举例给定测试集120K)IncomeMarried,No,Refund(XP(Refund=Yes|No)=3/7P(Refund=No|No)=4/7P(Refund=Yes|Yes)=0P(Refund=No|Yes)=1P(MaritalStatus=Single|No)=2/7P(MaritalStatus=Divorced|No)=1/7P(MaritalStatus=Married|No)=4/7P(MaritalStatus=Single|Yes)=2/7P(MaritalStatus=Divorced|Yes)=1/7P(MaritalStatus=Married|Yes)=0Fortaxableincome:Ifclass=No:samplemean=110samplevariance=2975Ifclass=Yes:samplemean=90samplevariance=25naiveBayesClassifier:P(X|Class=No)=P(Refund=No|Class=No)P(Married|Class=No)P(Income=120K|Class=No)=4/74/70.0072=0.0024P(X|Class=Yes)=P(Refund=No|Class=Yes)P(Married|Class=Yes)P(Income=120K|Class=Yes)=101.210-9=0SinceP(X|No)P(No)P(X|Yes)P(Yes)ThereforeP(No|X)P(Yes|X)=Class=No条件概率估计的问题及m估计条件概率估计的问题如果一个属性的类条件概率为0,则整个类的后验概率就为0如果数据集中的样本过小,很多属性值不能被覆盖,就会使得分类无法进行P(X|Class=Yes)=P(Refund=No|Class=Yes)P(Married|Class=Yes)P(Income=120K|Class=Yes)=101.210-9=0统计学专业硕士课程19条件概率估计的问题及m估计解决途径——m估计m——等价样本大小参数(类C的样本例数)P——用户指定参数(给定类C中属性Ai的先验概率)mNmpNCAPNNCAPcicicici)|(:estimate-m)|(:Original案例2名字胎生飞行动物水生动物有腿类人类yesnonoyesmammals蟒蛇nononononon-mammals鲑鱼nonoyesnonon-mammals鲸yesnoyesnomammals青蛙nonosometimesyesnon-mammals巨蜥nononoyesnon-mammals蝙蝠yesyesnoyesmammals鸽子noyesnoyesnon-mammals猫yesnonoyesmammals猫鲨yesnoyesnonon-mammals海龟nonosometimesyesnon-mammals企鹅nonosometimesyesnon-mammals豪猪yesnonoyesmammals鳗鱼nonoyesnonon-mammals蝾螈nonosometimesyesnon-mammals毒蜥nononoyesnon-mammals鸭嘴兽nononoyesmammals猫头鹰noyesnoyesnon-mammals海豚yesnoyesnomammals鹰noyesnoyesnon-mammals胎生飞行动物水生动物有腿类yesnoyesno?Mammals哺乳类non-mammals非哺乳类案例2名字胎生飞行动物水生动物有腿类人类yesnonoyesmammals蟒蛇nononononon-mammals鲑鱼nonoyesnonon-mammals鲸yesnoyesnomammals青蛙nonosometimesyesnon-mammals巨蜥nononoyesnon-mammals蝙蝠yesyesnoyesmammals鸽子noyesnoyesnon-mammals猫yesnonoyesmammals猫鲨yesnoyesnonon-mammals海龟nonosometimesyesnon-mammals企鹅nonosometimesyesnon-mammals豪猪yesnonoyesmammals鳗鱼nonoyesnonon-mammals蝾螈nonosometimesyesnon-mammals毒蜥nononoyesnon-mammals鸭嘴兽nononoyesmammals猫头鹰noyesnoyesnon-mammals海豚yesnoyesnomammals鹰noyesnoyesnon-mammals胎生飞行动物水生动物有腿类yesnoyesno?0027.02013004.0)()|(0
本文标题:4其他分类技术
链接地址:https://www.777doc.com/doc-2925372 .html