您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 分类和预测贝叶斯网络
第四章分类和预测主讲教师:魏宏喜(博士,副教授)E-mail:cswhx@imu.edu.cn2第四章分类和预测4.1分类和预测的定义4.2数据分类方法决策树神经网络SVM贝叶斯网络4.3数据预测方法线性回归非线性回归3贝叶斯网络贝叶斯网络(BayesianNetwork)是20世纪80年代发展起来的,由JudeaPearl(朱迪亚•佩尔)于1986年提出。贝叶斯网络起源于贝叶斯统计分析理论,它是概率论和图论相结合的产物。贝叶斯网络是一种描述不确定性知识和推理问题的方法。文本分类(如:垃圾邮件的过滤)医学诊断......4贝叶斯网络1、引例2、贝叶斯概率基础3、贝叶斯网络概述4、贝叶斯网络的预测、诊断和训练4.1贝叶斯网络的预测4.2贝叶斯网络的诊断4.3贝叶斯网络的训练5贝叶斯网络1、引例2、贝叶斯概率基础3、贝叶斯网络概述4、贝叶斯网络的预测、诊断和训练4.1贝叶斯网络的预测4.2贝叶斯网络的诊断4.3贝叶斯网络的训练61、引例一个有关概率推理的例子。图中有六个结点:参加晚会(Party,PT)宿醉(Hangover,HO)头疼(Headache,HA)患脑瘤(Braintumor,BT)有酒精味(Smellalcohol,SA)X射线检查呈阳性(PosXray,PX)PartyHangoverBrainTumorHeadacheSmellAlcoholPosXray71、引例一个有关概率推理的例子。图中有五条连线:PTHOHOSAHOHABTHABTPXPartyHangoverBrainTumorHeadacheSmellAlcoholPosXray81、引例参加晚会后,第二天呼吸中有酒精味的可能性有多大?如果头疼,患脑瘤的概率有多大?如果参加了晚会,并且头疼,那么患脑瘤的概率有多大?......PartyHangoverBrainTumorHeadacheSmellAlcoholPosXray这些问题都可通过贝叶斯网络加以解决。9贝叶斯网络1、引例2、贝叶斯概率基础3、贝叶斯网络概述4、贝叶斯网络的预测、诊断和训练4.1贝叶斯网络的预测4.2贝叶斯网络的诊断4.3贝叶斯网络的训练10先验概率:根据历史资料或主观判断所确定的各种事件发生的概率。先验概率可分为两类:客观先验概率:是指利用过去的历史资料计算得到的概率(如:在自然语言处理中,从语料库中统计词语的出现频率——客观先验概率);主观先验概率:是指在无历史资料或历史资料不全的时候,只能凭借人们的主观经验来判断取得的概率。2、贝叶斯概率基础11后验概率:是指利用贝叶斯公式,结合调查等方式获取了新的附加信息,对先验概率修正后得到的更符合实际的概率。条件概率:是指当条件事件发生后,该事件发生的概率。2、贝叶斯概率基础)()()|()|(BPAPABPBAP条件概率的计算可以通过两个事件各自发生的概率,以及相反方向的条件概率得到。122、贝叶斯概率基础例:已知任意时刻阴天的概率为0.3,记为P(A)=0.3,下雨的概率为0.2,记为P(B)=0.2。阴天之后下雨的概率为0.6,记为条件概率P(B|A)=0.6。那么在下雨的条件下,是阴天的概率是多少?【解】根据条件概率公式,可得:P(A|B)=P(B|A)*P(A)/P(B)=0.6*0.3/0.2=0.9132、贝叶斯概率基础全概率公式设B1,B2,…,Bn是两两互斥的事件,且P(Bi)0,i=1,2,…,n,B1+B2+…,+Bn=Ω。另有一事件A=AB1+AB2+…+ABnniiiBAPBPAP1)()()(|14全概率公式可看成是“由原因推结果”,即:每个原因对结果的发生有一定“作用”,结果发生的可能性与各种原因的“作用”大小有关。全概率公式表达了它们之间的关系。Bi是原因A是结果B1B2B3B4B5B6B7B8A2、贝叶斯概率基础152、贝叶斯概率基础贝叶斯公式(后验概率公式)设先验概率为P(Bi),调查所获的新附加信息为P(A|Bi)(i=1,2,…,n),则贝叶斯公式计算的后验概率为:该公式于1763年由贝叶斯(Bayes)导出。该公式是在观察到事件A已发生的条件下,寻找导致A发生的每个原因的概率。1(|)()()()()niiiiiiPBAPBPABPBPAB||162、贝叶斯概率基础例:某电子设备厂所用的元件由三家元件厂提供,根据以往记录,这三个厂家的次品率分别为0.02,0.01和0.03,提供元件的份额分别为0.15,0.8和0.05,设这三家的产品在仓库是均匀混合的,且无区别的标志。问题1:在仓库中,随机抽取一个元件,求它是次品的概率;问题2:在仓库中,随机抽取一个元件,若已知它是次品,则该次品来自三家供货商的概率分别是多少?172、贝叶斯概率基础【解】设A表示“取到的元件是次品”,Bi表示“取到的元件是由第i个厂家生产的”,则P(B1)=0.15,P(B2)=0.8,P(B3)=0.05对于问题1,由全概率公式可得:P(A)=P(B1)*P(A|B1)+P(B2)*P(A|B2)+P(B3)*P(A|B3)=0.15*0.02+0.8*0.01+0.05*0.03=0.0125182、贝叶斯概率基础【解】设A表示“取到的元件是次品”,Bi表示“取到的元件是由第i个厂家生产的”,则P(B1)=0.15,P(B2)=0.8,P(B3)=0.05对于问题2,由贝叶斯公式可得:P(B1|A)=P(B1)*P(A|B1)/P(A)=0.15*0.02/0.0125=0.24P(B2|A)=P(B2)*P(A|B2)/P(A)=0.8*0.01/0.0125=0.64P(B3|A)=P(B3)*P(A|B3)/P(A)=0.05*0.03/0.0125=0.1219贝叶斯网络1、引例2、贝叶斯概率基础3、贝叶斯网络概述4、贝叶斯网络的预测、诊断和训练4.1贝叶斯网络的预测4.2贝叶斯网络的诊断4.3贝叶斯网络的训练203、贝叶斯网络概述贝叶斯网络是描述随机变量(事件)之间依赖关系的一种图形模式,是一种可用来进行推理的模型。贝叶斯网络通过有向图的形式来表示随机变量间的因果关系,并通过条件概率将这种因果关系量化。PartyHangoverBrainTumorHeadacheSmellAlcoholPosXray213、贝叶斯网络概述一个贝叶斯网络由网络结构和条件概率表两部分组成。网络结构是一个有向无环图,由若干结点和有向弧组成。每个结点代表一个事件或者随机变量,变量值可以是连续的或者离散的,但结点的取值必须是完备互斥的。结点之间的有向弧代表随机变量间的因果关系(概率依赖关系),有向弧的起始结点表示原因,有向弧的终止结点表示结果。223、贝叶斯网络概述一个贝叶斯网络由网络结构和条件概率表两部分组成。条件概率表:是指网络中的每个结点都有一个条件概率表,用于表示其父结点对该结点的影响。当网络中的某个结点没有父结点时,该结点的条件概率表就是该结点的先验概率。233、贝叶斯网络概述BurglaryEarthquakeMaryCallsJohnCallsAlarmBEP(A)tttfftff0.950.940.290.001AP(J)tf0.900.10AP(M)tf0.700.30P(B)0.001P(E)0.00224贝叶斯网络的3个重要议题:贝叶斯网络预测:是指已知一定的原因,利用贝叶斯网络进行计算,求出由原因导致结果的概率。贝叶斯网络诊断:是指已知发生了某些结果,根据贝叶斯网络推理出造成该结果发生的原因以及发生的概率。贝叶斯网络学习(训练):是指利用现有数据对先验知识进行修正的过程,每一次学习都对贝叶斯网络的先验概率进行调整,使得新的贝叶斯网络更能反映数据中所蕴含的知识。3、贝叶斯网络概述25贝叶斯网络1、引例2、贝叶斯概率基础3、贝叶斯网络概述4、贝叶斯网络的预测、诊断和训练4.1贝叶斯网络的预测4.2贝叶斯网络的诊断4.3贝叶斯网络的训练264、贝叶斯网络的预测、诊断和训练此处将以下图为例,分别介绍贝叶斯网络的预测、诊断和训练。PartyHangoverBrainTumorHeadacheSmellAlcoholPosXray预测和诊断需要已知网络结构和中每个结点的条件概率表。训练需要先建立网络结构,再计算每个结点的条件概率表。274、贝叶斯网络的预测、诊断和训练为了使用贝叶斯网络进行预测和诊断,假设网络已经训练好,即:网络中的所有先验概率和条件概率全部已知。图中Party和BrainTumor两个结点是原因结点,没有连线以它们为终点。它们的无条件概率如下表所示:该表中给出了这两个事件发生的概率:PT发生的概率是0.2,不发生的概率是0.8;BT发生的概率是0.001,不发生的概率是0.999。P(PT)P(BT)True0.2000.001False0.8000.999284、贝叶斯网络的预测、诊断和训练另外,网络中的条件概率如下所示:P(HO|PT)PT=TruePT=FalseTrue0.7000False0.3001.000P(SA|HO)HO=TrueHO=FalseTrue0.8000.100False0.2000.900P(PX|BT)BT=TrueBT=FalseTrue0.9800.010False0.0200.990294、贝叶斯网络的预测、诊断和训练另外,网络中的条件概率如下所示:P(HA|HO,BT)HO=TrueBT=TrueBT=FalseHO=FalseBT=TrueBT=FalseTrue0.9900.7000.9000.020False0.0100.3000.1000.98030贝叶斯网络1、引例2、贝叶斯概率基础3、贝叶斯网络概述4、贝叶斯网络的预测、诊断和训练4.1贝叶斯网络的预测4.2贝叶斯网络的诊断4.3贝叶斯网络的训练314.1贝叶斯网络的预测对于贝叶斯网络的预测,可分为以下两种情况:在已知某些原因结点的情况下,可以预测结果结点的概率。例:参加晚会情况下,头疼发生的概率。在不知任何结点信息的情况下,可以预测网络中某个结果结点发生的概率。例:即使不知道任何结点发生与否的信息,仍然可以计算结点HA发生的概率。贝叶斯网络的预测是一个“自顶向下”的过程。324.1贝叶斯网络的预测为了描述方便,对于任何一个结点Point:P(+Point)表示Point发生的概率P(-Point)表示Point不发生的概率334.1贝叶斯网络的预测例1:计算结点HA的概率。PartyHangoverBrainTumorHeadacheSmellAlcoholPosXray344.1贝叶斯网络的预测例1:计算结点HA的概率。【解】根据全概率公式,可得P(+HA)=P(+BT)P(+HO)*0.99+P(+BT)P(-HO)*0.9+P(-BT)P(+HO)*0.7+P(-BT)P(-HO)*0.02=0.116P(HA|HO,BT)HO=TrueBT=TrueBT=FalseHO=FalseBT=TrueBT=FalseTrue0.9900.7000.9000.020False0.0100.3000.1000.980354.1贝叶斯网络的预测例1:计算结点HA的概率。【解】根据全概率公式,可得P(-HA)=1-P(+HA)=0.884【解释】在没有任何诱因的情况下,头疼发生的概率是0.116,不头疼的概率是0.884。采用上述方式,可以计算贝叶斯网络中所有结点的概率——这个过程通常发生在贝叶斯网络的训练阶段——获得结点的概率。364.1贝叶斯网络的预测例2:计算已知参加晚会的情况下,第二天早晨呼吸有酒精味的概率。PartyHangoverBrainTumorHeadacheSmellAlc
本文标题:分类和预测贝叶斯网络
链接地址:https://www.777doc.com/doc-5119468 .html