您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 2第二章贝叶斯决策理论
第二章第二章贝叶斯决策理论贝叶斯决策理论第二章第二章贝叶斯决策理论贝叶斯决策理论引言引言§2-1贝叶斯分类器§2-2正态分布决策理论§2-3关于分类的错误率分析§2-4最小风险Bayes分类器§2-5Bayes分类器算法和例题§y分类器算法和例题§2-6聂曼-皮尔逊判别准则§27最大最小判别准则§2-7最大最小判别准则§2-8序贯分类1学习指南这一章的主要内容是说明分类识别中为什么会有错分类?在何种情况下会出现错分类?错分类的可能性会有多大?在理论上指明了怎样才能使错分类最少?另一方面,错分类有不同情况,例如误将A错分为B类,或将B类错分为A类就是两种不同的错误。不同的错分类造成的危害是不同的,有的错分类种类造成的危害更大,因此控制这种错分类则是更重要的更重要的。引入了一种“风险”与“损失”概念,希望做到使风险最小。这一章的关键是要正确理解先验概率类概率密度函数后验概这章的关键是要正确理解先验概率,类概率密度函数,后验概率这三种概率,对这三种概率的定义,相互关系要搞得清清楚楚。Bayes公式正是体现这三者关系的式子,要透彻掌握。2课后思考课后思考1、机器自动识别分类,能不能避免错分类,如汉字识别能不能做到百分之百正确?怎样才能减少错误?2、错分类往往难以避免,因此就要考虑减小因错分类造成的危害损失,譬如对病理切片进行分析,有可能将正确切片误判为癌症切片,反过来也可能将癌症病人误判为正常人,这两种错误造成的损失一样吗?看来后一种错误更可怕,那么有没有可能对后一种错误严格控制?3、概率论中讲的先验概率,后验概率与概率密度函数等概念还记得吗?什么是贝叶斯公式?4、什么叫正态分布?什么叫期望值?什么叫方差?为什么说正态分布是最重要的分布之一?3本本章知知识结结构框框图4引言引言•模式识别的分类问题就是根据识别对象特征的观察值将其分到某个类•模式识别的分类问题就是根据识别对象特征的观察值将其分到某个类别中。•统计决策理论是处理模式分类问题的基本理论之一。统计决策理论是处理模式分类问题的基本理论之。•贝叶斯(Bayes)决策理论方法是统计模式识别中的一个基本方法。用此方法进行分类时要求:此方法进行分类时要求•1)各类别总体的概率分布式是已知的;•2)要决策分类的类别数是一定的。2)要决策分类的类别数是定的。•本章所要研究的主要问题就是,在特征空间中观察到的样本,将其分到哪一类才最合理。到哪类才最合理。5待识别物理对象的描述问题。假设一个待识别的物理对象用其d个属性观察值描述称之为d个特征这组成个d维的特征d个属性观察值描述,称之为d个特征,这组成一个d维的特征向量,而这d维待征所有可能的取值范围则组成了一个d维的特征空间。征空间。例子:假设苹果的直径尺寸限定在7厘米到15厘米之间,它们的重量在3两到8两之间变化。如果直径长度x用厘米为单位,重量y以两为单位。那么,由x值从7到15,y值从3到8包围的二维空间就是对苹果进行度量的特征空间。贝叶斯决策理论方法所讨论的问题:知总共有类物体也就是说待识别物体属这类中的个已知总共有c类物体,也就是说待识别物体属于这c类中的一个类别,对这c类不同的物理对象,以及各类在这d维特征空间的统计分布具体说来是各类别ω=12…c的先验概率P(ω)及类统计分布,具体说来是各类别ωi=1,2,…,c的先验概率P(ωi)及类条件概率密度函数p(x|ωi)已知的条件下,如何对某一样本按其特征向量进行分类的问题。6•由于属于不同类的待识别对象存在着呈现相同观察值的可能,即所观察到的某一样本的特征向量为X,而在c类中又有不止一类可能呈现这一X值,这种可能性可用P(ωi|X)表示。如何作出合理的判决就是叶斯决策理论所要讨论的问题合理的判决就是贝叶斯决策理论所要讨论的问题。•机器实现自动分类有两大类方法:一种是模板匹配方法,而另种就是对特征空间划分为子空间(每类的势力范围)的方法一种就是对特征空间划分为子空间(每类的势力范围)的方法。本章是针对第二种方法的。•核心问题是:样本为特征向量X时它属于哪一类可能性有多•核心问题是:样本为特征向量X时,它属于哪类可能性有多大,如能确定属于各个类别的百分比(概率),分类决策就有了依据。据•例如某个样本的特征向量为X,X属于第一类样本的可能性为60%,而第二类的可能性为40%。在没有任何样本信息的情况下,则应将样本决策为第一类以使错分类可能性小(40%),这就是这一章考虑分类问题的出发点。7§2-1Bayes分类器§21Bayes分类器•基本概念基本概念先验概率:从以往的数据分析中得到的经验值;即根据大量统计确定某类事物出现的比例的比例。如在我国大学中,一个学生是男生的先验如在我国大学中,个学生是男生的先验概率为0.7,而为女生的概率是0.3,这两类概率是相制约的因为这两个概率之和概率是互相制约的,因为这两个概率之和应满足总和为1的约束。8应满足总和为1的约束。类条件概率密度函数:同一类事物的各个属性都有一定的变化范围,在这些变化范围内的分布概率用一种函数形式表示则称为类条件概率密度函数这种分函数形式表示,则称为类条件概率密度函数。这种分布密度只对同一类事物而言,与其它类事物没有关系。为了强调是同一类事物内部,因此这种分布密度函数往往表示成条件概率的形式。往往表示成条件概率的形式。例如x表示某一个学生的特征向量,则男生的概率密度表示成P(x|男生),女生的表示成P(x|女生),这两者之间没有任何关系,即一般的情况下之间没有任何关系,即般的情况下P(x|w1)+P(x|w2)≠1,可为从[0,2]之间的任意值。9后验概率:得到信息之后,对以往数据加以修正的概率(一般也是条件概率);或一个具体事物属于某种类别的概率。类别的概率。•例如一个学生用特征向量x表示,它是男生或女生的概率表示成P(男生|x)和P(女生|x),这就是后验概率。由于一个学生只可能为两个性别之一,因此有P(男生由于个学生只可能为两个性别之,因此有P(男生|x)+P(女生|x)=1的约束,这一点是与类分布密度函数同的数不同的。•后验概率与先验概率也不同,后验概率涉及一个具体后验概率与先验概率也不同,后验概率涉及个具体事物,而先验概率是泛指一类事物,因此P(男生|x)和P(男生)是两个不同的概念10P(男生)是两个不同的概念。一、两类问题例如:细胞识别问题ω1正常细胞,ω2异常细胞某地区,经大量统计获先验概率P(ω1)、P(ω2)。若要)(1xP)(xP)(ixP判断该地区某人细胞x属何种细胞,如果不作细胞特征的仔细观察,仅依靠先验概率决定。)(2xP这种分类器决策无意义121)()(),()(xPPxPPx类条件概率密度分布对x再观察:以细胞光密度特征进行观察有类条件概率密度:P(x/ω)221),()(xPP对x再观察:以细胞光密度特征进行观察,有类条件概率密度:P(x/ωi)i=1,2。如右上图所示利用贝叶斯公式:利用贝叶斯公式:,(也称为后验概率)2)()()()()(jjiiiPxPPxPxP111j通过对细胞的再观察,就可以把先验概率转化为后验概率通过对细胞的再观察,就可以把先验概率转化为后验概率,利用后验概率可对未知细胞x进行识别。)(xPi221121),()(),()(xxPxPxxPxP则若则若)(1xP)(2xP608.00.1设N个样本分为两类ω1,ω2。每个样本抽出n个特征x2.04.06.0出n个特征,x=(x1,x2,x3,…,xn)T后验概率分布1、判别函数:)()()(21xgxgxg若已知先验概率P(ω1),P(ω2),类条件概率密度P(x/ω1),P(x/ω2)。则可得贝叶斯判别函数四种形式:2112)()()()()()()2()(),()()()1(21类条件概率密度后验概率PPPPxPxPxg)(,)()()()()()3()(),()()()()()2(212211似然比形式类条件概率密度PPxPxPxgPxPPxPxg)(,)()(ln)()(ln)()4()()(2112取对数方法PPxPxPxgPxP2、决策规则:)()(12PxP121x)x(P)x(P)1(122112x)(P)x(P)(P)x(P)2(112212x)(P)(P)x(P)x(P)3(121212x)(P)(Pln)x(P)x(Pln)x(g)4()()(13212)(P)x(P3、决策面方程:g(x)=0x为一维时,决策面为一点,x为二维时决策面为曲线,x为三维时,决策面为曲面,x大于三维时决策面为超曲面。例:某地区细胞识别;P(ω1)=0.9,P(ω2)=0.1,未知细胞x,例:某地区细胞识别;P(ω1)0.9,P(ω2)0.1,未知细胞x,先从类条件概率密度分布曲线上查到:解:该细胞属于正常细胞还是异常细胞先计算后验概率:P(x/ω1)=0.2,P(x/ω2)=0.4解:该细胞属于正常细胞还是异常细胞,先计算后验概率:1181809.02.0)(P)x(P)(P属正常细胞因为21jjj111)(P)(P1820)(P1)(P818.01.04.09.02.0)(P)x(P)()()x(P属正常细胞。因为12112x),x(P)x(P,182.0)x(P1)x(P)(P)(P用所以先验概率起很大作因为决策结果取决于实际观察到的类条件概率密度P(x/ωi)和先验概率P(ωi)。对于本例14.),(P)(P21用所以先验概率起很大作因为本例,4、分类器设计:g(x)xxX211xg()xX...2判别计算决策2阈值单元nx特征向量15•根据Bayes法则对于一个两类问题有如下结论:根据Bayes法则,对于个两类问题,有如下结论:1.若对于某一样本X,有P(X|ω1)=P(X|ω2),则说明X的类条件概率没有提供关于类别状态的任何信息,判决完全取决于先验概率。判决完全取决于先验概率。2.若P(ω1)=P(ω2),则判决完全取决于类条件概率。3.除此之外,Bayes法则提供最小错误概率的判决。16二多类问题样本与样本空间表示:12,,,TnnxxxRxx12{,,...,}NXXXX类别与类别空间:M个类别(类别数已知)12,,,,iM171.判别函数:M类有M个判别函数g1(x),…,gm(x),…,gM(x).每个判别函数都能表示为上面的四种形式函数都能表示为上面的四种形式。2.决策规则:),...,2,1(,)()(max)()()(1MixPxPPxPxgijjMjiii1MjiiiPPPxPxg)(l)(l)(ln)(ln)(另一种形式:iijMjxPxP)(ln)(lnmax13、决策面方程:0)x(g)x(g),x(g)x(gjiji即4、分类器设计:g1(x)x1Maxg(x)xX...2决策ixg2(x)g(x)最大值选择器...18nx特征向量判别计算决策gM(x)最大值选择器§2-2正态分布决策理论P24一、正态分布判别函数1、为什么采用正态分布:a、正态分布在物理上是合理的、广泛的。b、正态分布数学上简单,N(μ,σ²)只有均值和方差两个参数。2单变量正态分布:2、单变量正态分布:),(21exp21)(22NxxP)(,)()(:22均值或数学期望其中dxxxPxE)(P)()(222方差,dxxPxx
本文标题:2第二章贝叶斯决策理论
链接地址:https://www.777doc.com/doc-609103 .html