您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 张素文-第4章统计决策方法
第四章统计决策方法§4.1引言§4.2最小错误率贝叶斯决策§4.3最小风险贝叶斯决策§4.4正态分布模式的贝叶斯决策§4.5聂曼——皮尔逊判别§4.6按后验概率密度分类的势函数方法第四章统计决策方法一、复习统计模式识别聚类分析法(第二章)判决函数法线性判决函数法(第三章)统计决策方法(第四章)其他书的分法几何分类法研究确定性事件的分类概率分类法研究随机事件分法§4.1引言获取模式的观察值时,有二种情况:(1)确定性事件:事物间有确定的因果关系。前两章内容。(2)随机事件:事物间没有确定的因果关系,观察到的特征具有统计特性,是一个随机向量。只能利用模式集的统计特性来分类,以使分类器发生分类错误的概率最小。二、两类研究对象三、概率知识1、概率①定义:设Ω是随机试验的基本空间(所有可能的实验结果或基本事件的全体构成的集合,也称样本空间),A为随机事件,P(A)为定义在所有随机事件组成的集合上的实函数,若P(A)满足:c)对于两两互斥的事件有,A,A212121AAAAPPPA1A)bPPABBABA)cPPPPa)对任一事件A有:0≤P(A)≤1。b)P(Ω)=1,Ω——事件的全体a)不可能事件V的概率为零,即P(V)=0。则称函数P(A)为事件A的概率。②概率的性质:①定义:设A、B是两个随机事件,且P(B)0,则称为事件B发生的条件下事件A发生的条件概率。2、条件概率BABB|APPP(5.1-1)联合概率P(AB):A、B同时发生的概率a)概率乘法公式:如果P(B)0,则联合概率P(AB)=P(B)P(A|B)=P(A)P(B|A)=P(BA)(5.1-2)c)贝叶斯公式:在全概率公式的条件下,若P(B)0,则将(5.1-2)、(5.1-3)式代入(5.1-1)式中,有:n1iiiiiiA|BAA|BAB|APPPPP(5.1-4)②条件概率的三个重要公式:niP,1,2,0,A,Ain1ii则对任一事件B有:in1iiA|BABPPP(5.1-3)b)全概率公式:设事件A1,A2,……,An两两互斥,且)11.5(BABB|APPP设样本的特征向量X是随机向量,则相关概率有三种:②后验概率P(ωi|X):相对于先验概率而言。指收到数据X(一批样本点)后,根据这批样本提供的信息统计出的ωi类出现的概率(即:X属于ωi类的概率)。3、模式识别中的三个概率①先验概率P(ωi):根据以前的知识和经验得出的ωi类样本出现的概率,与现在无关。③条件概率P(X|ωi):已知的属于ωi类的样本,发生事件X的概率。例对一批得病患者进行一项化验,结果为阳性的概率为95%,ω1代表得病人群,则:95.0|positive1XP今后的分类中用到类概率密度p(X|ωi):ωi类的条件概率密度函数,通常也称为ωi的似然函数。P(ω2|X)表示试验呈阳性的人中(显示可能有病),实际没有病的人的概率。这两个值可以通过大量的统计得到。若用某种方法检测是否得有某病,假设X表示“试验反应呈阳性”。则:例如:一个2类问题,ω1诊断为患有某病,ω2诊断为无病,则:P(ω2)表示诊断为正常的概率,P(ω1)表示某地区的人被诊断出患上此病的概率,P(X|ω2)表示最终确诊为无病的人群中,做该试验时反应呈阳性(显示可能有病)的概率。值低/高√值低/高√P(X|ω1)表示最终确诊为有病的人群中,做该试验时反应也呈阳性(显示可能有病)的概率。P(ω1|X)表示试验呈阳性的人中(显示可能有病),实际确实有病的人的概率。??④三者关系:根据(5.1-4)贝叶斯公式有:n1i||||iiiiiiiPXpPXpXpPXpXP(5.1-5)n1iiiiiiAA|BAA|BB|APPPPP(5.1-4)全概率密度公式:)()/()()/()(2211PXpPXpXp②分类规则:有M类模式,类则若ijiXMjXPXP,,2,1,)|(max)|((5.2-1)§4.2最小错误率贝叶斯决策①分析:讨论模式集的分类,目的是确定X属于那一类,所以要看X来自哪类的概率大。在下列三种概率中:先验概率P(ωi)类(条件)概率密度p(X|ωi)后验概率P(ωi|X)采用哪种概率进行分类最合理?一、决策规则后验概率P(ωi|X)XpPXpXPiii||虽然后验概率P(ωi|X)可以提供有效的分类信息,但先验概率P(ωi)和类概率密度函数p(X|ωi)从统计资料中容易获得,故用Bayes公式,将后验概率转化为类概率密度函数和先验概率的表示。由:可知,分母与i无关,即与分类无关,故分类规则又可表示为:类则若ijjiiXMjPXpPXp,,2,1)()|(max)|((5.2-2)(5.2-1)、(5.2-2)均称为“最小错误率Bayes规则”。类则若ijiXMjXPXP,,2,1,)|(max)|((5.2-1)例子——癌症普查:1癌症患者:112682正常者:2242282总人数:n=2253550对每一类的概率做一个估计(先验概率)11()0.005nPn22()0.995nPn对人们测量细胞的特征向量代表的某个人属于第i类的后验概率:决策规律:()iPx例子——癌症普查(续1):xx121122(|)(|)(|)(|)PωxPωxxPωxPωxx若则若则若已知两类特征向量分布的类条件概率密度函数贝叶斯公式、全概率公式()iPx(|)()(|)()iiipxPPxpx21(|)()(|)()iiiiipxPpxP例子——癌症普查(续2):将P(i|x)代入判别式,判别规则可表示为1122111222(|)()(|)()(|)()(|)()PxωPPxωPxPxωPPxωPx若则若则或改写为121212121121212221(|)()(|)()(|)()(|)()pxPlxpxPpxPlxpxP则则l12称为似然比(likelihoodratio),12称为似然比的判决阀值。例子——癌症普查(续3):概念和符号---总概率---后验概率---类概密,表示在类i条件下的概率密度,即类i模式x的概率分布密度---先验概率,表示类i出现的先验概率,简称类i的概率()Px()iPx()ipx()iP例:对一批人进行癌症普查,1:患癌症者;2:正常人。模式特征x=x(化验结果),x=1:阳性;x=0:阴性。已知:(统计结果)先验概率:P(1)=0.005P(2)=1-P(1)=0.995条件概率:p(x=阳|1)=0.95p(x=阴|1)=0.05p(x=阳|2)=0.01求:呈阳性反映的人是否患癌症?解:利用Bayes公式111111122(|)()(|)()(|)()(|)()(|)()0.950.0050.3230.950.0050.010.995pxPPxpxpxPpxPpxP阳阳阳阳阳阳因为,P(2|x=阳)=1-P(1|x=阳)=1-0.323=0.677P(1|x=阳)P(2|x=阳)故判决:(x=阳)2,即正常。写成似然比形式1122212112122(|)0.9595(|)0.01()0.995197()0.005,,pxlxpxPPlxx阳(阳)阳判决阀值(阳)即正常。,95.0)(,05.0)(21PP现有一待诊人员,血液观察值为X。从类条件概率密度发布曲线得:,5.0)|(1Xp2.0)|(2Xp2111)(|)()|()|(iiiPXpPXpXP16.02.095.05.005.005.05.0884.02.095.05.005.095.02.0)|(2XP)|()|(12XPXP2X例:假定某地区乙肝患者和健康人的先验概率分别为试对X进行分类。解:进行分类。试对该细胞))查得密度分布曲线上,从类条件概率其观察值为现有一待识别的细胞,)异常)正常先验概率分别为)两类的)和异常(常(设某地区细胞识别中正XXpXpxPP4.0/(2.0/(1.0(9.0(212121例1121122211111)/()/(182.0)/(1)/(818.01.04.09.02.09.02.0)()/()()/()()/()/(XXPXPXpXPPXpPXpPXpXP得根据贝叶斯决策规则解:利用贝叶斯公式,分别计算出的后验概率21及二、错误率分析221121),|()|(),|()|(XthenXPXPifXthenXPXPif)|()|(21XPXPdXXpXePeP)()|()(2221112211),(|)(|),(|)(|XthenPXpPXpifXthenPXpPXpif两类问题判别决规则:用后验概率密度表示为用先验概率和类概率密度函数表示为)(|)(|2211PXpPXp或错误率定义为:dX其中表示n重积分,即整个n维模式空间上的积分。判别界面为:)|()|()|()|()|()|()|(212121XPXPifXPXPXPifXPXeP对两类问题,上式中的P(e|X)为:即分类中可能会发生两种错误。假设R1为ω1类的判决区,R2为ω2类的判决区,则两种错误为:21)()|()()|()(12RRdXXpXPdXXpXPeP21)()|()()|(1122RRdXPXpdXPXp)()()()(1122ePPePP①将来自ω1类的模式错分到R2中去。②将来自ω2类的模式错分到R1中去。总的错误为两种错误之和:XpPXpXPiii||1、两类问题错误率样本被划入第2类一维模式情况图示:在最小错误Bayes规则中,判决界面为两曲线的交点处,即:)|()|(21XPXP)(|)(|2211PXpPXp或可以看出这个误差是所有误差中最小的(图中三角形的面积减小到0),但总错误概率不可能为零。1R2R0)()(22ePP)()(11ePPx)()|(iiPxp1类2类)()|(11Pxp)()|(22Pxp最小风险贝叶斯决策基本思想:以各种错误分类所造成的平均风险最小为规则,进行分类决策。§4.3最小风险贝叶斯决策一、“风险”概念(1)自动灭火系统:(2)疾病诊断:不同的错判造成的损失不同。损失又称为风险。考虑到对于某一类的错误判决要比对于另一类的更为关键,据此把最小错误率的贝叶斯判决做一些修改,提出了“条件平均风险”rj(X)的概念。对M类问题,如果观察样本被判定属于ωj类,则条件平均风险指:将某一X判为属于ωj类时造成的平均损失,也称条件平均损失。MjiiiijjXPXLXr1)|()()(二、条件平均风险与平均风险时正值时或负值jijiXLij0其中MiiijjXPXLXr1)|()()(或i——样本实际中可能属于的类别号j——分类判决后指定的判决号Lij——将ωi类模式错判为ωj类的“是非代价”,或称“损失”。自然属性为i类的样本,被划分到j类中,在j类中产生一错误分类,风险增加。L2c(2/c)L21(2/1)2L
本文标题:张素文-第4章统计决策方法
链接地址:https://www.777doc.com/doc-616666 .html