您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 02 贝叶斯决策理论
模式识别——贝叶斯决策理论马勤勇mqy_mail@163.com一最简单的贝叶斯分类算法还使用前面的例子:鲈鱼(seabass)和鲑鱼(salmon)。使用一个特征亮度对这两种鱼进行表示。新来了一条鱼特征是x(亮度),怎么根据特征x确定它到底是鲈鱼ω1还是鲑鱼ω2?已知数据:鲈鱼类标号ω1,鲑鱼类标号ω2。鲈鱼总数量占所有鱼总数量的比率为P(ω1),鲑鱼总数量占所有鱼总数量的比率为P(ω2)。由鲈鱼的分布得知这条鱼的亮度x在分类为鲈鱼时出现的概率为p(x|ω1),由鲑鱼的分布得知这条鱼的亮度x在分类为鲑鱼时出现的概率为p(x|ω2)。如何求解?可以求出x属于鲈鱼ω1的概率P(ω1|x)和x属于鲑鱼ω2的概率P(ω2|x)。如果P(ω1|x)P(ω2|x),就认为x是鲈鱼。现在的问题是如何求P(ω1|x)和P(ω2|x)。有一个概率公式:)()|()()|(yPyxPxPxyP从而推出:)()()|()|(xPyPyxPxyP换一种写法:)()()|()|(xPPxPxPjjj这就是著名的贝叶斯公式。其中P(ωj)叫做先验概率,就是类别出现的可能性;p(x|ωj)叫条件概率,就是在ωj时x出现的可能性;p(ωj|x)叫后验概率;p(x)是该样例出现的可能性。因此:)()()|()|(xPPxPxPjjj该样例出现的概率出现概率类别中该样例出现概率类别的概率该样例属于类别jjj对于上面的问题:)()()|()|(111xPPxPxP)()()|()|(222xPPxPxP如果p(ω1|x)p(ω2|x),那么就认为x属于ω1,即这条鱼是鲈鱼。同理于:)()|()()|(2211PxPPxP这几个基本数据都已经给出了,因此可以计算出不等式的结果。如果p(ω1|x)p(ω2|x),那么就认为x属于ω2,即这条鱼是鲑鱼。同理于:)()|()()|(1122PxPPxP二贝叶斯决策算法上面的分类有几个主要限制:特征向量中只包含一个特征:亮度。只有两个类别:鲈鱼和鲑鱼。仅仅允许分类,而不是根据分类采取行动。同时,没有加入损失控制:例如鲈鱼比鲑鱼贵。如果鲈鱼的罐头里装入了鲑鱼,那么客户会很生气;如果鲑鱼的罐头里装入了鲈鱼,那么客户很难感到有损失。那么这个时候分类后采取的行动就要偏向于便宜的鲑鱼。下面就看突破这几个限制的比较通用的贝叶斯分类器是什么样的。为了解决第一个显示,使用向量x代替原来的单变量x。x就叫做特征向量。比如鲈鱼鲑鱼分类的例子中,可以设计这样一个特征向量(x1,x2),其中x1表示亮度,x2表示长度。定义类别总共有c个:{ω1,ω2…,ωc},第j个分类为ωj。此时,x属于类别ωj的概率依然用这个公式计算:)()()|()|(xPPxPxPjjj)|()|()|(1xPxRjcjjii但是,并不是简单地将x归于具有最大p(ωj|x)值的那个类别ωj。因为要考虑损失:定义进行第i个行动(比如将样例归于第i个类别)这种行为表示为:αi。在一个样例的真正类别为ωj时,进行第i个行动造成的损失是:λ(αi|ωj)。那么进行第i个行动的总损失:这里将每个类别为真正类别时采取第i个行动造成的损失都加起来,作为采取第i个行动的总损失。那么每个行动的总损失都可以求出来,采取其中总损失最小的行动。比如行动k最小,对应的行动是将样例归于第k个类别,那么就如此进行分类。举例:贝叶斯决策算法在两类问题中的决策。定义)|(jiij,是在一个样例的真正类别为ωj时,进行第i个行动造成的损失。采取第1个行动时的总损失:)|()|()|(2121111xPxPxR采取第2个行动时的总损失:)|()|()|(2221212xPxPxR那么当)|()|(21xRxR时,采取第1个行动。即:)|()|()|()|(222121212111xPxPxPxP)|()()|()(2122212111xPxP)()|()()()|()(221222112111PxPPxP比如对于上面的例子λ11=λ22=0。鲈鱼ω1比鲑鱼ω2贵。如果鲈鱼ω1的罐头里装入了鲑鱼ω2,那么客户会很生气;如果鲑鱼ω2的罐头里装入了鲈鱼ω1,那么客户很难感到有损失。那么这个时候分类后采取的行动就要偏向于便宜的鲑鱼。因此设当真正类别是鲑鱼ω2的时候,将x归类为鲈鱼ω1(造成鲈鱼ω1的罐头里装入了鲑鱼ω2)的损失λ12=2,设当真正类别是鲈鱼ω1的时候,将x归类为鲑鱼ω2(造成鲑鱼ω2的罐头里装入了鲈鱼ω1)的损失λ21=0.2。可以看到,上面的公式变成了:)()|(10)()|(2211PxPPxP三判别函数在模式识别里,经常用gi(x)来表示x属于第i个类别的可能性。如果对于所有的j!=i都有:gi(x)gj(x),那么认为x属于第i个类别ωi。比如令gi(x)=-R(αi|x)。上面是一个不等式关系,如果不等式两边都乘以相同的正数,或加上相同的树,或取自然对数。那么不等式的关系是不变的。因此不考虑损失时的贝叶斯判别函数:)()()|()|()(xppxpxpxgiiii可以写成:)()|()(iiipxpxg)(ln)|(ln)(iiipxpxg四正态分布贝叶斯公式中的p(x|ωj)是条件概率,代表在类别为ωj时,x的概率。比如在ωj为鲈鱼时,一个特定亮度x的概率。条件概率分布中常见的一个分布是高斯分布(正态分布)。正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gauss(CarlFriedrichGauss,1777—1855)率先将其应用于天文学家研究,故正态分布又叫高斯分布。)()()|()|(xPPxPxPjjj高斯分布的形状是钟形曲线。很多随机变量的概率分布都可以近似地用正态分布来描述。例如:同一种生物体的身长、体重等指标;百度高个吧投票的身高分布:在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种种子的重量;测量同一物体的误差;某个地区的年降水量;学生的智力水平,包括学习能力,实际动手能力等呈正态分布。单变量正态分布的概率密度函数:其中μ是均值,σ是标准差。均值就是所有数的平均数,就是把所有数都加起来再除以个数σ2方差就是把每个数减去它们的平均数再平方,把这些平方加起来再除以个数。方差表示统计数据的离散程度。经常可以把上面的公式简写成:p(x)~N(μ,σ2)。221exp21)(xxp多变量正态分布的概率密度函数:其中μ是d维平均向量。Σ是d*d的协方差矩阵。|Σ|是它的行列式,Σ-1是它的转置。经常可以把上面的公式简写成:p(x)~N(μ,Σ)。)()(21exp||)2(1)(12/12/xxxptd五正态分布下的判别函数)()()|()|()(xppxpxpxgiiii)()|()(iiipxpxg)(ln)|(ln)(iiipxpxg)()()|()|(xPPxPxPjjj将多变量正态分布公式带入下面的判别函数:)(ln)|(ln)(iiipxpxg得到:)(ln||ln212ln2)()(21)(1iiiitiipdxxxg将单变量正态分布公式带入下面的判别函数:)(ln)|(ln)(iiipxpxg得到:)(ln||ln212ln21)(2iipxxg1.Σi=σ2I当所有变量都相互独立,且每个变量的方差都是σ2的时候,所有的协方差矩阵都相等:Σi=σ2I。此时,判别函数简化成了:baxpxpxxxgiititiiitii)(ln211)(ln2)()()(222此时判别函数就变成了一个线性判别函数。当p(ωi)与p(ωj)相等的时候,一二三维高斯分布:如下求分割线x的位置:)(ln)(ln)|(ln)|(ln)(ln)|(ln)(ln)|(ln)(ln)|(ln)()(ln)|(ln)(21122211222111ppxpxppxppxppxpxgpxpxg当p(ωi)与p(ωj)不相等的时候,一二三维高斯分布:2.Σi=Σ当所有类别的协方差矩阵Σi都相等的时候,说明所有类别的正态分布具有同样的形状。此时,判别函数又可以简化成一个线性判别函数器。3.Σi不固定此时基本就没有什么可化简的了。
本文标题:02 贝叶斯决策理论
链接地址:https://www.777doc.com/doc-608606 .html