您好,欢迎访问三七文档
当前位置:首页 > 学术论文 > 大学论文 > 模式识别课件第四章线性判别函数
第四章线性判别函数Bayesian分类器设计方法,已知类条件概率密度p(x|ωi)参数表达式先验概率P(ωi)利用样本估计p(x|ωi)的未知参数用贝叶斯规则将其转换成后验概率P(ωi|x),并根据后验概率的大小进行分类决策。解决实际问题方法在实际中存在问题样本特征空间的类条件概率密度形式常常很难确定利用Parzen窗等非参数方法恢复分布往往需要大量样本,而且随着特征空间维数的增加所需样本数急剧增加。因此,在解决实际问题时,往往是利用样本集直接设计分类器,而不恢复类条件概率密度。即采用判别函数,首先给定某个判别函数类,然后利用样本集确定出判别函数中的未知参数。线性判别函数线性判别函数法是一类较为简单的判别函数。是统计模式识别的基本方法之一。它首先假定判别函数g(x)是x的线性函数,即g(x)=wTx+w0,对于c类问题,可以定义c个判别函数,gi(x)=wiTx+wi0,i=1,2,…,c。用样本去估计各wi和wi0,并把未知样本x归到具有最大判别函数值的类别中去。关键是如何利用样本集求得wi和wi0。训练和学习“训练”和“学习”在待识别的模式中,挑选一批有代表性的样本,经过人工判读,成为已知分类的样本,把这批样本逐个输入到计算机中的“训练”程序或算法中,通过一次次的迭代,最后得到正确的线性判别函数。这样的迭代过程称之为训练过程,所构成的分类器称为有人监督或有教师的分类器。4.1.1线性判别函数的基本概念在正态分布的Bayesian判别中,已经遇到过在两类情况下判别函数为线性的情况。假设有ω1和ω2两类模式,在二维模式特征空间可用一直线把这两类模式划分开,如图4.1所示。x1x2g(x)=w2x2+w1x1+w0图4.1两类模式的一个简单判别函数+-划分直线的方程参数坐标变量4.1.1线性判别函数的基本概念判别规则若给定一个未知类别的模式x当g(x)0时,则决策x属于ω1;当g(x)0,则决策x属于ω2;若x处于划分边界上即g(x)=0,则x的类别不可确定,则可将x任意分到某一类或拒绝,g(x)=0为不可确定的条件。这一概念可以推广到有限维欧氏空间中的非线性边界的更一般情况。4.1.1线性判别函数的基本概念g(x)=wdxd+wd-1xd-1+…+w1x1+w0=wTx+w0(4-1)dxxx21xd21w一般的线性判别函数形式为:特征向量(样本向量)权向量阈值权(常数)4.1.1线性判别函数的基本概念简单线性分类器:4.1.1线性判别函数的基本概念对于两类问题的线性分类器决策规则:令g(x)=g1(x)-g2(x)如果g(x)>0,则决策x∈ω1g(x)<0,则决策x∈ω2(4-2)g(x)=0,则可将x任意分到某一类或拒绝4.1.1线性判别函数的基本概念对于两类问题的线性分类器决策规则:方程g(x)=0定义了一个决策面,把归类于ω1类的点和归类于ω2的点分割开。假设x1和x2都在决策面H上,则有wTx1+w0=wTx2+w0(4-3)或wT(x1-x2)=0(4-4)表明,w和超平面H上任一向量正交,即w是H的法向量。4.1.1线性判别函数的基本概念一般地,一个超平面H把特征空间分成两个半空间,即对ω1类的决策域R1和对ω2类的决策域R2。因为当x在R1中时,g(x)0,所以决策面的法向量是指向R1的。因此,有时称R1中的任何x在H的正侧,相应地,称R2中的任何x在H的负侧。4.1.1线性判别函数的基本概念判别函数g(x)是特征空间中某点x到超平面距离的一种代数量度。若把x表示成式中xp:是x在H上的投影向量;r:是x到H的垂直距离;wwxxrpww:是w方向上的单位向量。0p0pT)()(g4.1.1线性判别函数的基本概念若x为原点,则g(x)=w0(4-7)将(4-7)代入(4-6),就得到从原点到超平面H的距离w)x(gr(4-6)w0wr判别函数g(x)是特征空间中某点x到超平面距离的一种代数量度。4.1.1线性判别函数的基本概念w0wr如果w00,则原点在H的正侧;若w00,则原点在H的负侧。若w0=0,则g(x)具有齐次形式wTx,说明超平面H通过原点。判别函数g(x)是特征空间中某点x到超平面距离的一种代数量度。4.1.1线性判别函数的基本概念图4.2对这些结果作了几何解释。4.1.1线性判别函数的基本概念结论利用线性判别函数进行决策,就是用一个超平面把特征空间分割成两个决策区域。超平面的方向由权向量w确定,它的位置由阈值权w0确定。判别函数g(x)正比于x点到超平面的代数距离(带正负号)当x在H正侧时,g(x)>0,在负侧时,g(x)<0。4.1.1线性判别函数的基本概念4.1.2广义线性判别函数如图4.3所示的二类问题。设有一维样本空间X,所希望的划分是:如果xb或xa,则x属于ω1类;如果bxa,则x属于ω2类。xg(x)图4.3baω1ω1ω24.1.2广义线性判别函数显然,没有任何一个线性判别函数能解决上述划分问题。这说明线性判别函数虽然简单,但局限性较大,不适用于非凸决策区域和多连通区域的划分问题。xg(x)baω1ω1ω2图4.3从图4.3中可以看出,如果建立二次判别函数g(x)=(x-a)(x-b)(4-9)则可以很好地解决上述分类问题,决策规则是:g(x)0,则决策x∈ω1g(x)0,则决策x∈ω2二次判别函数可写成如下一般形式g(x)=c0+c1x+c2x2(4-10)如果适当选择x→y的映射,则可把二次判别函数化为y的线性函数31)(iiiTyagyax4.1.2广义线性判别函数式中213211xxyyyy210321cccaaaayaxTg)(称为广义判别函数,a叫做广义权向量。一般地,对于任意高次判别函数g(x)(这时的g(x)可看作对任意判别函数作级数展开,然后取其截尾部分的逼近),都可以通过适当的变换,化为广义线性判别函数来处理。31)(iiiTyagyax4.1.2广义线性判别函数存在问题经过变换后,维数大大增加了,这将使问题很快陷入所谓“维数灾难”。在统计学习理论中,对广义线性分类器进行研究,克服了“维数灾难”问题,进而发展出了最新的模式识别方法——支持向量机,成为解决有限样本情况下非线性分类问题的有效手段。4.1.2广义线性判别函数把(4-1)式定义的线性判别函数写成下面的形式xy1121dxxxwa02101ˆddyaxTdiiidiiiyaxwwg110)((4-12)增广特征向量Augmentedfeaturevector增广权向量(广义权向量)Augmentedweightvector4.1.2广义线性判别函数结论y与x相比,虽然增加了一维,但保持了样本间的欧氏距离不变,变换后的样本向量仍然全部位于d维子空间,即原X空间中,方程0yaT(4-13)在Y空间确定了一个通过原点的超平面。Hˆ它对d维子空间的划分与原决策面wTx+w0=0对原X空间的划分完全相同。4.1.2广义线性判别函数例子这种方法的优缺点可通过例子来说明。考虑二次判别函数2321)(xaxaaxg得到三维向量y21xxy从x到y的映射如图所示。4.1.2广义线性判别函数例子4.1.2广义线性判别函数数据仍保持固有的一维,因为改变x将导致y沿着一个三维曲线运动。如果x服从某一个概率分布时,得到的密度函数是退化的,即曲线之外是0,在曲线上是无穷大,这是从低维空间到高维空间映射的普遍问题。例子4.1.2广义线性判别函数图中映射y=(1,x,x2)T把一条直线映射为三维空间中的一条抛物线。由于两类问题,在三维空间中,一个平面就是一个分隔面。因此,由图可见,这产生了原始一维x空间的不连通性例子g(x)=-1+x+2x2x-1和x0.5时g(x)0a=(-1,1,2)T4.1.2广义线性判别函数由aTy=0定义的平面将y空间分成两个判别区域,如图给出当a=(-1,1,2)T时的分类平面和x空间对应的判别区域。结论aTy=0在2维空间不穿过原点4.1.2广义线性判别函数一个三维增广特征空间y和增广权向量a(在原点)。满足aTy=0的点集是一个穿过y空间原点的超平面(用红色表示),这个平面垂直于a。这个平面在其原来的二维空间中不一定穿过原点(即立方体顶部虚线所示的判决边界)。因此存在一个增广权向量a,可以获得x空间中任意的判定线。4.1.3设计线性分类器的主要步骤设计线性分类器,就是建立线性判别函数(4-l)式g(x)=wTx+w0或广义线性判别函数(4-12)式yaxTg)(这样,设计线性分类器就转化为,利用训练样本集寻找准则函数的极值点和或。*a*w*0w设计线性分类器的主要步骤如下:⒈要有一组具有类别标志的样本集X={x1,x2,…,xN}。如果在样本xn抽出后,把它看作一个确定的观察值,则这组样本集称为确定性样本集;若把xn看作一个随机变量,则这组样本集称为随机样本集。有时也将样本集X转换成增广样本集Y来处理。4.1.3设计线性分类器的主要步骤⒉要根据实际情况确定一个准则函数J它必须满足:⑵J的值反映分类器的性能,它的极值解则对应于最好的决策。⑴J是样本集X和w、w0或a的函数;设计线性分类器的主要步骤如下:4.1.3设计线性分类器的主要步骤*0*)(wgTxwx*0w⒊用最优化技术求出准则函数的极值解和w*或a*。这样就可以得到线性判别函数yaxTg*)(或设计线性分类器的主要步骤如下:4.1.3设计线性分类器的主要步骤4.2Fisher线性判别Fisher线性判别函数是经典判别方法之一,应用非常广泛。应用统计方法解决模式识别问题时,困难之一是维数问题。在低维空间里行得通的方法,在高维空间里往往行不通。因此,降低维数有时就成为处理实际问题的关键。在数学上通常可以把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维。在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分开得最好。问题是如何根据实际情况找到这条最好的、使最易于分类的投影线。这就是Fisher法所要解决的基本问题(见图4.4)。4.2Fisher线性判别4.2Fisher线性判别从d维空间到一维空间的数学变换方法假设有一集合X包含N个d维样本x1,x2,…,xN,其中N1个属于ω1类的样本记为子集X1,N2个属于ω2类的样本记为X2,若对xn的分量作线性组合可得标量yn=wTxn,n=1,2,…,Ni这样便得到N个一维样本yn组成的集合,并可分为两个子集Y1和Y2。4.2Fisher线性判别w*就是最好的投影方向从几何上看,如果||w||=1,则每个yn就是相对应的xn到方向为w的直线上的投影,实际上,w的绝对值是无关紧要的,它仅使yn乘上一个比例因子,重要的是选择w的方向。w的方向不同,将使样本投影后的可分离程度不同,从而直接影响识别效果。因此,前述所谓寻找最好投影方向的问题,在数学上就是寻找最好的变换向量w*的问题。4.2Fisher线性判别定义几个基本参量⒈在d维X空间⑴各类样本均值向量miiXxiiNxm1,i=1,2⑵样本类内离散度矩阵Si和总类内离散度矩阵SwiXxTiiiS))((mxmx,i=1,2Sw=S1+S24.2Fisher线性判别⑶样本类间离散度矩阵SbSb=(m1-m2)(m1-m2)T其中Sw是对称半正定矩阵,而且当Nd时通常是非奇异的。Sb也是对称半正定矩阵,在两类条件下,它的秩最大
本文标题:模式识别课件第四章线性判别函数
链接地址:https://www.777doc.com/doc-5386786 .html