您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > a05统计决策中的训练、学习与错误率测试、估计模式识
1模式识别主讲:蔡宣平教授电话:73441(O),73442(H)E-mail:xpcai@nudt.edu.cn单位:电子科学与工程学院信息工程系第五章统计决策中的训练、学习与错误率测试、估计统计推断概述参数估计概密的窗函数估计法有限项正交函数级数逼近法5·1统计推断概述第五章统计决策中的训练、学习与错误率测试、估计本章目的:已知类别的样本(训练样本)→学习或训练→获得类概密)(ixp在上一章的学习中,我们一直假设类的条件概率密度函数是已知的,然后去设计贝叶斯分类器。但在实际中,这些知识往往是不知道的,这就需要用已知的样本进行学习或训练。也就是说利用统计推断理论中的估计方法,从样本集数据中估计这些参数。5.1统计推断概述如果已知i类的概密)(ixp的函数类型,即知道i类的概型,但不知道其中的参数或参数集,可采用参数估计的方法,当解得这些参数后)(ixp也就确定了。{}),,,(21qqq=qDqmiL确定未知参数q参数估计参数估计有两类方法:1.将参数作为非随机量处理,如矩法估计、最大似然估计;2.将参数作为随机变量,贝叶斯估计就属此类。5.1统计推断概述非参数估计5.1统计推断概述当不知道类的概型时,就要采用非参数估计的方法,这种方法也称为总体推断,这类方法有:1.p-窗法2.有限项正交函数级数逼近法3.随机逼近法基本概念母体(总体):一个模式类称为一个总体或母体5.1统计推断概述母体的子样:一个模式类中某些模式(即母体中的一些元素)的集合称为这个母体的子样。母体的子样含有母体的某些信息,可以通过构造样本的函数来获得。统计量:一般来说,每一个样本都包含着母体的某些信息,为了估计未知参数就要把有用的信息从样本中抽取出来。为此,要构造训练样本的某种函数,这种函数在统计学中称为统计量。基本概念经验分布:由样本推断的分布称为经验分布。5.1统计推断概述)(ixp)(iP)(xPi数学期望、方差等理论量(或理论分布):参数空间:在统计学中,把未知参数q的可能值的集合称为参数空间,记为Q。点估计、估计量:针对某未知参数q构造一个统计量作为q的估计,这种估计称为点估计。称为q的估计量。qˆqˆ基本概念5.1统计推断概述为了准确地对某一类的分布进行参数估计或总体推断,应只使用该类的样本。就是说在进行参数估计时,应对各类进行独立的参数估计或总体推断。因此在以后的论述中,如无必要,不特别言明类别。区间估计:在一定置信度条件下估计某一未知参数q的取值范围,称之为置信区间,这类估计成为区间估计。基本概念5.1统计推断概述渐近无偏估计:即。当不能对所有的都有时,希望估计量是渐近无偏估计。q=qEENNˆlimNq=qEENˆNqˆ基本概念5.1统计推断概述均方收敛:q=NNVarˆlim均方逼近:均方收敛:=qqqq)ˆ)(ˆ(limNNNE又称相合估计一致估计:当样本无限增多时,估计量依概率收敛于,Nqˆq0)ˆ(lim=qqNNP5·2参数估计第五章统计决策中的训练、学习与错误率测试、估计5.2参数估计5.2.1均值矢量和协方差阵的矩法估计5.2.2最大似然估计(MLE)5.2.3贝叶斯估计(BE)5.2参数估计均值矢量和协方差阵的矩法估计矩法估计是用样本(的统计)矩作为总体(理论)矩的估值。若类的概型为正态分布,我们用矩法估计出类的均值矢量和协方差阵后,类的概密也就完全确定了。),,,()(21D==nxdxpxxEL均值矢量:==NjjxN11ˆ均值无偏估计:5.2参数估计均值矢量和协方差阵的矩法估计=222212222222121212211nnnnnnLLLL))((2llkkklxxE==lklkllkkdxdxxxpxx),())((=xxE))((=xxE协方差阵:5.2参数估计均值矢量和协方差阵的矩法估计))((=xxE协方差阵:===NjjjxxNC1))((11ˆ协方差阵无偏估计:==NjjjNmxNmxN1))())(((11或5.2参数估计设)(Nm和)(NC是由N个样本算得的均矢和协方差阵,1Nx则可采用递推公式进行估算若再加入一个新的样本==1111)1(NjjxNNm)(1111==NNjjxxN))((111=NxNmNN1)1(xm=初始值:))((11)(1NmxNNmN=均值矢量和协方差阵的矩法估计5.2参数估计协方差矩阵的递推估计式:均值矢量和协方差阵的矩法估计))'1())(1((1)1(11==NmxNmxNNCjNjj])')()()(()1(1[1'1'1112111==NNNNjNjjxNmNxNmNNNNxxNxxN])'()(1'11[11NmNmNNxxNNNjNjj==))'())(((1111NmxNmxNNN==11)'1()1(1'1NjjjNmNmNNxxN'11')(12)'()(1'11111==NNNjNjjxxNxNmNNmNmNNxxN))'())(((11)(111NmxNmxNNCNNNN===='')'1()1(')1(111111xxxxmmxxC初始值:5.2参数估计均值矢量和协方差阵的矩法估计5.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)如同矩法估计一样,最大似然估计要求已知总体的概型,即概密的具体函数形式,它也将被估计量作为确定性的变量对待。但最大似然估计适用范围比矩法估计更宽一些,可以用于不是正态分布的情况。最大似然估计是参数估计中最重要的方法。5.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)似然函数:当N个随机样本取定值NxxxL,,,21时,),,,,(21qLNxxxp称为相对于NxxxL,,,21的q的似然函数。联合概密设一个总体x的概密为),(qxp,其中q是一个未知参数集,5.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)),,,,(21qLNxxxp),()(qDNXp)()(qNXp由于q是概密的一个确定性的参数集,因此),()(qNXp实际上就是条件概密上式中不同的,q),()(qNXp将不同。如果各个),,2,1(NjxjL=是独立抽取的,则进)()(qNXp=q=qqq=NjjNxpxpxpxp121)()()()(L一步有:5.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)最大似然估计:5.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)在实际中多是独立取样和经常处理正态变量,而且对数函数是单值单调函数,对数似然函数与似然函数在相同的处取得最大值。q5.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)在似然函数可微的条件下,求下面微分方程组的解:0)()(=qqNXp)()(qNXpqˆq0)(ln)(ln1)(=qq=qq=NjjNxpXp或等价地求作为极值的必要条件。对数似然方程组5.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)需要指出的是:对于具体问题,有时用上述方法不一定可行,原因之一是似然函数在最大值点处没有零斜率。求出上面方程组中的一切解及边界值,计算使)()(qNXp最大的q作为q的最大似然估计。因此,最大似然的关键是必须知道概型。5.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)下面我们以多维正态分布为例进行说明。(1)假设Σ是已知的,未知的只是均值μ,则:)()(||)2ln()|(ln12121q=kTkdkxxxp)()|(ln1q=kkxxp0)(11==Nkkx==NkkxN11ˆ5.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)这说明,样本总体的未知均值的最大似然估计就是训练样本的平均值。它的几何解释就是:若把N个样本看成是一群质点,则样本均值便是它们的质心。2122)(21)2ln(21)|(lnqqqq=kkxxp=22212122)(21)(1)|(lnqqqqqqqkkkxxxp0)ˆ(ˆ1112==Nkkxqq0ˆ)ˆ(ˆ11122212===NkNkkxqqq==NkkxN11ˆ0)ˆ(ˆ1112==Nkkxqq0ˆ)ˆ(ˆ11122212===NkNkkxqqq212)ˆ(1==NkkxN可见,正态分布中的协方差阵Σ的最大似然估计量等于N个矩阵的算术平均值。==NkkxN11ˆ(3)对于一般的多维正态密度的情况,计算方法完全是类似的。最后的结果是:TNkkkxxN)ˆ)(ˆ(1ˆ1==可以证明上式的均值是无偏估计,但协方差阵并不是无偏估计,无偏估计是:TNkkkxxN)ˆ)(ˆ(11ˆ1==5.2参数估计贝叶斯估计(BE)考虑到)(NX的各种取值,我们应求)ˆ()(NXRq在=LN空间中的期望,即平均损失:q=NNNNXdXpXRR)()()()()ˆ()()()()()()ˆ,(NNNXddXpXpNqqqq=Q5.2参数估计贝叶斯估计(BE)q=NNNNXdXpXRR)()()()()ˆ()()()()()()ˆ,(NNNXddXpXpNqqqq=Q5.2参数估计贝叶斯估计(BE))ˆ,(qq不同的具体定义,可得到不同的最佳贝叶斯估计。比如,可以用平方误差作为代价,此时:上式中,对于)ˆ()ˆ()ˆ,(qqqq=qq)()()()()()ˆ()ˆ(NNNXdXpdXpNQqqqqqq=)()()()()()ˆ()ˆ(NNNXddXpXpRNqqqqqq=Q于是:5.2参数估计贝叶斯估计(BE)min)()ˆ()ˆ()ˆ()()(=qqqqqq=qQdXpXRNNqˆ由于)()(NXp是非负的,只出现在内层积分中,关于qˆ使R最小等价于:)()()()()()ˆ()ˆ(NNNXdXpdXpNQqqqqqq=R为求)ˆ()(NXRq极小,令=qqqq=qqQdXpXRNN)()ˆ(2ˆ)ˆ()()(5.2参数估计贝叶斯估计(BE)=qqqq=qqQdXpXRNN)()ˆ(2ˆ)ˆ()()(从而可得:)()()()()(ˆNNNXEdXpXq=qqq=qQ5.2参数估计贝叶斯估计(BE)下面介绍估计q所涉及的其它公式或近似算式:由于各样本是独立抽取的,故它们条件独立,即有=q=q=qNjjNNxpxxxpXp121)()(),,,()(L由贝叶斯定理知:5.2参数估计贝叶斯估计(BE)=qq=q=qNjjNNN
本文标题:a05统计决策中的训练、学习与错误率测试、估计模式识
链接地址:https://www.777doc.com/doc-609907 .html