您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第3章-概率密度函数估计
软件工程专业第三章概率密度函数估计计算机与通信工程学院计算机与通信工程学院模式识别软件工程专业课前思考•为什么需要概率密度函数的估计?•贝叶斯决策需要的已知信息–贝叶斯分类器中只要知道先验概率,条件概率P(ωi),P(x|ωi),就可以设计分类器了•存在问题:未知概率密度函数•未知类条件概率密度•未知先验概率密度•有一些训练数据2020/6/2软件工程专业概率密度估计基本知识2参数估计理论3概率论基本知识1第二章概率密度函数估计32020/6/2非参数估计理论4软件工程专业概率论基本知识142020/6/2软件工程专业概率论基本知识•确定事件:概念是确定的,发生也是确定的;•随机事件:概念是确定的,发生是不确定的;•模糊事件:概念本身就不确定。•随机变量:随机事件的数量表示;•离散随机变量:取值为离散的随机变量;•连续随机变量:取值为连续的随机变量;52020/6/2软件工程专业频率和概率•频率:试验在相同的条件下重复N次,其中M次事件A发生,则A发生的频率为:fN(A)=M/N;•概率:当N很大时,频率会趋向一个稳定值,称为A的概率:软件工程专业联合概率和条件概率•联合概率:设A,B是两个随机事件,A和B同时发生的概率称为联合概率,记为:P(A,B);•条件概率:在B事件发生的条件下,A事件发生的概率称为条件概率,记为:P(A|B);•乘法定理:P(AB)=P(A|B)P(B)P(AB)=P(B|A)P(A)推广到三个事件:P(ABC)=P(A)P(B|A)P(C|AB)P(AB|C)=P(A|BC)P(B|C)?软件工程专业P(AB|C)=P(A|BC)P(B|C)?•证明:•等式左边:•等式右边:软件工程专业概率密度函数•概率分布函数:设X为连续型随机变量,定义分布函数:F(x)=P(X≤x)•概率密度函数:如果存在一个非负函数p(x)使得下式成立,则p(x)称为的概率密度函数:软件工程专业全概率公式•互不相容事件:如果试验时,若干个随机事件中任何两个事件都不可能同时发生,则称它们是互不相容的。•全概率公式:若事件只能与两两不相容的事件A1,A2,…,AN之一同时发生,则有:软件工程专业贝叶斯公式•离散形式:A,B为离散随机变量:•连续形式:A为离散随机变量,B为连续随机变量:软件工程专业概率密度估计基础知识2122020/6/2软件工程专业•设计贝叶斯分类器的方法:MAXg1...g2gc...x1x2xna(x)分类器功能结构训练样本集样本分布的统计特征:概率密度函数决策规则:判别函数决策面方程软件工程专业•贝叶斯分类器中只要知道先验概率、条件概率或后验概概率P(ωi),P(x/ωi),P(ωi/x)就可以设计分类器了。现在来研究如何用已知训练样本的信息去估计P(ωi),P(x/ωi),P(ωi/x)。即给定一定数量的样本,去实现这些函数的估计软件工程专业一.参数估计与非参数估计参数估计:先假定研究的问题具有某种数学模型,如正态分布,二项分布,再用已知类别的学习样本估计里面的参数。(监督和非监督)非参数估计:不假定数学模型,直接用已知类别的学习样本的先验知识直接估计数学模型。软件工程专业二.监督参数估计与非监督参数估计监督参数估计:样本所属的类别及类条件总体概率概率密度函数的形式已知,而表征概率密度函数的某些参数是未知的。目的在于:由已知类别的样本集对总体分布的某些参数进行统计推断,此种情况下的估计问题称为监督参数估计。非监督参数估计:已知总体概率密度函数形式但未知样本所属类别,要求推断出概率密度函数的某些参数,称这种推断方法为非监督情况下的参数估计。注:监督与非监督是针对样本所属类别是已知还是未知而言的。软件工程专业三.参数估计的基本概念1.统计量:样本中包含着总体的信息,总希望通过样本集把有关信息抽取出来。也就是说,针对不同要求构造出样本的某种函数,该函数称为统计量。2.参数空间:在参数估计中,总假设总体概率密度函数的形式已知,而未知的仅是分布中的参数,将未知参数记为,于是将总体分布未知参数的全部可容许值组成的集合称为参数空间,记为。3.点估计、估计量和估计值:点估计问题就是构造一个统计量作为参数的估计,在统计学中称为的估计量。若是属于类别的几个样本观察值,代入统计量d就得到对于第i类的的具体数值,该数值就称为的估计值。1,,Ndxxθˆˆθ1,,iiNxxiˆθ软件工程专业4.区间估计:除点估计外,还有另一类估计问题,要求用区间作为可能取值范围得一种估计,此区间称为置信区间,该类估计问题称为区间估计。5.参数估计方法:参数估计是统计学的经典问题,解决方法很多,在此只考虑两种常用方法:一种是最大似然估计方法,另一种是贝叶斯估计方法。(1)最大似然估计:把参数看作是确定而未知的,最好的估计值是在获得实际观察样本的最大的条件下得到的。(2)贝叶斯估计:把未知的参数当作具有某种分布的随机变量,样本的观察结果使先验分布转化为后验分布,再根据后验分布修正原先对参数的估计。6.参数估计的评价:评价一个估计的“好坏”,不能按一次抽样结果得到的估计值与参数真值的偏差大小来确定,而必须从平均和方差的角度出发进行分析,即关于估计量性质的定义。21,dd软件工程专业参数估计理论3192020/6/2软件工程专业问题假定:①待估参数θ是确定的未知量②按类别把样本分成M类X1,X2,X3,…XM其中第i类的样本共N个Xi=(X1,X2,…XN)T并且是独立从总体中抽取的③Xi中的样本不包含(i≠j)的信息,所以可以对每一类样本独立进行处理。④第i类的待估参数根据以上四条假定,我们下边就可以只利用第i类学习样本来估计第i类的概率密度,其它类的概率密度由其它类的学习样本来估计。12(,,...)Tipj一、最大似然软件工程专业1.一般原则:第i类样本的类条件概率密度:P(Xi|ωi)=P(Xi|ωi﹒θi)=P(Xi|θi)原属于i类的学习样本为Xi=(X1,X2,…XN,)Ti=1,2,…M求θi的极大似然估计就是把P(Xi|θi)看成θi的函数,求出使它极大时的θi值。∵学习样本独立从总体样本集中抽取的∴N个学习样本出现概率的乘积取对数:NkiXkPiXPiiXPii1)|()|().|(NkikikNkXPXP11)|(log)|(log软件工程专业对θi求导,并令它为0:有时上式是多解的,上图有5个解,只有一个解最大即.0)|(log...11NkikpXP0)|(log..................0)|(log111ikNkpikNkXPXPP(Xi/θi)=,即为的估值利用上式求出ii软件工程专业最大似然估计示意图上图显示了一维情况下的一些训练样本,服从一个方差已知,均值未知中间图显示了似然函数关于均值的函数图像,如果有非常多的训练样本,那么函数波形非常窄下图显示对数似然函数取得最大的点软件工程专业①∑已知,μ未知,估计μ服从正态分布所以在正态分布时)|(iiXP0)|(log1XPkNk111log(|)log[2||]22nTkkkPXXXNkkX110NkkX1101i待估参数为代入上式得110)(NkkNXNkkXN11所以,有这说明未知均值的极大似然估计正好是训练样本的算术平均。多维正态分布情况软件工程专业②∑,μ均未知A.一维情况:n=1对于每个学习样本只有一个特征的简单情况:(n=1)由上式得即学习样本的算术平均样本方差21211,1222212log21)|(logXXPkik0)(1)|(log11211XXPkNkikNk代入0]2)(21[)|(log12212212NkkikNkXXPNkkXN1111NkXkN122121软件工程专业讨论:1.正态总体均值的极大似然估计即为学习样本的算术平均2.正态总体方差的极大似然估计与样本的方差不同,当N较大的时候,二者的差别不大。B.多维情况:n个特征(推导过程,作为练习)估计值:结论:①μ的估计即为学习样本的算术平均②估计的协方差矩阵是矩阵的算术平均(nⅹn阵列,nⅹn个值)NkkXN111XTXNkNkk121XXkTk软件工程专业极大似然估计是把待估的参数看作固定的未知量,而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量,通过对第i类学习样本Xi的观察,通过贝叶斯准则将概率密度分布P(Xi|θ)转化为后验概率P(θ|Xi),进而求使得后验概率分布最大的参数估计,也称最大后验估计。估计步骤:①确定θ的先验分布P(θ),待估参数为随机变量。②用第i类样本xi=(x1,x2,….xN)T求出样本的联合概率密度分布P(xi|θ),它是θ的函数。③利用贝叶斯公式,求θ的后验概率④dPXPPXPXPiii)()|()().|()|((证明略)求贝叶斯估计dXPi)|(二、贝叶斯估计软件工程专业下面以正态分布的均值估计为例说明贝叶斯估计的过程:一维正态分布:已知σ2,估计μ假设概率密度服从正态分布P(X|μ)=N(μ,σ2),P(μ)=N(μ0,σ02)第i类学习样本xi=(x1,x2,….xN)T,i=1,2,…M第i类概率密度P(x|μi,xi)=P(x|xi)所以由贝叶斯公式,则可得后验概率:dPXPPXPXPiii)()|()().|()|(软件工程专业因为N个样本是独立抽取的,所以上式可以写成其中为比例因子,只与x有关,与μ无关∵P(Xk|μ)=N(μ,σ2),P(u)=N(μ0,σ02)其中a’,a’’包含了所有与μ无关的因子1(|)(|).()NikkPaPXPXdPXPai)()|(12200101111(|)exp{exp[]}2222NkikXPaX]}[21exp{'10022NkkXa]})1(2)1[(21exp{''200122202NkkXNa软件工程专业∴P(μ|Xi)是u的二次函数的指数函数∴P(μ|Xi)仍然是一个正态函数,P(μ|Xi)=N(μN,σN2)另外后验概率可以直接写成正态形式:比较以上两个式子,对应的系数应该相等∴211(|)exp[]22NiNNPX2220022210111NNNkkNNX软件工程专业解以上两式得将μN,代入P(μ|Xi)可以得到后验概率,再用公式22002222100NNkkXNN2220220NN(|),iPdX求的估计。2N软件工程专业∴对μ的估计为若令P(μ)=N(μ0,σ02)=N(0,1),即为标准正态分布,且总体分布的方差也为1,则此时估计与极大似然估计相似,只是分母不同。02202222001NNkNkXNN111NNkkXNNidXP)|(∵2软件工程专业1.贝叶斯学习的概念:通过已有的概率分布和观测数据推理求出μ的后验概率之后,直接去推导总体分布(形式已知),即当观察一个样本时,N=1就会有一个μ的估计值的修正值;当观察N=4时,对μ进行修正,向真正的μ靠近;当观察N=9时,对μ进行修正,向真正的μ靠的更近;当观察N个样本后,μN就反映了观察到N个样本后对μ的最好推测,而
本文标题:第3章-概率密度函数估计
链接地址:https://www.777doc.com/doc-5691689 .html