您好,欢迎访问三七文档
贝叶斯估计BayesEstimation例子:•我定点投篮,投5次,次次投中,•问:我的投篮技术如何?•科比投篮,投100次,次次投中,•问:科比投篮技术如何?•经典方法:矩法估计、极大似然估计100%•但是:……几个学派(1)•经典学派:频率学派,•带头人:Pearson、Fisher、Neyman•观点:概率就是频率•参数就是参数•联合分布密度:p(x1,x2,..xn;)频率学派的观点到目前为止我们讲述的都是频率(经典的)统计学•概率指的是相对频率,是真实世界的客观属性。•参数是固定的未知常数。由于参数不会波动,因此不能对其进行概率描述。•统计过程应该具有定义良好的频率稳定性。如:一个95%的置信区间应覆盖参数真实值至少95%的频率。统计学更多关注频率推断几个学派(2)•Bayesian学派:•带头人:Bayes,Laplace,Jeffreys,Robbins•观点:频率不只是概率•存在主观概率,和实体概率可转化•参数作为随机变量•条件分布:p(x1,x2,..xn|)贝叶斯学派的观点贝叶斯推断采取了另外一个不同的立场:•概率描述的是主观信念的程度,而不是频率。这样除了对从随机变化产生的数据进行概率描述外,我们还可以对其他事物进行概率描述。•可以对各个参数进行概率描述,即使它们是固定的常数。•为参数生成一个概率分布来对它们进行推导,点估计和区间估计可以从这些分布得到机器学习和数据挖掘更偏爱贝叶斯推断批评1:置信区间•置信区间:•解释:区间[u1,u2]覆盖u的概率•不是u位于区间的概率•缺点:u不是变量批评2:评价方法•假设检验、参数估计等都是多次重复的结果;•想知道:–一次实验发生的可能性回忆贝叶斯规则•亦称贝叶斯定理–条件概率•利用贝叶斯规则将数据和参数的分布联合起来(|)()(|)(|)()fxffxfxfd(|)()(|)(|)()fxyfyfyxfxyfydy贝叶斯方法贝叶斯推断的基本步骤如下:•选择一个概率密度函数,用来表示在取得数据之前我们对某个参数的信念。我们称之为先验分布。•选择一个模型(在此处记为)来反映在给定参数情况下我们对x的信念。•当得到数据X1,X2,…Xn后,我们更新我们的信念并且计算后验分布。•从后验分布中得到点估计和区间估计。()f(|)fx(;)fx1(|,...,)nfXX6.4.2贝叶斯公式的密度函数形式总体依赖于参数的概率函数在贝叶斯统计中记为P(x|),它表示在随机变量θ取某个给定值时总体的条件概率函数;根据参数的先验信息可确定先验分布();从贝叶斯观点看,样本x1,x2,…,xn的产生分两步进行:首先从先验分布()产生一个样本0,然后从P(x|0)中产生一组样本。这时样本的联合条件概率函数为,这个分布综合了总体信息和样本信息;1001(,,|)(|)nniipxxpx0是未知的,它是按先验分布()产生的。为把先验信息综合进去,不能只考虑0,对的其它值发生的可能性也要加以考虑,故要用()进行综合。这样一来,样本x1,…,xn和参数的联合分布为:h(x1,x2,…,xn,)=p(x1,x2,…,xn)(),这个联合分布把总体信息、样本信息和先验信息三种可用信息都综合进去了;在没有样本信息时,人们只能依据先验分布对作出推断。在有了样本观察值x1,x2,…,xn之后,则应依据h(x1,x2,…,xn,)对作出推断。由于h(x1,x2,…,xn,)=(x1,x2,…,xn)m(x1,x2,…,xn),其中是x1,x2,…,xn的边际概率函数,它与无关,不含的任何信息。因此能用来对作出推断的仅是条件分布(x1,x2,…,xn),它的计算公式是111(,,)(,,,)(,,|)()nnnmxxhxxdpxxd11111(,,,)(,,|)()(|,,)(,,)(,,|)()nnnnnhxxpxxxxmxxpxxd这个条件分布称为的后验分布,它集中了总体、样本和先验中有关的一切信息。后验分布(x1,x2,…,xn)的计算公式就是用密度函数表示的贝叶斯公式。它是用总体和样本对先验分布()作调整的结果,贝叶斯统计的一切推断都基于后验分布进行。6.4.3贝叶斯估计基于后验分布(x1,x2,…,xn)对所作的贝叶斯估计有多种,常用有如下三种:使用后验分布的密度函数最大值作为的点估计,称为最大后验估计;使用后验分布的中位数作为的点估计,称为后验中位数估计;使用后验分布的均值作为的点估计,称为后验期望估计。用得最多的是后验期望估计,它一般也简称为贝叶斯估计,记为。ˆB例6.4.2设某事件A在一次试验中发生的概率为,为估计,对试验进行了n次独立观测,其中事件A发生了X次,显然Xb(n,),即假若我们在试验前对事件A没有什么了解,从而对其发生的概率也没有任何信息。在这种场合,贝叶斯本人建议采用“同等无知”的原则使用区间(0,1)上的均匀分布U(0,1)作为的先验分布,因为它取(0,1)上的每一点的机会均等。贝叶斯的这个建议被后人称为贝叶斯假设。(|)(1),0,1,,xnxnPXxxnx由此即可利用贝叶斯公式求出的后验分布。具体如下:先写出X和的联合分布然后求X的边际分布最后求出的后验分布最后的结果说明XBe(x+1,n-x+1),其后验期望估计为(6.4.4)(,)(1),0,1,,,01xnxnhxxnx10(1)(1)(1)(2)xnxnnxnxdxxn(1)1(1)1(,)(2)(|)(1),01()(1)(1)xnxhxnxmxxnx1ˆ(|)2BxExn某些场合,贝叶斯估计要比极大似然估计更合理一点。比如:“抽检3个全是合格品”与“抽检10个全是合格品”,后者的质量比前者更信得过。这种差别在不合格品率的极大似然估计中反映不出来(两者都为0),而用贝叶斯估计两者分别是0.2和0.083。由此可以看到,在这些极端情况下,贝叶斯估计比极大似然估计更符合人们的理念。例6.4.3设x1,x2,…,xn是来自正态分布N(,02)的一个样本,其中02已知,未知,假设的先验分布亦为正态分布N(,2),其中先验均值和先验方差2均已知,试求的贝叶斯估计。解:样本x的分布和的先验分布分别为2/22021021/2221(|)(2)exp()21()(2)exp()2nniipxx由此可以写出x与的联合分布其中,。若记则有222211220212(,)exp2niinnxxhkx11niixxn(1)/2110(2)nnk2212222220001,,niixnnxABC212211(,)exp{[2]}2(/)1exp{(/)}2/2hkABCBAkCBAAx注意到A,B,C均与无关,由此容易算得样本的边际密度函数应用贝叶斯公式即可得到后验分布这说明在样本给定后,的后验分布为N(B/A,1/A),即21/211()(,)exp(/)(2/)2mxhxdkCBAA1/22(,)1(|)(2/)exp(/)()2/hxxABAmxA2202222001|~,nxxNnn后验均值即为其贝叶斯估计:它是样本均值与先验均值的加权平均。220222200/1/ˆ/1//1/nxnnx例子:正态分布•例:某圆形产品内径X(单位:mm)服从正态分布N(,0.4),有先验分布N(2,0.22),现在测量X=1.8,n=5•MLE=1.8•bayes=1.93220222200/1/ˆ/1//1/nxnn置信区间估计:•方法:是随机变量,可求其后验分布•步骤:1.积分求后验分布2.根据后验分布求置信区间duxuhxh)|,()|(分位数。后验分布的表示其中,的置信区间为:的pp)ˆ(12/12/6.4.4共轭先验分布若后验分布(x)与()属于同一个分布族,则称该分布族是的共轭先验分布(族)。二项分布b(n,)中的成功概率的共轭先验分布是贝塔分布Be(a,b);泊松分布P()中的均值的共轭先验分布是伽玛分布Ga(,);在方差已知时,正态均值的共轭先验分布是正态分布N(,2);在均值已知时,正态方差2的共轭先验分布是倒伽玛分布IGa(,)。先验知识从哪儿来?•我们可能在观测数据之前就有一些主观观点或真正的先验知识。•但是,通常我们并没有真正的先验知识或者我们在贝叶斯估计时想更客观些,这时可以选择无信息的先验(noninformativeprior)。•或者可以从数据估计先验。这被称为经验贝叶斯(empiricalBayes)。反对贝叶斯学派的观点•不方便:后验区间不是真正的置信区间,估计通常都是有偏估计•计算强度大:积分/仿真或近似很难处理•不必要的复杂:即使没有先验信息也要有先验函数•假设检验:贝叶斯假设检验对先验的选取很敏感综上所述•在参数模型中,当样本数目很多时,贝叶斯方法和频率方法得到的近似相同的推理。但通常二者的结果不同•贝叶斯方法和频率推理是为了解决不同的问题–结合先验知识和数据:贝叶斯方法–构造长期稳定的性能(如置信区间):频率方法综上所述•当参数空间为高维时,通常采用贝叶斯方法–但当参数比数据还多时,没有统计方法能跨越自然的本质约束–即使先验知识选择得当,也只能对“过去”预测很好,对将来不一定能预测很好–Youcannotgetsomethingfornothing.Alittlebitofdata,willnothelpyoutolearnaboutamilliondimensional,complexproblem.
本文标题:6.4贝叶斯估计
链接地址:https://www.777doc.com/doc-2582307 .html