您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 6贝叶斯学习-机器学习
机器学习第6章贝叶斯学习1概述•贝叶斯推理提供了一种概率手段,基于如下的假定:待考察的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以作出最优的决策。•贝叶斯推理为衡量多个假设的置信度提供了定量的方法•贝叶斯推理为直接操作概率的学习算法提供了基础,也为其他算法的分析提供了理论框架2简介•贝叶斯学习算法与机器学习相关的两个原因:–贝叶斯学习算法能够计算显示的假设概率,比如朴素贝叶斯分类–贝叶斯方法为理解多数学习算法提供了一种有效的手段,而这些算法不一定直接操纵概率数据,比如•Find-S•候选消除算法•神经网络学习:选择使误差平方和最小化的神经网络•推导出另一种误差函数:交叉熵•分析了决策树的归纳偏置•考察了最小描述长度原则2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏3贝叶斯学习方法的特性•观察到的每个训练样例可以增量地降低或升高某假设的估计概率。而其他算法会在某个假设与任一样例不一致时完全去掉该假设•先验知识可以与观察数据一起决定假设的最终概率,先验知识的形式是:1)每个候选假设的先验概率;2)每个可能假设在可观察数据上的概率分布•贝叶斯方法可允许假设做出不确定性的预测•新的实例分类可由多个假设一起做出预测,用它们的概率来加权•即使在贝叶斯方法计算复杂度较高时,它们仍可作为一个最优的决策标准衡量其他方法2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏4贝叶斯方法的难度•难度之一:需要概率的初始知识,当概率预先未知时,可以基于背景知识、预先准备好的数据以及基准分布的假定来估计这些概率•难度之二:一般情况下,确定贝叶斯最优假设的计算代价比较大(在某些特定情形下,这种计算代价可以大大降低)。2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏5内容安排•介绍贝叶斯理论•定义极大似然假设和极大后验概率假设•将此概率框架应用于分析前面章节的相关问题和学习算法•介绍几种直接操作概率的学习算法–贝叶斯最优分类器–Gibbs算法–朴素贝叶斯分类器•讨论贝叶斯信念网,这是存在未知变量时被广泛使用的学习算法2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏6贝叶斯法则•机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。•最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设•贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏7先验概率和后验概率•用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。•先验概率反映了关于h是一正确假设的机会的背景知识•如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率•类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率•机器学习中,我们关心的是P(h|D),即给定D时h的成立的概率,称为h的后验概率2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏8贝叶斯公式•贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法•P(h|D)随着P(h)和P(D|h)的增长而增长,随着P(D)的增长而减少,即如果D独立于h时被观察到的可能性越大,那么D对h的支持度越小)()()|()|(DPhPhDPDhP2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏9极大后验假设•学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP)•确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下最后一步,去掉了P(D),因为它是不依赖于h的常量)()|(maxarg)()()|(maxarg)|(maxarghPhDPDPhPhDPDhPhHhHhHhMAP2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏10极大似然假设•在某些情况下,可假定H中每个假设有相同的先验概率,这样式子6.2可以进一步简化,只需考虑P(D|h)来寻找极大可能假设。•P(D|h)常被称为给定h时数据D的似然度,而使P(D|h)最大的假设被称为极大似然假设•假设空间H可扩展为任意的互斥命题集合,只要这些命题的概率之和为1)|(maxarghDPhHhML2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏11举例:一个医疗诊断问题•有两个可选的假设:病人有癌症、病人无癌症•可用数据来自化验结果:正+和负-•有先验知识:在所有人口中,患病率是0.008•对确实有病的患者的化验准确率为98%,对确实无病的患者的化验准确率为97%•总结如下P(cancer)=0.008,P(cancer)=0.992P(+|cancer)=0.98,P(-|cancer)=0.02P(+|cancer)=0.03,P(-|cancer)=0.972003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏12举例:一个医疗诊断问题(2)•问题:假定有一个新病人,化验结果为正,是否应将病人断定为有癌症?求后验概率P(cancer|+)和P(cancer|+)•利用式子6.2找到极大后验假设–P(+|cancer)P(cancer)=0.0078–P(+|cancer)P(cancer)=0.0298–hMAP=cancer•确切的后验概率可将上面的结果归一化以使它们的和为1–P(canner|+)=0.0078/(0.0078+0.0298)=0.21–P(cancer|-)=0.79•贝叶斯推理的结果很大程度上依赖于先验概率,另外不是完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏13基本概率公式表•乘法规则:P(AB)=P(A|B)P(B)=P(B|A)P(A)•加法规则:P(AB)=P(A)+P(B)-P(AB)•贝叶斯法则:P(h|D)=P(D|h)P(h)/P(D)•全概率法则:如果事件A1...An互斥,且满足,则1)(1niiAPniiiAPABPBP1)()|()(2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏14贝叶斯法则和概念学习•贝叶斯法则为计算给定训练数据下任一假设的后验概率提供了原则性方法,因此可以直接将其作为一个基本的学习方法:计算每个假设的概率,再输出其中概率最大的。这个方法称为Brute-Force贝叶斯概念学习算法。•将上面方法与第2章介绍的概念学习算法比较,可以看到:在特定条件下,它们学习得到相同的假设,不同的是第2章的方法不明确计算概率,而且效率更高。2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏15Brute-Force贝叶斯概念学习•概念学习问题:有限假设空间H定义在实例空间X上,任务是学习某个目标概念c。•Brute-ForceMAP学习算法–对于H中每个假设h,计算后验概率–输出有最高后验概率的假设•上面算法需要较大计算量,因为它要计算每个假设的后验概率,对于大的假设空间显得不切实际,但是它提供了一个标准以判断其他概念学习算法的性能)()()|()|(DPhPhDPDhP)|(maxargDhPhHhMAP2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏16特定情况下的MAP假设•假定–训练数据D是无噪声的,即di=c(xi)–目标概念c包含在假设空间H中–每个假设的概率相同•求得–由于所有假设的概率之和是1,因此–由于训练数据无噪声,那么给定假设h时,与h一致的D的概率为1,不一致的概率为0,因此||1)(HhPotherwisexhddhDPiii)(,01)|(2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏17特定情况下的MAP假设(2)•考虑Brute-ForceMAP算法的第一步–h与D不一致,–h与D一致,,VSH,D是关于D的变型空间(见第2章,即与D一致的假设集)0)()(0)|(DPhPDhP||1||||||1)(||11)|(,,DHDHVSHVSHDPHDhP2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏18特定情况下的MAP假设(3)•P(D)的推导P(D)•假设的概率演化情况如图6-1所示,初始时所有假设具有相同的概率,当训练数据逐步出现后,不一致假设的概率变为0,而整个概率的和为1,它们均匀分布到剩余的一致假设中•每个一致的假设都是MAP假设||||||11||10||11)()|(,,,,HVSHHHhPhDPDHVShVShVShHhiiDHiDHiDHii2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏19MAP假设和一致学习器•一致学习器:如果某个学习器输出的假设在训练样例上为0错误率,则称为一致学习器•如果H上有均匀的先验概率,且训练数据是确定性和无噪声的,任意一致学习器将输出一个MAP假设•Find-S算法按照特殊到一般的顺序搜索架设空间H,并输出一个极大特殊的一致假设,因此可知在上面定义的P(h)和P(D|h)概率分布下,它输出MAP假设•更一般地,对于先验概率偏袒于更特殊假设的任何概率分布,Find-S输出的假设都是MAP假设2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏20MAP假设和一致学习器(2)•贝叶斯框架提出了一种刻画学习算法行为的方法,即便该学习算法不进行概率操作,通过确定算法输出最优假设时使用的概率分布P(h)和P(D|h),可以刻画出算法具有最优行为时的隐含假定•使用贝叶斯方法刻画学习算法,与揭示学习器中的归纳偏置在思想上是类似的•在第2章,将学习算法的归纳偏置定义为断言集合B,通过它可充分地演绎推断出学习器所执行的归纳推理结果,即学习器的输出是由其输入和隐含的归纳偏置所演绎得出的2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏21MAP假设和一致学习器(3)•贝叶斯解释对于描述学习算法中的隐含假定提供了另一种方法,用基于贝叶斯理论的一个等效的概率推理系统来建模•贝叶斯解释隐含的假定形式为:H上的先验概率由P(h)分布给出,数据拒绝或接受假设的强度由P(D|h)给出•在已知这些假定的概率分布后,一个基于贝叶斯理论的概率推理系统将产生等效于Find-S、候选消除等算法的输入-输出行为2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏22极大似然和最小误差平方假设•前面分析表明:某些学习算法即使没有显示地使用贝叶斯规则,或以某种形式计算概率,但它们输出的结果符合贝叶斯原理,是一个MAP假设•通过简单的贝叶斯分析,可以表明在特定前提下,任一学习算法如果使输出的假设预测和训练数据之间的误差平方和最小化,它将输出一极大似然假设•上面结论的意义是,对于许多神经网络和曲线拟合的方法,如果它们试图在训练数据上使误差平方和最小化,此结论提供了基于贝叶斯的理论依据2003.12.18机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏23极大似然和最小误差平方假设(2)•问题框架:–学习器L工作在实例空
本文标题:6贝叶斯学习-机器学习
链接地址:https://www.777doc.com/doc-4202476 .html