您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 南大版论文答辩PPT
2020/5/301隐马尔可夫模型(HMM)在中文词性标注中的应用研究答辩人:指导老师:2020/5/302词性标注概述隐马尔可夫模型概述实验介绍实验结果和分析总结提纲2020/5/303词性标注概述词性标注的目标和过程目标:为句子中的每个词都标上一个合适的词性过程:原文:这件事情在理论界、经济界引起了很大反响。分词后:这件事情在理论界、经济界引起了很大反响。词性标注:这/r件/q事情/n在/p理论界/n、/w经济界/n引起/v了/u很/d大/a反响/n。/w词性标注中的信息源邻接词的词性信息词本身提供的信息2020/5/304词性标注概述(cont.)词性标注的主要方法基于规则的方法(Rule-based)基于统计的方法(Statistics-based)基于转换的方法(Transformation-based)词性标注准确率训练数据量标注集合语料库差别未登录词2020/5/305隐马尔可夫模型(HMM)概述HMM的两个假设:有限视野假设P(Ot+1=Sk|O1,…Ot)=P(Ot+1=Sk|Ot)时间不变性假设P(Ot+1=Sk|Ot)=P(O2=Sk|O1)2020/5/306隐马尔可夫模型概述(cont.)HMM模型:λ=(A,B,π)S是状态集:S=(S1,S2,…SN)V是观察集:V=(V1,V2,…VM)状态序列:Q=q1q2…qT(隐藏),观察序列:O=o1o2…oT(可见)A是状态转移概率分布:A=[aij],aij=P(qt=sj|qt-1=si)(满足假设1)B是观察值生成概率分布:B=[bj(vk)],bj(vk)=P(ot=vk|qt=si)(满足假设2)初始观察值概率分布:π=[πi],πi=P(q1=si)2020/5/307隐马尔可夫模型概述(cont..)隐马尔可夫模型的基本问题给定一个模型λ=(A,B,π),怎样有效的计算某个观测序列发生的概率,即P(O|λ)。(模型拟合程度)给定观测序列O和模型λ,怎样选择一个状态序列q1q2…qT,以便能够最好的解释观测序列,这个过程通常也被称为译码。(标注过程)给定观测序列O,以及通过改变模型λ=(A,B,π)的参数而得到的模型空间,怎样才能找到一个最好的解释这个观测序列的模型。(模型训练过程)2020/5/308隐马尔可夫模型概述(cont...)Viterbi算法:s1s2sisNs1s2sisNs1s2sjsNs1s2sisNa1ja2jaijaNj2020/5/309实验介绍实验语料库简介人民日报标注语料库199801~199806共含有标注42个,单词130274个实验建模S:预先定义的词性标注集(42个标注)V:文本中的词汇(130274个词)A:词性之间的转移概率B:某个词性生成某个词的概率例,P(我|“代词”)π:初始概率2020/5/3010实验介绍(cont.)模型训练最大似然估计法实验相关问题数据稀疏问题稀疏矩阵未登录词和概率平滑留出相应的概率空间i,jA(i,j)=i标注连续出现的次数标注出现的次数wiB(i,w)i单词被标记为标注的次数标注出现的次数2020/5/3011实验结果和分析整体实验用199801~199805作为训练语料库,标注199806的结果如下:待标注总数:1,244,415正确标注数:1,167,314错误标注数:77,101标注正确率:0.938042未登录词数:17,071部分标注的结果:标注正确数错误数标注准确率b85686750.92697c2753017830.93917d5174430480.944372020/5/3012实验结果和分析(cont.)Ag2461580.60891an222211420.66052Dg50520.49020e1880.69231结论:训练库中标注出现次数对结果有很大影响小样本实验然而/c,/w由于/c历史/n的/u原因/n,/w其/r在/p机制/n方面/n的/u种种/q弊端/n日益/d显露/v,/w已/d越来越/d不/d适应/v社会主义/n市场经济/n的/u要求/n。/w2020/5/3013实验结果和分析(cont..)错误:“由于”的介词词性p错误标成了连词词性c。分析:跟踪发现“由于”的前一个词“,”只能被标为w。根据Viterbi算法,下面将计算由w到下一词性并发射单词“由于”的概率。“由于”的可能词性有三个,分别是p、c、d,相关概率的对数值如下:w:-11.3986w-p:-2.5839w-c:-2.8842w-d:-2.6353p-由于:-5.3571c-由于:-4.6158d-由于:-11.7821p:-19.3397c:-18.8987d:-25.8160结论:遇到概率差小于某个常数临界值的时候,可以考虑用一些其它的方法(如简单规则等)进行判定。2020/5/3014总结总体来讲,隐马尔可夫模型词性标注器可以达到较好的效果,但是对词性标注任务来说,任何一点性能的提升都是对后续工作的大力支持。长距离依赖问题和偏置问题。目前在研究中的最大熵隐马模型(MEMMs),条件随机场模型(CRFs)等模型都能在一定程度上解决词性标注的问题,他们与隐马尔可夫模型之间的联系以及几种模型的联合也是本文后续研究学习的方向。2020/5/3015谢谢!
本文标题:南大版论文答辩PPT
链接地址:https://www.777doc.com/doc-5634529 .html