您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 基于隐马尔科夫模型的命名实体识别
基于马尔科夫模型的命名实体识别NE识别的数学描述利用HMM解决序列标注问题,即给定一个观察值的序列1,(|)()nPYXpx12n={xxx}X,,,要寻找一个最优的标记序列12{y,,}nYyy,使得条件概率最大。根据贝叶斯公式可得:在NE识别问题中,X是给定的句子,观察值为词性或词,则上式中P(X)对所有的类别都是一样的,因此可以忽略不考虑。则上面的公式可以转化为下面的形式:即HMM实质式求解一个联合概率。上式中的标记序列Y可以看做是一个马尔科夫链,则对上式利用乘法公式有:基于HMM的NE识别的问题就是如何在给定的模型下,从一定观察值序列的所有可能的状态下,选取最有的标记序列。常用的方法是viterbi算法,它属于动态规划算法,动态规划的思想是把问题分解,先解决最基本的子问题,再逐步外推寻找更大的子问题的最优解,在有限步后达到整个问题的最优解,即得到最有的NE标记序列隐马尔科夫模型观察到的事件是状态的随机函数,该模型是一个双重的随机过程,其中模型的状态转换过程是不可观察的。可观察的事件的随机过程是隐藏的状态转换过程的随机函数。形式化的描述为一个五元组。1.S表示模型中的状态,N是模型的状态数。所有独立的状态定义为,且用来表示t时刻的状态。2.O表示每个状态的观察值,M表示每个状态上对应的可能的观察值的数目。观察值对应于模型系统的实际输出,观察值记为:3.状态转移概率矩阵,其中,1=i,j=N,表示从状态i转移到状态j的概率,满足:=0,;且。4.输出观察值概率分布矩阵,其中表示在状态下,t时刻出现的概率,即,1=j=N,1=k=M.5.初始状态分布向量,其中,即在t=1时刻处于状态的概率,满足:。HMM模型需解决的三个问题:(1)评估问题。给定一个观察序列,以及模型,如何有效的计算,也就是这个观测序列有多大可能是由该模型产生的;(2)解码问题。给定观测序列以及模型,如何选择一个状态序列,使得观测序列O式最具可能的,即求解;(3)学习问题。如何能够通过调整参数以最大化ICTCLAS分词的词性列表1.名词(1个一类,7个二类,5个三类)名词分为以下子类:n名词nr人名nr1汉语姓氏nr2汉语名字nrj日语人名nrf音译人名ns地名nsf音译地名nt机构团体名nz其它专名nl名词性惯用语ng名词性语素2.时间词(1个一类,1个二类)t时间词tg时间词性语素3.处所词(1个一类)s处所词4.方位词(1个一类)f方位词5.动词(1个一类,9个二类)v动词vd副动词vn名动词vshi动词“是”vyou动词“有”vf趋向动词vx形式动词vi不及物动词(内动词)vl动词性惯用语vg动词性语素6.形容词(1个一类,4个二类)a形容词ad副形词an名形词ag形容词性语素al形容词性惯用语7.区别词(1个一类,2个二类)b区别词bl区别词性惯用语8.状态词(1个一类)z状态词9.代词(1个一类,4个二类,6个三类)r代词rr人称代词rz指示代词rzt时间指示代词rzs处所指示代词rzv谓词性指示代词ry疑问代词ryt时间疑问代词rys处所疑问代词ryv谓词性疑问代词rg代词性语素10.数词(1个一类,1个二类)m数词mq数量词11.量词(1个一类,2个二类)q量词qv动量词qt时量词12.副词(1个一类)d副词13.介词(1个一类,2个二类)p介词pba介词“把”pbei介词“被”14.连词(1个一类,1个二类)c连词cc并列连词15.助词(1个一类,15个二类)u助词uzhe着ule了喽uguo过ude1的底ude2地ude3得usuo所udeng等等等云云uyy一样一般似的般udh的话uls来讲来说而言说来uzhi之ulian连(“连小学生都会”)16.叹词(1个一类)e叹词17.语气词(1个一类)y语气词(deleteyg)18.拟声词(1个一类)o拟声词19.前缀(1个一类)h前缀20.后缀(1个一类)k后缀21.字符串(1个一类,2个二类)x字符串xx非语素字xu网址URL22.标点符号(1个一类,16个二类)w标点符号wkz左括号,全角:(〔[{《【〖〈半角:([{wky右括号,全角:)〕]}》】〗〉半角:)]{wyz左引号,全角:“‘『wyy右引号,全角:”’』wj句号,全角:。ww问号,全角:?半角:?wt叹号,全角:!半角:!wd逗号,全角:,半角:,wf分号,全角:;半角:;wn顿号,全角:、wm冒号,全角::半角::ws省略号,全角:………wp破折号,全角:——--——-半角:-------wb百分号千分号,全角:%‰半角:%wh单位符号,全角:¥$£°℃半角:$
本文标题:基于隐马尔科夫模型的命名实体识别
链接地址:https://www.777doc.com/doc-2576975 .html