您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 基于条件随机场的中文产品名自动识别方法Methodfor
基于条件随机场的中文产品名自动识别方法*黄利科1,2,刘群1(1.中国科学院计算技术研究所智能信息处理重点实验室,北京100080;2.中国科学院研究生院,北京100049)摘要:信息化的发展对中文自然语言处理技术提出了更高的要求,从而使产品名实体识别逐渐成为一个新的研究方向。.本文提出了一种基于条件随机场模型的中文产品名自动识别方法,在电子和数码领域语料上取得了较好的效果,表明了该方法的有效性。关键词:产品名识别条件随机场中图法分类号:TP391文献标识码:AMethodforChineseProductNameRecognitionBasedonConditionalRandomFieldsHuangLike1,2,LiuQun1(1.KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,CAS,Beijing100080,China;2.GraduateUniversityofChineseAcademyofSciences,Beijing100049,China)Abstract:Withthedevelopmentofinformationsociety,therecognitionofproductnamedhasbeenbecominganewresearchfield,thispaperpresentedanautomaticrecognitionmathodbesedonconditionalrandomfields.Promisingexperimentalresultsoncorpusaboutdigitalproductindicatesitseffectivity.Keywords:ProductNameRecognition;ConditionalRandomFields0引言命名实体识别对于很多自然语言处理领域的任务,如信息抽取,信息检索和自动文摘等而言,作为许多工作的基础,是一项非常重要的技术。总体来说,经过较长一段时间的努力,当前的中文命名实体识别方面的研究已经有了很大的进展,但是目前该领域内的工作,主要集中于对人名(PER)、地名(LOC)、机构名(ORG),时间(TIME),日期(DATE)、数量(NUM)等几种常规命名实体的研究。近年来,随着信息化的不断深入发展,各类自然语言处理方面的任务也是日新月异,这对命名实体识别也提出了更高的要求,这使我们意识到,仅靠常规命名实体识别已难以满足诸如信息提取等方面的要求。产品名作为文本类信息中一种常见的实体形式,随着人们对信息获取粒度的要求不断提高,正引起人们越来越多的关注。本文对产品命名实体识别的任务进行了定义和分析,在此基础之上,提出了一种基于条件随机场(ConditionalRandomFields,CRF)统计机器学习模型的产品命名实体识别方法,在这一研究方向上进行了有效的探索。1.相关工作相对与常规命名实体识别任务来说,产品名实体识别仍----------------------------------------收稿日期:2007-4-24;返修日期:基金项目:国家自然科学基金资助项目(60603095,60573188)是一个比较新颖、迄今为止较少有人涉足的研究领域。就可查阅到的资料来看,当前国内外仅有为数不多的工作涉及这一课题。[JMPierre,2002]提出了一种在对文档集合进行自动文本分类的基础之上利用数据挖掘技术从中获取知识信息的方法,并在较大规模的英文产品评测类文档集合上进行了性能测试,简单布尔分类器的使用,使系统性能受到较大限制。[C.Niuetal.,2003]利用自举(bootstrapping)的、训练两个连续学习器的方法进行了多种命名实体在内的实体识别,在产品名方面,涉及英文的轿车,卡车,飞机以及计算机等多种类型,最终在该方向上取得69.81%的F值。[E.Bick,2004]用基于约束语法的解析器(constraintgrammerbasedparser)进行丹麦语的产品名命名实体识别,移植性较差。相比于英文方面已有的工作,中文命名实体识别方面的研究工作起步较晚,目前的主流识别方法以统计学习为主,多种方法趋于融合的方法。[F.Liu,etal,2005]将中文产品名实体定义为包含以下确定性信息的名词结构:(1)含有产品品牌或者型号实体任何一个或两个;(2)尽管没有含有品牌或者型号信息,但是含有某种品牌所特有的产品系列或者版本信息。并利用基于层级隐马尔科夫模型的统计模型进行中文数码和手机类文档上的产品名识别研究。由于隐马尔可夫模型是一种产生性(generative)模型,这种模型本身存在一些固有的缺陷与不足:在产生性模型中,为了保证推导的正确性,需要做出严格的独立性假设,而实际中的大多数数据序列都不能被表示成一系列相互独立的元素。2.任务分析与界定对于产品名实体的识别是一个较为新颖的研究课题,对这一任务目前尚无统一权威的定义。产品名在日常生活、商业、金融等领域应用十分广泛,但它又不同于平常所说的几种常规命名实体,是一类相对比较特殊的命名实体,因此很难给产品名实体下一个很确切的定义,产品名实体并不是泛化的一类“产品”,比如“手机”、“数码相机”这类词语不见得一定可以构成产品名,本文研究的产品名实体是大致具有以下特点的名词性结构:(1)在句中充当产品的语义角色;(2)具有完整的句法结构;(3)含有确定产品信息:我们将品牌、型号和产品类别视作产品名的三个基本要素,是产品名的常规组成部分。与[F.Liu,2005]相同,本文将研究的重点放在对产品实体(PRO)、品牌实体(BRA)和型号实体(TYP)的识别上,但是品牌实体和型号实体必须嵌套出现在产品实体之内,如:[白色版诺基亚/BRA5300/TYP音乐手机]/PRO单独出现的品牌由于不能视作产品名称,因而不在考虑的范围之内。产品名识别与常规命名实体识别相比有相似之处,但又具有自身的特点:(1)现有的命名实体识别研究一般不考虑产品名识别,个别研究者曾经提及但也没有涉及相应的识别策略,尤其是非结构化文本中的产品名识别,所以这方面基础相对较弱;(2)标注有产品名信息的相关语料库资源相当缺乏,是统计模型应用的瓶颈之一;(3)产品名不像人名、地名、机构名那样存在一些特定的特征词或者线索词,比如:“区”、“市”、“街”、“公司”等,可以提供很好的指导信息;(4)组成产品品牌的汉字非常灵活,不像人名,尤其是姓氏,有一定的限定范围和可遵循的规律;(5)边界歧义:产品名字不像常规命名实体一样有着比较明确的边界,人来判断也会出现不小的偏差;例:具有时尚设计的便携式播放器NOMADMuVo2(1.5G)……上例中“便携式播放器”和“(1.5G)”不论进入产品名与否都具有合理的解释。(6)品牌词功能歧义:比较常见的就是品牌词在句子有时作为一个品牌构成一个产品名,也可以单独作为一个公司名,还有些情况二者边界很难区分。例:爱国者近期推出;摩托罗拉v70;三星一直是以屏幕与铃声决胜市场……对于产品名实体的识别,我们需要同时考虑到对边界的识别和分类的结果,为此,我们把产品名实体中的每一类成分都细分为两种类别:即实体开始部分(记作B-X)和实体的延长继续部分(记作I-X);由于品牌实体和型号实体作为产品实体的一个成分出现,产品实体内部的词语可能充当多种成分,如既是PRO的开始部分,又是BRA的开始部分,对于这种词语,我们标记作“B-PRO|B-BRA”,以与产品名内部那些表示品牌和型号以外的、起修饰成分的词语区分开来。因此,加上一个其它非产品名实体类别,系统标记集L中共有9种标记,定义如下:L={B-PRO,B-PRO|B-BRA,B-PRO|B-TYP,I-PRO,I-PRO|B-BRA,I-PRO|I-BRA,I-PRO|B-TYP,I-PRO|I-TYP}设观测序列为1{,,|,(1,,)}niXxxxDin=Λ∈=Λ,其中D为包含各词条词性信息的系统词典;输出标记序列为且|L|=91{,,|,(1,,)}niYyyyLin=Λ∈=Λ识别的目标是在给定X的情况下,找出满足如下条件的Y:argmax(|)YYpY=X(1)即,我们的具体任务就是对输入输出的关系建模,求解条件概率P(X|Y).3.基于条件随机场的产品名识别3.1条件随机场条件随机场(CRF)模型最早是由Lafferty和McCallum在2001年提出,是一种用于在给定输入结点值时计算指定输出结点值的条件概率的无向图模型。假定D是一个值可以被观察的“输入”随机变量集合,是一个值能够被模型预测的“输出”随机变量的集合,且这些输出随机变量之间通过表示依赖关系的无向边连接起来。如果用C(S,O)表示这个图中的团的集合,CRF将输出随机变量值的条件概率定义为与无向图中各个团的势函数(potentialfunction)的乘积成正比:(,)1(|)(,)AccccCsooPsosoZ∈=Φ∏(2)其中,Φc(sc,oc)表示团c的势函数。当图形模型中的各输出结点被连接成一条线性链的特殊情形时,CRF假设在各个输出结点之间存在一阶马尔可夫独立性,二阶或更高阶的模型可以按照类似的方法扩展。若让O=(O1,O2,…,OT)表示被观察的输入数据序列,让S=(S1,S2,…,ST)表示一个状态序列,在给定一个输入序列的情况下,线性链的CRF定义状态序列的条件概率为:1111(|)exp((,,,))TKAkktkottPsofssotZλ−===∑∑(3)其中,f是一个任意的特征函数,λ是每个特征函数的权值,归一化因子为:011exp((,,,))TkkttstkZfssotλ−==∑∑∑(4)条件随机场模型不同于产生式模型,它可以使用丰富的、彼此重叠的观察序列的特征,而且不需要很严格的前提假设;同时,不同于最大熵马尔科夫模型等概率模型,它不是对单个标记归一化之后再进行全局搜索,而是在整个观测序列上求解一个最优的标记序列,避免了标记偏见问题。因此,条件随机场模型本身非常适用于中文命名实体识别等这样的任务。3.2特征抽取条件随机场模型可以利用丰富的、彼此重叠的特征,所以,在应用中一个非常重要的问题就是如何针对特定的任务为模型选择合适的特征集合,以用这样的特征集合去表示复杂的语言现象。相对于隐马模型只能利用中心词的前n个词作为上下文信息的弱点,条件随机场模型能够同时使用中心词的前n个词和后m个词作为该词的上下文信息,这样,中心词的的最终标记不仅与前面词语的信息相关,还与其后的词语相关,更加贴近实际情况。针对中文产品名实体识别,我们设置了大小为5的上下文观察窗口,对于平行输入的词形和词性两类信息,分别应用以下几种特征模板及特征函数进行特征抽取:1)yi,X,i:考虑当前状态,定义特征函数如下:f(yi,X,i)=log(P(yi|xi))(5)2)yi-1,yi:考虑状态迁移,定义特征函数如下:f(yi-1,yi)=log(P(yi|yi-1))(6)3)yi-1,yi,X,i:考虑当前状态和前一个状态,定义特征函数如下:f(yi-1,yi,X,i)=log(P(yi|yi-1))(7)4)yi-2,yi-1,yi,X,i:考虑当前状态和前两个状态,定义特征函数如下:f(yi-2,yi-1,yi,X,i)=log(P(yi|yi-2,yi-1,xi))(8)5)yi,xj(j=i-2,i-1,i+1,i+2):考虑当前状态和xj,定义特征函数如下:f(yi,xj)=log(P(yi|xj))(9)6)yi,xj,xj+1(j=i-2,i-1,i+1,i+2):考虑当前状态和xj,xj+1,定义特征函数如下:f(yi,xj,xj+1)=log(P(yi|xj,xj+1))(10)7)yi,xi-1,xi,xi+1:考虑当前状态和xi-1,xi,xi+1,定义特征函数如下:f(yi,xi-1,xi,xi+1)=log(P(yi|xi-1,xi,x
本文标题:基于条件随机场的中文产品名自动识别方法Methodfor
链接地址:https://www.777doc.com/doc-485990 .html