您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 标注适应:以中文分词和依存分析为例
标注适应以词法分析和句法分析为例姜文斌中国科学院计算技术研究所2014年6月背景•对于同一个自然语言处理任务,往往存在多个不同风格的人工标注语料库背景•对于同一个自然语言处理任务,往往存在多个不同风格的人工标注语料库•汉语分词•句法分析宾州树库人民日报语义依存树库宾州树库提纲•问题定义•示例任务•解决方案•实验4标注适应•自动适应不同的标注标准,实现语料库知识的融合或转换标注适应•自动适应不同的标注标准,实现语料库知识的融合或转换•两种视角–融合:将不同标注标准的语料库中所含的知识融合起来–转换:将一种标注标准的语料库的知识转换为另一标准标注适应•标注适应可视为一种特定的迁移学习任务•源任务和目标任务相似但不相同–源任务和目标任务的标注机制相同(依存分析:都是标注依存边)–但是两个任务的预测函数不同(依存vs语义依存:标注风格不同)•将源标注标准的预测函数适应到目标标注标准的数据•大致归类于关系知识适应问题的范畴标注适应vs领域适应•两者都可以视为迁移学习类问题•一个概率化的解释–设X是数据,Y是标注–标注适应:P(X)因领域变化而变化,而P(Y)是假定不变的–领域适应:P(Y)因标注标准变化而变化,而P(X)假定不变•标注适应和领域适应都广泛存在–标注适应:不同的知识来源–领域适应:不同的应用场景–联合标注与领域适应:知识来源&应用场景例:新闻领域的依存树库,用以改进口语领域的语义分析提纲•问题定义•示例任务•解决方案•实验9词语切分•词语切分是没有显式词语边界的亚洲语言的基础任务–汉语,日语,泰语,藏语…•给定由n个字符组成的句子,词语切分任务是将这n个字符构成的序列切分为m个子序列•汉语词语切分示例美副总统访华美副总统访华字符分类方法•词语切分可以建模为字符分类问题(XueandShen,2003)•每个字符被分类为以下四个标签之一–B:该字是词的开始字符–M:该字是词的中间字符–E:该字是词的结尾字符–S:该字本身独立成词•从标签序列到分词结果美/S副/B总/M统/E访/S华/S美副总统访华解码•给字符序列构成的语句,解码器将搜索是如下评分函数最高的输出:•动态规划Viterbi搜索用以寻找最优路径featuresweightsx:语句y:切分结果xi:字符yi:标签特征类型模板实例N元组C-2C-2=美C-1C-1=副C0C0=总C1C1=统C2C2=访C-2C-1C-2C-1=美副C-1C0C-1C0=副总C0C1C0C1=总统C1C2C1C2=统访C-1C1C-1C1=副统函数Pu(C0)Pu(C0)=trueT(C-2:2)T(C-2:2)=4444仅考虑局部特征1.当前字符周围特定窗口内的字符元组2.定义字符属性的函数美副总统访华C0依存分析•依存分析意在将句子中的每个词连接到其中心词,并将整个句子构成一棵依存树–每个词仅依存于一个中心词–所有词都找到其中心词•依存树通常都假设是投射性(projective)的–将树中的词语以线性排列,则所有依存边可以无交叉的排放在词语上面•依存分析示例中国对外开放成绩斐然生成树方法•基于依存边的因子化方法(Collins1996,Eisner1996)–依存树的分数可以因子化到树中的每一条边•生成树方法(McDonald,Crammer,andPereira2005)–依存树的分数为树中边的分数之和–依存分析意在寻找具有最高分数的生成树•假设句子中任意两个词均可能存在依存关系,只是概率不同–全联通依存图:权重为依存边的概率–有向图的最大生成树问题解码•给定词/词性标记序列构成的句子,解码过程寻找使得如下得分函数最高的候选生成树:•用生成树算法寻找得分最高的依存树weightsfeaturesx:句子y:分析结果(i,j):树中依存边特征17类型模板类型模板一元组WiPi上下文PiPi+1Pj-1PjWiPi-1PiPj-1PjPiPiPi+1PjPj+1WjPjPi-1PiPjPj+1WjPi-1PiPj-1PjPi-1PiPj+1二元组WiPiWjPjPiPi+1Pj-1WiWjPjPiPi+1Pj+1PiWjPjPi-1Pj-1PjWiPiWjPi-1PjPj+1WiPiPjPi+1Pj-1PjWiWjPi+1PjPj+1WiPjPiPj-1PjPiWjPiPjPj+1PiPjPi-1PiPjPiPi+1Pj仅使用局部特征1.中心词/修饰符的词/词性元组2.中心词/修饰符的上下文词性元组中国对外开放成绩斐然WiWj提纲•问题定义•示例任务•解决方案•实验18转换分类器•转换分类器用以将一种标注转换为另一种标注–转换分类器在平行标注语料上训练–平行标注语料是一个语料带有两套平行的标注•转换分类器的训练:–以目标标注作为学习目标–以源标注作为指导信息P(targetannotation|input,sourceannotation)转换分类器•不幸的是,带有正确标注的平行标注语料通常是不存在的–标注代价高昂•自动地构建一个有噪声的平行标注语料–在一个语料库上训练分类器–用此分类器处理另一个语料库转换分类器•不幸的是,带有正确标注的平行标注语料通常是不存在的–标注代价高昂•自动地构建一个有噪声的平行标注语料–在一个语料库上训练分类器–用此分类器处理另一个语料库sourcecorpustrainwithnormalfeaturessourceclassifier转换分类器•不幸的是,带有正确标注的平行标注语料通常是不存在的–标注代价高昂•自动地构建一个有噪声的平行标注语料–在一个语料库上训练分类器–用此分类器处理另一个语料库sourcecorpustrainwithnormalfeaturessourceclassifiertargetcorpustransformedtargetcorpus转换分类器•不幸的是,带有正确标注的平行标注语料通常是不存在的–标注代价高昂•自动地构建一个有噪声的平行标注语料–在一个语料库上训练分类器–用此分类器处理另一个语料库sourcecorpustrainwithnormalfeaturessourceclassifiertargetcorpustransformedtargetcorpustrainwithguidingfeaturestransferclassifier转换分类器•不幸的是,带有正确标注的平行标注语料通常是不存在的–标注代价高昂•自动地构建一个有噪声的平行标注语料–在一个语料库上训练分类器–用此分类器处理另一个语料库sourcecorpustrainwithnormalfeaturessourceclassifiertargetcorpustransformedtargetcorpustrainwithguidingfeaturestransferclassifier围绕数据降噪,提出一系列递进的模型模型1:标注整合•转换分类器和基线分类器以级联的方式工作模型1:标注整合•转换分类器和基线分类器以级联的方式工作rawsentenceresultwithsourceguidelinesourceclassifier模型1:标注整合•转换分类器和基线分类器以级联的方式工作transferclassifierrawsentenceresultwithsourceguidelinesourceclassifierresultwithtargetguideline模型1:标注整合•转换分类器和基线分类器以级联的方式工作transferclassifierrawsentenceresultwithsourceguidelinesourceclassifierresultwithtargetguideline在线知识整合优点:-简单有效-源分类器可以是未知的黑箱缺点:-需要两遍扫描-难以整合多余两个的语料库模型2:标注转换•转换分类器以目标语料库标注标准重新标注源语料库模型2:标注转换•转换分类器以目标语料库标注标准重新标注源语料库sourcecorpustransferclassifiertransformedsourcecorpus模型2:标注转换•转换分类器以目标语料库标注标准重新标注源语料库sourcecorpustransferclassifiertransformedsourcecorpustargetcorpustrainwithnormalfeaturesfinalclassifier模型2:标注转换•转换分类器以目标语料库标注标准重新标注源语料库sourcecorpustransferclassifiertransformedsourcecorpustargetcorpustrainwithnormalfeaturesfinalclassifier离线知识融合优点:-仅需一遍解码-易于整合多个语料库缺点:-必须有源语料库模型3:优化标注转换•在模型2基础上引入两项优化策略–迭代训练:在每轮训练过程中,源到目标的转换和目标到源的转换都将进行,转换后的语料库为下一轮训练提供更好地平行标注语料库模型3:优化标注转换•在模型2基础上引入两项优化策略–迭代训练:在每轮训练过程中,源到目标的转换和目标到源的转换都将进行,转换后的语料库为下一轮训练提供更好地平行标注语料库targetcorpustransformedtargetcorpustrainwithguidingfeaturestransferclassifiertransformedsourcecorpussourcecorpustrainwithguidingfeaturestransferclassifier模型3:优化标注转换•在模型2基础上引入两项优化策略–迭代训练:在每轮训练过程中,源到目标的转换和目标到源的转换都将进行,转换后的语料库为下一轮训练提供更好地平行标注语料库targetcorpustransformedtargetcorpustrainwithguidingfeaturestransferclassifiertransformedsourcecorpussourcecorpustrainwithguidingfeaturestransferclassifiersourcecorpustargetcorpus模型3:优化标注转换•在模型2基础上引入两项优化策略–自预测:如果一个预测结果能够较容易地反向转换为原始的输入,那么该预测结果将是一个较好的结果),,|(),,|()1(),,,|(xMySxMySxMMySsttsstts模型3:优化标注转换•在模型2基础上引入两项优化策略–自预测:如果一个预测结果能够较容易地反向转换为原始的输入,那么该预测结果将是一个较好的结果•有着广泛应用的假设–无参考译文的翻译质量评估:如果一个译文能更好地反向翻译为原始输入,它更可能是一个较好的译文–学习词语表示向量),,|(),,|()1(),,,|(xMySxMySxMMySsttssttse.g.学习词表示向量提纲•问题定义•示例任务•解决方案•实验38汉语分词实验设置•目标语料库:宾州树库5.0•源语料库:人民日报语料库•分类器:平均感知机•评价指标:平衡F值F-measure=2PR/(P+R)PartitionSections#ofwordPennChineseTreebank(CTB)Training1-2700.47M400-9311001-1151Developing301-3256.66KTest271-3007.82KPeople’sDaily(PD)Training02-065.86MTest011.07M依存分析实验设置•目标语料库:哈工大语义依存树库•源语料库:宾州树库5.0•分类器:平均感知机•评价指标:依存准确率正确找到中心词的词语的比例PartitionSections#ofwordSemanticDependencyTreebank(SDT)Training1
本文标题:标注适应:以中文分词和依存分析为例
链接地址:https://www.777doc.com/doc-6203115 .html