您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 刘群-面向自然语言处理的中文语言资源建设概述(刘群)
面向自然语言处理的中文语言资源建设概述刘群国家语言资源监测与研究中心暨平面媒体分中心成立五周年纪念学术会议2009.09.11目录•现有中文语言资源的简单梳理•中文语言资源与自然语言处理的关系•中文语言资源建设的建议•总结本报告仅从自然语言处理角度看语言资源,由于本人语言学知识有限,观点难免偏颇甚至偏激,欢迎各位专家批评指正!现有中文语言资源的梳理•词典–词表:可以带拼音、带概率•各种拼音词表–搜狐拼音每日更新网络新词!•Google中文n-gram数据(1-5元,数据量极大)–语法词典•北京大学语法信息词典–语义词典:•同义词典:类WordNet(CCD)、同义词词林•语义关系词典:HowNet、北大语义词典、FrameNet现有中文语言资源的梳理•语料库–单语语料库•原始语料库:纯文本、网页、分类、历时、共时•切分与词性标注语料库:–北大语料库–语用所语料库•命名实体标注语料库•词义标注语料库•句法树库–宾州树库–清华树库•语义角色标记语料库–PropBank现有中文语言资源的梳理•语料库–可比语料库–平行语料库•篇章对齐•句子对齐•词语对齐•带句法树的句子对齐目录•现有中文语言资源的简单梳理•中文语言资源与自然语言处理的关系–语言资源对自然语言技术的推动–自然语言处理技术对语言资源建设的需求–存在的问题•中文语言资源建设的建议•总结语言资源对自然语言技术的推动•中文分词、词性标注、命名实体识别等技术的巨大进展完全得益于大规模词语切分与词性标注语料库的开发•中文句法分析技术的进步也得益于中文树库的开发•机器翻译技术的进步没有大量的双语语料库支持是不可想象的•最简单的生语料库可以用于训练大规模语言模型,这对机器翻译、语音识别、信息检索等技术都是不可或缺的自然语言处理技术对语言资源建设的需求•中文句法分析系统和语义角色标注系统比同等规模树库下训练的英文系统性能要低10%左右,是否有合适的语言资源能够帮助提高中文句法分析的准确率?•中英文机器翻译系统比同等规模双语语料库下训练的阿英系统性能低15%左右的BLEU值,是否有合适的语言资源能够帮助提高中英文句法分析的准确率?这是两个可以称为“硬骨头”的问题,也是最核心的问题。现有对英语适用的各种方法都已用尽,对汉语来说性能远低于英语,现在我们需要考虑,是汉语本身就这么难,还是我们对汉语的理解不够深刻?存在的问题•语言资源建设与自然语言处理技术的脱节–现有语言资源没有得到充分利用•语法信息词典•HowNet–大规模语言资源建设缺乏系统的语言学知识的指导,在语言资源的构架设计上不能满足自然语言处理的需求•句法树库的构建以计算机专家为主,语言学家没有发挥足够的指导作用•解决一些汉语特有的问题缺乏语料库支持–承前省略问题•单子结点:宾州树库有大量单子结点,反映的是标杆理论的要求宾州树库vs.清华树库宾州树库vs.清华树库•单子结点:清华树库只有独立成分结点(dlc)有单子节点情况•把字句:宾州树库宾州树库vs.清华树库•把字句:清华树库宾州树库vs.清华树库•宾州树库:有虚结点•清华树库:无需结点宾州树库vs.清华树库宾州树库vs.清华树库•清华树库:多中心词•宾州树库:无中心词,但句法分析中通常转换成单中心词形式宾州树库vs.清华树库•小结–宾州树库有非常成熟的语言学理论支撑,信息比较丰富–清华树库在某些方面有自己的特色(如多中心成分),但总体上语言学理论支持不够,只标注了必要的句子层次结构和短语标记,信息量较少汉语承前省略现象她弯着腰, 看看田里的水正合适, 不必再从河里车水进来。 又看看她手种的稻子, 全很壮实, 摸摸稻穗, 沉甸甸的。 再看看那稻草人, 帽子依旧戴得很正, 扇子依旧拿在手里, 摇动着, 发出啪啪的声音; 并且依旧站得很好, 直挺挺的, 位置没有动, 样子也跟以前一模一样。例子引自宋柔老师指导的张瑞朋博士论文《现代汉语书面语中跨标点句句法关系约束条件的研究》承前省略构成一种独特的树结构,这种结构不同于句法结构,但对于汉语的理解具有重要的作用发现了问题,但缺乏足够规模的语料库支持,无法开展相关的研究工作目录•现有中文语言资源的简单梳理•中文语言资源与自然语言处理的关系•中文语言资源建设的建议•总结中文语言资源建设的建议在大规模语料库建设过程中,语言学家和计算机专家要密切配合,使得语料库能够为中文自然语言处理技术的进步起到最大的推动作用对计算机专家的建议•应多语言现象和问题,避免流于纯粹的统计工具和编程技巧的玩弄与炫耀;•应多考虑汉语本身的特点,研究汉语本身的问题,而不应仅仅是将英语中成功使用的技术简单在汉语中套用。对语言学家的建议•语言学理论应通过大规模语料库来体现,而不仅仅用对个别语言现象来验证:–短语本位–字本位–小句中枢–配价理论–HNC–……•语言学家最好能多了解一些目前自然语言处理技术进展的现状和难点,并通过建设相应的语言资源来协助解决自然语言处理的关键问题和难点问题。一个大胆的建议:语言学擂台•目标:提高汉语句法分析准确率•评测指标:括号准确率和召回率•评测方法:–指定原始语料库和测试语料库–语言学家和计算机专家分成若干组,在不同的语言学理论指导下构造相应的语料库,并利用相应的语料库研制最有效的句法分析算法–通过评测确定哪一种语言学理论最有利于实现最高性能的汉语句法分析语言学擂台vs.技术评测与语言学理论无关语言学家和计算机专家语言学和算法原始数据语言学擂台算法比较内容计算机专家参加人员已标注数据训练语料测试指标与语言学理论相关技术评测语言学擂台:一点解释•设立语言学擂台的目的是寻找适合于解决汉语分析问题的合适的语言学理论,希望能够突破汉语句法分析技术的瓶颈•语言学擂台可以从一个侧面说明某种语言学理论是否合符汉语语言的规律以及对汉语语言现象刻画的细致程度•语言学擂台可以认为是评价语言学理论的工程性标准,这只能作为标准之一,但不是唯一标准,甚至不是最重要的标准。目录•现有中文语言资源的简单梳理•中文语言资源与自然语言处理的关系•中文语言资源建设的建议•总结总结•现有中文语言资源概述•语言资源建设和自然语言处理的关系–语言资源推动了自然语言处理–自然语言处理需要更好的语言资源–语言资源建设和自然语言处理还存在脱节现象•对语言资源建设的建议–语言学家和计算机专家更密切的合作–一个大胆的建议:语言学擂台谢谢!
本文标题:刘群-面向自然语言处理的中文语言资源建设概述(刘群)
链接地址:https://www.777doc.com/doc-4578505 .html