您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 薪酬管理 > 自然语言理解(04)语料库语言学
No.95,ZhongguancunEastRoadBeijing100080,China:+86-10-62554263自然语言理解第四章语料库与词汇知识库宗成庆中科院自动化研究所模式识别国家重点实验室cqzong@nlpr.ia.ac.cn第四章语料库与词汇知识库数据库或知识库的用途:•用于机器学习(训练)•用于实际处理NLP中知识库包括:•词汇知识库(词典)•规则库•常识库等4.1概述NLPRNLPR,CAS-IA2020/1/2034.2语料库语言学概述语料库(corpus)就是存放语言材料的仓库(数据库)。语料库语言学(corpuslinguistics)就是基于语料库进行语言学研究的一门学问。两种解释:不是新的术语:利用语料库对语言的某个方面研究。是新的术语:对现行语言学理论批评,提出新理论。一般指前者NLPRNLPR,CAS-IA2020/1/2044.2语料库语言学“语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。”-J.Thomas等人为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十岁生日而出版的语料库语言学研究论文集的开场白。-[丁信善,1998]NLPRNLPR,CAS-IA2020/1/205语料库语言学的定义根据篇章材料对语言的研究称为语料库语言学。-[Aijmer,1991]基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。-[McEnery,1996]以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。-[Crystal,1991]4.2语料库语言学NLPRNLPR,CAS-IA2020/1/206语料库语言学研究的内容:语料库的建设与编纂语料库的加工和管理技术语言研究中语料库的使用语料库语言学在计算语言学中的应用4.2语料库语言学NLPRNLPR,CAS-IA2020/1/207语料库语言学的发展~20世纪50年代中期:早期的语料库语言学语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究4.3语料库技术的发展NLPRNLPR,CAS-IA2020/1/2081957~20世纪80年代初期:沉寂时期1957年Chomsky的《句法理论》及其以后一系列著作的发表,根本改变了语料库语言学的发展状况。Chomsky及其转换生成语法学派批判早期的语料库研究方法:•基于语料库的研究方法有误•语料的不充分性4.3语料库技术的发展NLPRNLPR,CAS-IA2020/1/20920世纪80年代~:复苏与发展时期第二代语料库相继建成:•1983年英国Lancaster大学建成Lancaster-Oslo/BergenCorpus(LOB语料库):研究英国英语,500语篇,每个语篇约2000词。•法国国家科学研究中心与美国芝加哥大学联合建成法语语料库(TremordelaLanguageFrancaise,TLF语料库):2000书面法语文本,1.5亿词。•芬兰赫尔辛基大学建成历史英语语料库(TheHelsinkiCorpusofHistoricalEnglish):850-1720年,1600万词。4.3语料库技术的发展NLPRNLPR,CAS-IA2020/1/2010•1988年伦敦大学建成国际英语语料库(TheInternationalCorpusofEnglish,ICE):语料来自所有英语国家,各100万词,1990-1993年,口语和书面语各一半,18岁以上接受英语教育的成人。基于语料库的研究项目增多1981年至1991年的11年时间里,大约有480个语料研究项目得到资助,而在1959年至1980年20多年的时间里,只有140个基于语料的研究项目。4.3语料库技术的发展NLPRNLPR,CAS-IA2020/1/2011语料库技术复苏的原因1)计算机的迅速发展;2)转换生成语言学派对语料库语言学的批判不都正确(如指责计算机分析语料是伪技术),有的是片面的甚至是错误的(如对语料数据价值的否定)。4.3语料库技术的发展NLPRNLPR,CAS-IA2020/1/2012汉语现代文学作品语料库(1979年,武汉大学,527万字)现代汉语语料库(1983年,北京航空航天大学,2000万字)中学语文教材语料库(1983年,北京师范大学,106万字)现代汉语词频统计语料库(1983年,北京语言学院,182万字)4.4国内语料库研究状况NLPRNLPR,CAS-IA2020/1/20131991年,中国国家语言文字工作委员会开始建立国家级大型汉语语料库,以推进汉语的词法、句法、语义和语用研究,其计划规模将达7000万汉字。北京大学计算语言学研究所从1992年开始现代汉语语料库的多级加工,在语料库建设方面成绩卓著,先后建成2600万字的1998年《人民日报》标注语料库、2000万字汉字,1000多万英语单词的篇章级英汉对照双语语料库、以及8000万字篇章级信息科学与技术领域的语料库等。清华大学于1998年建立了1亿汉字的语料库,着重研究歧义切分问题。4.4国内语料库研究状况NLPRNLPR,CAS-IA2020/1/2014山西大学、哈尔滨工业大学、北京语言文化大学、东北大学、中科院自动化研究所和香港城市大学、台湾中央研究院等相当一批大学和研究机构都对汉语语料库的建设做出了重要贡献。新疆大学、新疆师范大学、内蒙古大学、中国社科院民族研究所和西北民族大学等院所研究和开发我国少数民族语言的语料库。4.4国内语料库研究状况NLPRNLPR,CAS-IA2020/1/2015按内容构成和目的划分异质的(heterogeneous)-[黄昌宁,2002]最简单的语料收集方法,没有事先规定和选材原则同质的(homogeneous)与“异质”正好相反,比如美国的TIPSTER项目只收集军事方面的文本。4.5语料库的类型NLPRNLPR,CAS-IA2020/1/2016系统的(Systematic)充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题。专用的(specialized)如:北美的人文科学语料库4.5语料库的类型NLPRNLPR,CAS-IA2020/1/2017按语言种类划分单语的(已切分的)具有词性标注句法结构信息标注(树库)语义信息标注双语的或多语的篇章对齐/句子对齐/结构对齐两个术语:生语料,熟语料4.5语料库的类型NLPRNLPR,CAS-IA2020/1/2018平衡语料库与平行语料库平衡语料库平衡语料库着重考虑的是语料的代表性与平衡性。语料采集的七项原则:语料的真实性、语料的可靠性、语料的科学性、语料的代表性、语料的权威性、语料的分布性和语料的流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。[张普,2003]4.5语料库的类型NLPRNLPR,CAS-IA2020/1/2019平行语料库两种含义,一种是指在同一种语言的语料上的平行,例如正在建立的“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。另一种平行语料库是指在两种或多种语言之间的平行采样和加工,例如,机器翻译中的双语对齐语料库4.5语料库的类型NLPRNLPR,CAS-IA2020/1/2020共时语料库与历时语料库所谓共时语料库是为了对语言进行共时研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。所谓的历时语料库是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化。4.5语料库的类型NLPRNLPR,CAS-IA2020/1/2021判断历时语料库的4条原则-[张普,2003]是否动态语料库:语料库必须是开放的、动态的。语料库的文本是否具有量化的流通度属性:所有的语料都应来源于大众传媒,都具有采用不同计算方法的与传媒特色相应的流通度属性。其量化的属性值也是动态的。语料库的深加工是否基于动态的加工方法:随着语料的动态采集,语料也应进行动态地加工。是否取得动态的加工结果:语料的加工结果也应是动态的和历时的。4.5语料库的类型NLPRNLPR,CAS-IA2020/1/2022语料库设计需要考虑的问题静态与动态语料库建设的另一种主张是动态的,或监督语料库(monitorcorpus):动态文本集,数据的收集通常是随遇的,而不是平衡的代表性和平衡一个语料库具有代表性,是指在该语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特性。-[Leech,1991]如何达到不同部分之间的平衡?4.6语料库建设中的问题NLPRNLPR,CAS-IA2020/1/2023规模第一代语料库100万词次1990s1000-2000万词次小型的一般语料库一般而言,在保证质量的前提下应足够大。语料库的管理与维护错误修正或改善版本升级语料库的检索系统、分析和处理工具的维护等4.6语料库建设中的问题NLPRNLPR,CAS-IA2020/1/2024汉语语料库开发中存在的问题语料库建设的规范问题信息处理用GB13000.1字符集汉字部件规范1997.12.5国家语委;GB12200.1-90汉语信息处理词汇01部分:基本术语国家技术监督局(1993);GB/T12200.2-94汉语信息处理词汇02部分:汉语和汉字国家技术监督局(1994);GB13715信息处理用现代汉语分词规范。4.6语料库建设中的问题NLPRNLPR,CAS-IA2020/1/2025产权保护和国家语料库建设问题汉语语料库的知识产权包括两个方面:文本的知识产权和语料库的知识产权及其衍生产品。语料库的知识产权却没有得到保护,至今在著作权法、语言文字法、计算机软件保护等相关法规和实施条例中语料库的知识产权都是空白。4.6语料库建设中的问题NLPRNLPR,CAS-IA2020/1/2026国家语料库的建设、开发、保护应该是一种国家行为,在信息社会和数字化生存时代,我们要把语言资源的收集、保护、开发提高到一种对待国家资源的高度来认识。国家要像对待人力资源、地矿资源、国土资源、森林资源、水源资源一样对待语言资源,语言资源是国家最重要的信息资源。语料库的建设、保护、开发要站在国家面向未来的一种战略决策高度,要作为一种对待国家资源的行为,才能得到法律的保护,纳入法制的轨道[张普,2003]。4.6语料库建设中的问题NLPRNLPR,CAS-IA2020/1/2027北京大学语料库()北大计算语言学研究所俞士汶教授主持,北大、富士通、人民日报社共同开发《人民日报》1998年全部文本(约2600万字)完整的词语切分和词性标注信息例子:咱们/r中国/ns这么/r大/a的/u一个/m多/a民族/n的/u国家/n如果/c不/d团结/a,/w就/d不/d可能/v发展/v经济/n,/w人民/n生活/n水平/n也/d就/d不/d可能/v得到/v改善/vn和/c提高/vn。/w4.7典型语料库介绍NLPRNLPR,CAS-IA2020/1/2028台湾中研院平衡语料库()台湾中央研究院平衡语料库(S
本文标题:自然语言理解(04)语料库语言学
链接地址:https://www.777doc.com/doc-3199444 .html