您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 薪酬管理 > 语料库在语言学各领域的应用
语料库语言学(CorpusLinguistics)第一章语料库语言学在与语言相关各领域的应用邹煜zouiyster@gmail.com中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心年间基于语料库的研究情况(梁燕、冯友、程良坤,2004)CORPUSLINGUISTICS10年间基于语料库的语言研究领域(梁燕、冯友、程良坤,2004)CORPUSLINGUISTICS语料库BECDA词汇、语法、语义、语用口语、语言变异、语言教学机器翻译??语音识别/合成CORPUSLINGUISTICS#1语料库与词汇研究#2语料库与句法、语义#3语料库与语用研究#4语料库与口语研究#5语料库与语言变异/变化研究#6语料库与语言教学#7语料库与机器翻译#8语料库与语音识别/合成本章的主要内容(Outline)CORPUSLINGUISTICS语料库与词汇研究基于语料库的词汇研究有哪些方面?怎样来研究?新词语、流行语词频研究搭配研究词典编纂……CORPUSLINGUISTICS如何从语料库中提取出新词语?新词语研究语料库与词汇研究以国家语言资源监测与研究中心有声媒体语言分中心2007年度的新词语提取技术路线为例--引自《中国语言生活状况报告(2007)》(下编)346-349页CORPUSLINGUISTICS语料库与词汇研究1.对2007年全部语料进行全切分,保留2—9字的符号串。全切分是指将所有可能的符号串全部切出,从理论上避免切分(或组合)盲点,以保证新词语全部都在切分出的符号串之内。2.以天为单位输入数据库,并分别以月和年为单位统计符号串的频次、文本数、出现天数。囿于计算机的计算能力,去除年频次为1的符号串。计算出其余符号串的归一化使用率。3.重复第1步和第2步生成2004、2005、2006等各年度数据表,作为与2007年数据表对照的底表。新词语研究CORPUSLINGUISTICS语料库与词汇研究4.以2007年度数据表为对象表,以往年度数据表为参照表进行归一化使用率比对,得到年使用率差,并生成一张以2007年度符号串为主目的并带有该符号串历年信息的全信息表。年使用率差公式如下:)1()()1()(−−+−=∆ΦttttUUUU为归一化使用率。为当前考察年度中该词语归一化使用率。为前一年度中该词语归一化使用率,分母为归一化项。将计算结果按降序排列,排在前面的就是年使用率差比较高的词语。年使用率差为1的词语就是在这个语料集合中当年度出现,而前一年度没有出现的词语。U)(tU)1(−tU新词语研究CORPUSLINGUISTICS语料库与词汇研究5.根据下列条件对所得符号串进行粗过滤:①过滤掉年使用率差在0.99以下的。为什么?一,全切分中可能会有一些伪串,如果只取1,可能会误杀无辜;二,有些词语在前一年只是偶发现象,个别现象,如果当年大量出现,则恰好说明它已进入准词位,甚至进入词位。②过滤掉2007年度归一化使用率在10的负9次方以下的,这是一个经验值,目的是过滤掉频次及文本数较低的符号串。③过滤掉2007年度频次、文本数、天数完全相同且频次在20以上的符号串。比如电视节目《马斌读报》中每天都有“家事国事天下事,事事关心,欢迎您第一时间听我马斌给您读报”等。6.对所得符号串再过滤:①以特定字作为标识剔除时间、日期串,如6点30分、2007年3月;②以独做姓氏字为标识剔除人名,如赵云亮、郭伯雄;③合并频次相近的包含关系符号串,如“社会主义新、社会主义新农、社会主义新农村”就可将短的合并到长的里面去。新词语研究CORPUSLINGUISTICS词频统计语料库与词汇研究——据LongmanLancasterCorpus统计CORPUSLINGUISTICSCOBUILD英语词典(CollinsCobuildEnglishDictionary),1995版词频统计语料库与词汇研究CORPUSLINGUISTICS朗文当代英语词典(LongmanDictionaryofContemporaryEnglish),1995版词频统计语料库与词汇研究CORPUSLINGUISTICS词语搭配语料库与词汇研究看电影看球赛看小说看朋友see/gotowatchreadvisitCORPUSLINGUISTICS词语搭配语料库与词汇研究什么是搭配?Acollocationisanarbitraryandrecurrentwordcombination.(Benson,M.,BBICombinatoryDictionaryofEnglish,1985,1986)搭配的性质搭配是重复出现的搭配是任意的搭配通常是具有一定结构的搭配是与领域相关的CORPUSLINGUISTICS词语搭配语料库与词汇研究自由组合(freecombination)condemnmurderCondemn~~murder~theabduction~abortion~abuseofpower~theacquittal~……abhor~accept~acclaim~advocate~……~CORPUSLINGUISTICS词语搭配语料库与词汇研究约束组合(boundcombination)commitmurdercrimewrongdoing自由组合是可预期的(predictable);约束组合是不可预期的(unpredictable),正是在这个意义上,我们称搭配具有任意性(或也可叫搭配的不可预期性)CORPUSLINGUISTICS词语搭配语料库与词汇研究能否找到某些适当的定量数据作为判断搭配的参考或补充?搭配的重复性、任意性和结构性对搭配的判断有直接的意义。如何使这些特征量化?CORPUSLINGUISTICS词语搭配语料库与词汇研究互信息(mutualinformation):(Church,K.etal1989,1991))()(),(log),(2iiiwpwpwwpwwmi=其中p(w,wi)是w,wi在给定上下文范围内的共现概率,p(w),p(wi)分别是w,wi的独立概率CORPUSLINGUISTICS词语搭配语料库与词汇研究汉语中,由于进一步加工很困难(汉语的特点使然),所以比较现实的量化处理只能以词频为基础——我们定义了两个统计量1.词频:词(严格讲,应是结构体)w在语料库C中的出现次数。记作f(w)2.词内互信息(以二字词为例):设词(结构体)w=c1,c2(c1,c2为组成w的汉字),f(w)为词频,f(c1),f(c2)分别为c1,c2在语料库C中的出现次数(字频)。且C的总词数为NW,总字数为NC,则w的词内互信息mi(w)由下式定义:))2()1()((log)(22cfcfNwfNwmiwc×××=CORPUSLINGUISTICS全部统计数据均根据1994年《人民日报》语料库2000余万字得到;其中两栏数据分别表示词频及词内互信息(按词频降序排列)CORPUSLINGUISTICS全部统计数据均根据1994年《人民日报》语料库2000余万字得到;其中两栏数据分别表示词频及词内互信息(按词内互信息降序排列)CORPUSLINGUISTICS此表为从BNC口语语料库得到的与money同现的词的频率和互信息CORPUSLINGUISTICS词典编纂(lexicography)语料库与词汇研究语料库最直接的用途就是词典编纂(lexicography)Corpus(pluralcorporaorcorpuses)1formal…2linguisticsacollectionofwrittenandspokenlanguagestoredoncomputerandusedforlanguageresearchandwritingdictionaries.(Rundell,2002:312)——MacmillanEnglishDictionaryforAdvancedLearners(2002)CORPUSLINGUISTICS词典编纂(lexicography)语料库与词汇研究英语词典编纂之父SamuelJohnson1747,PlanofanEnglishDictionary建立第一个用于词典编撰的大型手工语料库英语词典(DictionaryoftheEnglishLanguage)1995年LongmanDictionaryofContemporaryEnglish(3rdedition)OxfordAdvancedLearner’sDictionary(5thedition)CollinsCobuildEnglishDictionary(2ndedition)CambridgeInternationalEnglishDictionaryCORPUSLINGUISTICS词典编纂(lexicography)语料库与词汇研究《牛津高阶英语学习词典(OxfordAdvancedLearner’sDictionary)》第5、6版(即OALD5、OALD6)及《朗文当代英语词典(LongmanDictionaryofContemporaryEnglish)》第3版(即LDOCE3)的词条、所用语料库即词频信息表CORPUSLINGUISTICS词典编纂(lexicography)语料库与词汇研究根据词汇在大量自然语境中使用情况,决定其意义决定词频,从而编制常用词表与非常用词表决定某个词汇具有什么非语言的联结(如语域、历史阶段与方言等),从而了解不同类型语言中用语的特征决定词项的搭配及其在不同语域中的分布决定某词的义项及其用法的分析决定同义词的使用与分布,从而了解语境对词义的选择、及搭配与语域的关系。——Biberetal,1998CORPUSLINGUISTICS词典编纂(lexicography)语料库与词汇研究准确、全面记录具有真实例证的英语语言。体现当代英语最核心、最典型的用法,包括应用最广泛的语法形式、词汇意义及短语。提供上述英语用法的大量例证。例句均为真实的语言材料。语料库的贡献给词典编纂带来了革命性的进展:CORPUSLINGUISTICS语料库与句法(语法)研究语料库与句法、语义、语用研究其重要性主要表现在1)语料库作为整个语言的代表性数据的潜力2)作为经验数据,这种语言事实的观察是可以定量统计的。语法的定量分析(quantitativeanalysis),如统计各种句型的频率等探查出理性主义语法能够在多大程度上解释语料库数据以及要完全解释这些数据需对其作多少修订CORPUSLINGUISTICS语料库与语义研究语料库与句法、语义、语用研究主要贡献为语义学及语义研究提供了一种客观地解释不确定性和渐变性的方法研究内容1)语料库可以为词项赋义提供客观标准2)语料库有助于建立语义模糊范畴的梯度概念CORPUSLINGUISTICS语料库与语用研究、话语分析语料库与句法、语义、语用研究基于语料库方法的语用和话语分析的研究目前还很少语用学及其相关领域的大部分研究都集中在口语例如allright——话语中两个阶段之间的一个边界that’sright——一个强调信号it’sright/that’sright——致歉时的响应。CORPUSLINGUISTICS语料库与口语研究语料库在口语研究中的作用–语料库能提供空前广泛的言语素材,使对口头语言的概括和对特定语言内方言变异的研究成为可能–现代口语语料所提供的是自然的而不是人工诱导出的言语,这意味着语料研究更有可能反映实际生活中真正使用的语言的特点主要集中在韵律层面–探究韵律的实质以及言语的韵律成分如何与其它语言层面相联系–探究韵律标注的基础–从韵律的角度探究语篇的类型CORPUSLINGUISTICS语料库与口语研究)...exp(1)...exp()1(2211022110qqqqxxxxxxXYP
本文标题:语料库在语言学各领域的应用
链接地址:https://www.777doc.com/doc-4831211 .html