您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 薪酬管理 > 语料库语言学 (Corpus Linguistics)
语料库语言学(CORPUSLINGUISTICS)绪论(INTRODUCTION)绪论(INTRODUCTION)邹煜邹煜zouiyster@gmail.com中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心国家语言资源监测与研究中心有声媒体语言分中心库为什么要学习语料库语言学?语料库语言学已经成为语言研究的主流——JThomasetal1996J.Thomasetal,1996语料库研究正酝酿着对语言学理论和研究方法的重大突破重大突破——J.Svartvik,1996CorpusresearchhasbecomeakeyelementofCorpusresearchhasbecomeakeyelementofalmostalllanguagestudy.WlfTbt24Otb2004——WolfgangTeubert,24October2004……CCORPUSORPUSLLINGUISTICSINGUISTICS01语料库语言学的定义0.1语料库语言学的定义9“根据篇章材料对语言的研究称为语料库语言学。”(KAijmer&BAitenberg1991)(K.Aijmer&B.Aitenberg,1991)9“基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。”(T.McEnery&A.Wilson,1996)9“以语料为语言描写的起点或以语料为验证有关语言9以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。”(D.Crystal,1991)CCORPUSORPUSLLINGUISTICSINGUISTICS01语料库语言学的定义0.1语料库语言学的定义语料库(corpus,复数形式为corpora),顾名思义就是存放语言材料的仓库(或数据库)。而语料库语言学则是存放语言材料的仓库(或数据库)。而语料库语言学则是一种以语料库为基础的语言研究方法,它包含两层含义:利用语料库对语言的某个方面进行研究,也就是说“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。CCORPUSORPUSLLINGUISTICSINGUISTICS01语料库语言学的定义0.1语料库语言学的定义语料库的哲学基础语料库的哲学基础9近二十年以来,基于语料库的统计分析研究越来近二十年以来,基于语料库的统计分析研究越来越多。9这种统计研究被称为是经验主义的,或者说是基于统计的,与理性主义相对而言。理性主义又说于统计的,与理性主义相对而言。理性主义又说是基于规则的。9我们认为:理性主义说到底也是经验主义,是使9我们认为:理性主义说到底也是经验主义,是使用语言的个人的一生的语言经验的积累。——引自张普教授的幻灯片CCORPUSORPUSLLINGUISTICSINGUISTICS01语料库语言学的定义语料库的分类0.1语料库语言学的定义语料库的分类用途:通用语料库、专用语料库;通用语料库、专用语料库;介质文字语料库声音语料库文字语料库声音语料库介质:文字语料库、声音语料库;文字语料库、声音语料库;语体:书面语语料库、口语语料库;书面语语料库、口语语料库;时间共时料库时料库共时料库时料库时间:共时语料库、历时语料库;共时语料库、历时语料库;状态:静态语料库、动态语料库;静态语料库、动态语料库;语种:单语语料库、双语语料库、多语语料库;单语语料库、双语语料库、多语语料库;平行语料库、非平行语料库;平行语料库、非平行语料库;母语语料库、外语学习者语料库;母语语料库、外语学习者语料库;处理程度:生语料库、熟语料库。生语料库、熟语料库。CCORPUSORPUSLLINGUISTICSINGUISTICS02发展历史与现状发展历史与现状0.2发展历史与现状发展历史与现状语料库语言学的发展历史,大致可以分为两个时期:计算机化以前时期,可称之为传统语料库时期计算机化以后时期,可称之为现代语料库时期Ì20世纪50年代Chomsky的影响Ì第一代(1970-80年代)第一代(-年代)Ì第二代(1980-90年代)Ì第三代(1990年代)Ì第三代(1990年代)Ì?第四代(21世纪)CCORPUSORPUSLLINGUISTICSINGUISTICS021计算机化以前的语料库(传统语料库)0.2.1计算机化以前的语料库(传统语料库)为词典编撰、语法研究而收集的语料库牛津英语词典(OxfordEnglishDictionary)1928年引证400万条卡片1100万张韦伯斯特新国际词典(Webster’sNewInternationalDictionary)年第版新多条1961年第三版新旧引证1000多万条为教学目的而编制的书面语料库和词表为教学目的而编制的书面语料库和词表陈鹤琴《语体文应用字汇》,商务印书馆,1928年。做过两次统计第次统计使用了六种材料包含554478个汉字的做过两次统计,第一次统计使用了六种材料,包含554,478个汉字的语料,得出不同汉字4261个;第二次使用包含34,818个汉字的语料,得出与4261个汉字相异的汉字458个。CCORPUSORPUSLLINGUISTICSINGUISTICS021计算机化以前的语料库(传统语料库)0.2.1计算机化以前的语料库(传统语料库)为语言调查而收集的方言库19、20世纪英、美等国都做过大型的方言调查,调查的结果形成几个大规模的方言库在我国,运用语料的研究方法可以追溯到周秦,如我国汉语方言学的第一部著作《輶轩使者绝代语释别国方言》是扬雄经过27年的艰苦努力而写成的CCORPUSORPUSLLINGUISTICSINGUISTICS02发展历史与现状发展历史与现状1957年乔姆斯基的《句法理论》(SntacticStctes)及0.2发展历史与现状发展历史与现状1957年,乔姆斯基的《句法理论》(SyntacticStructures)及其以后的一系列论著的发表,语料库研究的发展被完全否定、受到剧烈震荡乔姆斯基(Chomsky)认为,语言研究的主要目标是建立一种能够反映说话人心理现实的语言认知模式。……语料从本质上只是外在化的话语的说话人心理现实的语言认知模式。语料从本质上只是外在化的话语的汇集,基于语料的研究所建立的经验模式充其量只能对语言能力作出部分解释,因而语料不是语言学家从事语言研究的得力工具。基于语料库的研究方法有误——基于语料库的研究方法有误短语结构语法具有递归性:自然语言的句子是无限的,任何有限的语料短语结构语法具有递归性:自然语言的句子是无限的,任何有限的语料都不能穷尽语言。——语料是不完整、不充分的CCORPUSORPUSLLINGUISTICSINGUISTICS02发展历史与现状发展历史与现状英国伦敦大学学院(UiitCllLd)的语言学家夸0.2发展历史与现状发展历史与现状英国伦敦大学学院(UniversityCollegeLondon)的语言学家夸克(Quirk)开创了新一代的语料库。他在1959年建立英国英语口语和书面语的“英语用法调查”(theSurveyofEnglish口语和书面语的“英语用法调查”(theSurveyofEnglishUsage,简称SEU)语料库的计划,目的是要对英语进行全面的描写。描写。1961年,弗朗西斯(N.Francis)和库塞拉(H.Kucera)为首的一批语言学家和计算机专家汇集在美国的布朗大学合作建成了世界上最早的机读语料库,即布朗语料库(BrownCorpus)。1975年,斯沃特威克(Svartvik)与他在隆德大学的同事把SEU语料库中的口语部分转变为计算机可读的形式,最后建立了“伦敦—隆德英语口语语料库”(LLC)。CCORPUSORPUSLLINGUISTICSINGUISTICS()0.2.2计算机化的语料库(现代语料库)第一代语料库布朗语料库(BrownCorpus)LOB语料库(TheLancaster-Oslo/BergenCorpus)LOB语料库(TheLancasterOslo/BergenCorpus)LLC语料库(London-LundCorpusofSpokenEnglish)兰开斯特/IBM英语口语语料库(Lancaster/IBMspokenpEnglishcorpus)CCORPUSORPUSLLINGUISTICSINGUISTICS()0.2.2计算机化的语料库(现代语料库)第二代语料库语料库(COBUILD语料库(CollinsBirminghamUniversityInternationalLanguageDatabase)gg)英国国家语料库英国国家语料库国际英语语料库国际英语语料库CCORPUSORPUSLLINGUISTICSINGUISTICS()0.2.2计算机化的语料库(现代语料库)朗文语料库第二代语料库朗文语料库(LongmanCorpusNetwork)商用语料库,建于上个世纪80年代由三个大的语料库组成Ì朗文/兰开斯特英语语料库(Longman/LancasterEnglishLanguageCorpus,即LLELC)aguageCopus,即C)Ì朗文口语语料库(LongmanSpokenCorpus,即LSC)Ì朗文英语学习者语料库(LongmanCorpusofLearners’English,即LCLE)English,即LCLE)主要目标之一是编纂英语学习词典,为外国人学习英语服务规模达到5000万词级CCORPUSORPUSLLINGUISTICSINGUISTICS()0.2.2计算机化的语料库(现代语料库)1语料:从单语种到多语种。第三代语料库特大型语料库1.语料:从单语种到多语种。2.数量:从百万级到千万级再到亿级和万亿级。3.加工:从词法级到句法级再到语义和语用级。4文本:从抽样到全文。特大型语料库——美国Lexis-Nexis公司的机储文件已经达到15亿件,有15万亿字符并且以每周950万件的速度递增4.文本:从抽样到全文。1.5万亿字符,并且以每周950万件的速度递增动态监控语料库——国际互联网上,英国COBUILD语料库每周向电子邮件用户发送WordWatch(词语监察)的邮件,报告社会用语的动态变化情况动态变化情况……CCORPUSORPUSLLINGUISTICSINGUISTICS()0.2.2计算机化的语料库(现代语料库)第三代语料库ACL/DCI美国计算语言学学会数据采集计划美国计算语言学学会(TheAssociationforComputationalLinguistics,即ACL)倡议的数据采集计划宗赢(DataCollectionInitiative,即DCI),其宗旨是向非赢利的学术团体提供语料,用标准通用置标语言SGML统一置标,以便于数据交换(LibermanMY1990)以便于数据交换(Liberman,M.Y.1990)CCORPUSORPUSLLINGUISTICSINGUISTICS()0.2.2计算机化的语料库(现代语料库)第三代语料库语言资源联盟(LinguisticDataConsortium)91992年在美国宾夕法尼亚大学(Universityof1992年在美国宾夕法尼亚大学(UniversityofPennsylvania)建立,它的目的是构建、收集和发布用于研发的语音和文本数据库、词典以及其他资源9该联盟提供了一种可供大规模发展和普遍的共享用于语言工程技术研究的资源的新机制,目前已经拥有超过个公司大学和政府机构会员单位为个过100个公司、大学和政府机构会员单位。为197个会员机构和458个非会员机构提供了数据()CCORPUSORPUSLLINGUISTICSINGUISTICS()()0.2.2计算机化的语料库(现代语料库)第三代语料
本文标题:语料库语言学 (Corpus Linguistics)
链接地址:https://www.777doc.com/doc-4831215 .html