您好,欢迎访问三七文档
语料库的创建与应用管新潮上海交通大学外国语学院2016-11-23•1)语料库类型•2)语料选取原则与操作标准•3)语料库规模•4)语料句对齐标准•5)语料库的制作•6)数据挖掘•7)翻译教学•8)翻译研究•9)语料的版权•10)语料的质量•11)语料库与翻译创造力•12)语料库的应用1)语料库类型平行语料库:源语文本+目的语文本双语平行语料库:英语+汉语或德语+汉语多语平行语料库:两种以上语言双向平行语料库:英汉+汉英单向平行语料库:英汉或汉英1)语料库类型可比语料库:语料具有可比性单语可比语料库:翻译文本+原创文本(政府工作报告英文版+美国国情咨文)双语可比语料库:无翻译关系的双语文本(德国有限责任公司法和中华人民共和国公司法——术语)语料可比性1)语料库类型翻译语料库:翻译文本口语语料库:标注?(蒙特雷)2)语料选取原则与操作标准代表性或影响力原则可及性原则时间原则(胡开宝,2011:45-46)质量原则专业分类原则2)语料选取原则与操作标准①原文与译文呈一一对应关系;②原文应具备一定的文笔表现力;③译文应符合所在国的阅读习惯和表述要求,同样具备一定的文笔表现力,而且该译文是经过认可的;④按专题模块汇集语料,使语料文本具有同质性;⑤选用具有代表性的语料文本;⑥所选用的每一篇语料文本都是一个完整的单元。2)语料选取原则与操作标准例如:英汉医学平行语料库以图书、论文、报告为主,专业方向涉及微生物学、生物化学、解剖学、病理学、药理学、临床诊断学、内科学、外科学、妇产科学、儿科学、眼科学、耳鼻咽喉科学、口腔医学、皮肤病学、神经病学、精神病学、感染病学等。3)语料库规模BNC(BritischNationalCorpus):超1亿词COCA(CorpusofContemporaryAmericanEnglish):4.5亿词DWDS(DasDigitaleWörterbuchderdeutschenSprache):25亿词3)语料库规模北外汉英对应语料库:3000万字词中国法律法规汉英平行语料库:2200万字词莎士比亚戏剧英汉平行语料库:600万字词英汉医学平行语料库:1000万字词英汉科普平行语料库(郭鸿杰):1000万字词中国英汉平行语料库(王克非):1亿字词3)语料库规模应用于翻译实践的语料库规模究竟要多大?4)语料句对齐标准学术研究翻译实践句子单位4)语料句对齐标准英文原文与中文译文的句子对齐以一一对应为主,但也允许语句一对多或多对一等情况的存在。一般以句号、分号、问号等为分句标记,但总有例外情形存在。这里最为重要的是,必须考虑到英文在句法逻辑上是一个完整的单元,中文语句与之相应匹配。5)语料库的制作WORDPDF纸质版其他格式5)语料库的制作语料的降噪处理:公式、表格、图片“纯”文本5)语料库的制作对齐工具:WinAlignParaConcAbbyyAligner等等自行开发TMX-ParaConV5)语料库的制作保存格式:例如TMX,TXT目的在于多用途5)语料库的制作TM库的制作:1)Word格式(WinAlign,AbbyyAligner)2)Xliff格式(新建记忆库、更新记忆库等)3)Excel格式(2007版或之前版本,2009版或之后版本)——TMXEditor5)语料库的制作5)语料库的制作制作语料库的有效方式:ABBYYAligner+自编软件+ParaConc等6)数据挖掘使用英文或汉语(须经切分)单语导入WordSmith或AntConc进行词频排序进入双语界面进行检索查询:ParaConc或Trados记忆库界面6)数据挖掘6)数据挖掘专业通用词(GeneralWordsforSpecificPurposes)法律(action,award,damage)医学(normal,management)海洋工程(high,sea)6)数据挖掘Article14Anti-DumpingActiononBehalfofaThirdCountry第14条代表第三国的反倾销诉讼(action=lawsuit)Hewasawarded$500damagesforinjuryhesufferedintheaccident.(award非“奖励”,是“法定裁定”)(damage非“损坏”,是“赔偿金”)6)数据挖掘Liverfunctiontestsgavenormalresults.肝功能检验均无异常发现。normalsaline生理盐水6)数据挖掘Diseasemanagementisanapproachtocoordinateresourcesacrossthehealthcare.疾病管理是一种协调医疗卫生系统资源的手段。Themortalityrateofpatientswithnochangeintheirantibioticmanagement抗生素治疗未改变的患者死亡率6)数据挖掘ThelegalstatusofthewatersbeyondtheterritorialseasofStatesborderingstraitsasexclusiveeconomiczonesorhighseas海峡沿岸国领海以外的水域作为专属经济区或公海的法律地位inhighseastatescanleadtolow-cyclefatigueinthepipe在狂浪海况下可导致管道产生低周期的疲劳应力7)翻译教学一、自主学习:工具:WordSmith,ParaConc,Trados记忆库语料库:英汉双向法律平行语料库7)翻译教学二、翻译质量控制1.72术语确认和检索搭配检索7)翻译教学三、译文文笔翻译能力法律=医学=海洋工程适应面语料库库容8)翻译研究语料库翻译学定义(胡开宝,2011):以语料库为基础,以真实的双语语料和翻译语料为研究对象,以数据统计和理论分析为研究方法,依据语言学、文学和文化理论及翻译学理论,系统分析翻译本质、翻译过程和翻译现象等内容的研究8)翻译研究翻译共性:普遍性特征译者风格:译者在语言应用上所表现出的特体特征翻译规范:译者在选择翻译策略时应遵循的规范8)翻译研究例如,显化与隐化显化是翻译文本将源。语文本中隐含的信息或表述不清晰的信息以明确的表述表达出来,以方便读者理解。隐化是指源语文本中以词汇手段明示的意义或信息在目的语文本中隐含于具体语境中。形式化程度高的语言翻译成形式化程度较低的语言时,隐化趋势递增。8)翻译研究翻译实践研究9)语料的版权用于研究的语料例如,香港城市大学用于公开发布的语料公司语料10)语料的质量出版级别语料机器翻译语料网络爬虫语料10)语料的质量好翻译的定义:译文完全转化了原文的含义、表述简洁、易于理解,符合译文所属特定领域的要求以及语言文化方面的习惯表述要求,同时资深译员在译文校订以及专业审读在译文审读时都认为译文已无需任何修改。11)语料库与翻译创造力KirstenMalmkjær《语料库与译者培养》外研社200711)语料库与翻译创造力语料库的使用关键在译者语料库质量水平翻译项目委托的各种苛刻要求根据不同的文体来对待翻译实践译创(transcreation)12)语料库的应用Collins出版社语料库证据在美国的法庭应用JDEST学术英语语料库航天局学生自学习“海洋工程图书系列”翻译等等翻译能力+语料库=乐趣和享受谢谢大家!
本文标题:语料库的创建与应用
链接地址:https://www.777doc.com/doc-3849581 .html