您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 专利文献日-英机器翻译的质量改进措施
专利文献日-英机器翻译的质量改进措施TsuyoshiKakita日本特许情报机构t_kakita@japio.or.jp前言(JapanPatentInformationOrganization,日本特许情报机构)致力于各种专利文献翻译任务(日-英,英-日)。虽然翻译仍需由人工完成,但机器翻译的采用正成为提高翻译效率不可或缺的手段。有效提高专利文献机器翻译质量措施的研究Japio的质量改进措施Japio并不开发机器翻译引擎。Japio在不改动机器翻译引擎的情况下采用下面两种措施提高机器翻译的质量:1.专利文献翻译的技术术语库2.专利源文档的预编辑处理专利技术术语库为了描述新的发明,新的技术术语不断被引入到专利文献中。商业的机器翻译词典基本上是静态的。↓Japio基于真实的专利文献创建并更新技术术语库Japio技术术语库技术术语库的创建/更新日语英语句对齐的专利文献平行语料库技术术语列表技术术语抽取程序○プラスミドplasmid×プライマー配列methodofremoving×プレス車輪組立体seedplanterpress○ファージ抗体phageantibody○ベール積載装置baleloader:::゚_゚人工评价/修正Japio技术术语库800,000条记录,每年增加100,000条源于技术术语库的机器翻译词典Japio技术术语库Japio基于技术术语库编辑机器翻译词典,服务于专利文献翻译Japio机器翻译词典商业机器翻译引擎与词典+在重叠词条中选词是技术术语词典的关键因素Japio机器翻译词典:选词方法Japio采取两种对策解决选词问题#1:收录复合词-优点:翻译变化较少(=准确度高)-缺点:出现频率较低(=性价比低)#2:基于在真实专利中的出现频率赋予优先权-优点:简单、自动(=性价比高)-缺点:不够精确(=准确度低)Japio机器翻译词典的效能评价通过将Japio机器翻译词典加入商业机器翻译引擎改进100个专利文献语句中的技术术语翻译JapaneseEnglish感光体Photosensitiveness⇒photoreceptor予備収束reservefocus⇒preliminaryfocus冗長行tediousline⇒redundantline最外層externallayer⇒outmostlayer::不多,但基本的术语得以改进。源文档的预编辑处理专利文献语句的特性与当前的机器翻译技术不相适应-非常长而且很复杂-特殊的行文方式-缺少主语/宾语有效措施:源文档的预编辑处理建立技术日语-技术文献(包括专利)基本行文规则以更适应于机器翻译技术日语基本规则超过50%的根据技术日语(原型)改写的语句显示机器翻译准确性得到了提高。Example1:消除歧义図2に示す例では、二つのソース単語「show」のうち、枠36によって示すものがターゲット言語「mise」に翻訳されている。IntheexampleshowninFig.2,whatisshownwithframe36amongtwosourcewords“show”istranslatedintothetargetword“mise.”図2に示す例では、二つのソース単語「show」のうち、枠36によって示す単語がターゲット言語「mise」に翻訳されている。IntheexampleshowninFig.2,thewordshownwithframe36amongtwosourcewords“show”istranslatedintothetargetword“mise.”原句技术日语技术日语基本规则Example2:语句的缩短/拆分好ましくは、機械翻訳装置は、予め準備された、第1の言語と第2の言語との対訳コーパスに出現するチャンク対と、各チャンク対の対訳コーパス中での出現頻度とを検出し、当該チャンク対と、当該チャンク対の頻度からなる重みとをチャンク対記憶手段に記憶させるための手段をさらに含む。好ましくは、機械翻訳装置は、以下の処理を行う手段をさらに備える。(1)予め準備された、第1の言語と第2の言語との対訳コーパスに出現するチャンク対と、各チャンク対の対訳コーパスでの出現頻度とを検出する(2)当該チャンク対と、当該チャンク対の頻度からなる重みとをチャンク対記憶手段で記憶する原句技术日语技术日语基本规则Example2:语句的缩短/拆分Achunkpairwhichappearsinabilingualcorpusofthe1stlanguageandthe2ndlanguagewithwhichamachinetranslationdevicewaspreparedbeforehandpreferably,Frequencyofappearanceininsideofabilingualcorpusofeachchunkpairisdetected,andameansformakingachunkversusamemorymeasurememorizethechunkpairconcernedanddignitywhichconsistsoffrequencyofthechunkpairconcernedisincludedfurther.Preferably,amachinetranslationdeviceisfurtherprovidedwithameanstoperformthefollowingprocessings.(1)Detectingachunkpairwhichappearsinabilingualcorpusofthe1stlanguageandthe2ndlanguagewhichwerepreparedbeforehand,andfrequencyofappearanceinabilingualcorpusofeachchunkpair.(2)Memorizingthechunkpairconcernedandweightwhichconsistsoffrequencyofthechunkpairconcernedbyachunkpairmemorymeasure.原句的机器翻译输出技术日语的机器翻译输出技术日语引入翻译过程Japio将在翻译过程中引入源文档的技术日语预编辑处理(试用中)源文档(JP)预编辑过的文档(技术日语)゚_゚用技术日语对日语文档进行预编辑处理预编辑者翻译文本(英语)预编辑过的文档(技术日语)゚_゚翻译者机器翻译谢谢TsuyoshiKakita日本特许情报机构t_kakita@japio.or.jp
本文标题:专利文献日-英机器翻译的质量改进措施
链接地址:https://www.777doc.com/doc-429255 .html