您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > 学者新论中文信息技术标准汉字注音
学者新论:中文信息技术标准:汉字注音?拼音正词法?教育部语言文字应用研究所研究员、博士生导师冯志伟人民网2003年4月16日代前言冯志伟教授是教育部语言文字应用研究所研究员、博士生导师。2002年10月中旬,在河南省开封市召开了“中国语文现代化学会第五次学术会议”。这篇文章,是根据冯教授的报告摘编的。冯志伟教授的文章,提出了语音、历史和识别的三个正词法原则结合的方法来施行和完善现代汉语拼音正词法,从而使全国文化教育工作和中文信息技术发展有更严格规范的和统一的语言文字根据。冯教授的主张,对国内和国际的规范标准的实行与建设都很有现实意义。现代汉语拼音正词法是1988年中国政府颁布的,是具有法律意义的国家标准规范,而且,也是联合国等国际组织使用的国际标准规范。这个标准规范的主要内容,是中文书写中的“词”和“词界”的确立。1989年,“汉字优越”论和“汉字文化”论开始泛滥,鼓吹者的目标之一,是否认中文有“词”和“词界”、进而否定现代汉语拼音正词法,恢复半个世纪以前逐渐淘汰的“汉字注音”法。在报刊媒体的鼓动宣传和某些部门人士的支持下,“汉字优越”论终于成了气候,现代汉语拼音正词法和相关的规范标准的建设受到极大干扰和破坏,而被淘汰的汉字注音法大有回笼之势。中文信息技术不光是输入输出汉字,更还有句子和段落的处理、还有排序等数据结构管理和中文算法语言等等,这些,都需要明确的词界。为了发展中文文献管理和翻译自动化,中国已经投入了三十年左右的时间、上亿元的资金和数不胜数的人力,可是,许多基本问题依然处于一筹莫展或停滞不前的状况,究其技术原因,主要问题就是词界模糊、单个汉字连成一片。以前,中文书写没有标点符号,需要很大的“句读”工夫才能避免歧义和正确阅读。“句读”,通俗说,就是分句和确定“句界”。引进拼音文字的标点符号方法,句界清晰,为避免歧义和正确阅读提供了极大的方便,而中文还是中文,并没有因为使用拼音文字的标点符号而不再是中文了。试想,如果取消标点符号,所有的中文文献都是一个个汉字连成一片,那么,现在的人工阅读和计算机文献处理,会是个什么样子?多数人会同意,那将是一场灾难性的技术和文化的倒退。同样,如果没有现代汉语拼音正词法确定词界的方法,那么,许多中文文献工作、中文数据管理自动化和翻译自动化等等工作,就会面临巨大的困难。跟使用标点符号一样,确定词界不是取消汉字、也不是用英文等西方文字代替中文书写,而是在使用标点符号的基础上,进一步避免歧义和保证正确阅读,为中文数据管理和自动翻译等提供基本的文字方法依据,使计算机操作、人工操作、说话和书写等等,有统一的标准规范。汉字注音是一个个汉字连成一片的方法;现代汉语拼音正词法是确定词界的方法。恢复汉字注音、还是坚持现代汉语拼音正词法?这不但是全国基础教育和文献管理的大事,而且是中文信息技术标准依据的大事,也是中国政府提交给联合国的国家标准和国际标准是否有效的大事。吕叔湘、王均和周有光等老前辈科学家,一开始就看到了“汉字优越”论的危害,认为那是主张文化倒退。他们主张继续执行和完善现代汉语拼音正词法,一步步搞好中文现代化建设。然而,他们坚持科学真理的声音被一浪高过一浪的媒体炒作淹没了,直到前几年网络热掩盖了“汉字优越”论的热浪。网络热冷却后,“汉字优越”论又开始抬头,跟尊儒复古思潮结合,继续试图否定现代汉语拼音正词法和恢复汉字注音。令人注意的是,随着“汉字优越”论和“汉字文化”论的泛滥,已经有人试图把文字方式作为搞文化分裂和国家分裂的政治工具。主持国际通用字符库标准的联码(Unicode)组织,每年都召开国际学术会议,讨论各种语言文字的数据管理文字方式和字符标准规范等问题。随着中文信息技术市场的发展,近些年来,联码会议也越来越多地提出了中文文字方式的“词界”问题。中文书写的“词界”和现代汉语拼音正词法,已经超越国家行政和文化地理的范围,成为国际科研学术界十分关注的一个重要问题。在这个时候,看到冯志伟教授的《英德法语的正词法与汉语拼音正词法》,深受启发,特别向人民网做了推荐。承蒙人民网编辑部的要求,特做此介绍,且当作前言,奉献给读者。(米阿仑)中文信息技术标准:汉字注音?拼音正词法?《中华人民共和国国家通用语言文字法》第一章第十八条规定:“国家通用语言文字以《汉语拼音方案》作为拼写和注音的工具。《汉语拼音方案》是中国人名、地名和中文文献罗马字母拼写法的统一规范,并用于汉字不便使用或不能使用的领域。初等教育应当进行汉语拼音教学。”《汉语拼音方案》不仅是注音的工具,而且也是拼音的工具,要拼音,就必然会涉及到词儿连写的问题。在《汉语拼音方案》中,采用y、w和隔音符号“'”来隔音,就是为了解决词儿连写的问题,而词儿连写的问题,就是汉语拼音正词法的问题。我们在这里讨论汉语拼音证词法,是完全符合《中华人民共和国国家通用语言文字法》第一章第十八条的规定的。昀近一段时间,似乎特别强调《汉语拼音方案》给汉字注音的功能,而非常忽视甚至试图削弱《汉语拼音方案》给汉语拼音的功能。因此,我们认为,有必要在这里借鉴国外正词法的研究,来进一步加强《汉语拼音正词法》的研究和改进。问题的提出“正词法”在英语里叫Orthography。ortho-是“正确”的意思,-graphy是拼写法的意思,整个Orthography就是“正确的拼写法”的意思。1958年2月11日,国家正式公布了《汉语拼音方案》,用拉丁字母来拼写汉语,这就出现了汉语拼音的正词法问题。汉字一连串写下来,既不分词又不连写,只有“字”的书写单位,没有“词”的书写单位。汉语普通话中的词有单音节的,有多音节的,多数是双音节的。用汉语拼音来拼写普通话时,应该分词连写,也就是以词作为书写单位,使得语言中的表义单位能够在书面形式上反映出来。这是拼音书写形式与汉字书写形式的根本区别。比如,“中华人民共和国”不是写成zhonghuarenmingongheguo,也不是写成zhonghuarenmingongheguo,而是写成ZhonghuaRenminGongheguo。这样的写法反映了词语的实际结构,阅读起来比全分或全连都来得清楚。可见,汉语拼音正词法就是以词为单位来正确地书写汉语普通话的拼写法。任何拼音文字都应该有自己的正词法。英语、法语、德语等采用拉丁字母作为拼音文字的语言,在长期的历史过程中,发展出适合于本语言特点的正词法。汉语拼音虽然不是拼音文字,但是,在它的实际使用中,特别是在与语言信息处理有关的应用中,也有正词法的问题。为了深入地研究汉语拼音正词法问题,有必要对英语、法语和德语的正词法发展情况进行研究,以便作为我们的借鉴。英语的正词法英语分古代英语(公元700年-1100年)、中古英语(公元1100年-1500年)和近代英语(公元1500年至今)。公元9世纪丹麦入侵英国,至11世纪初,丹麦实际上统治了英国,丹麦语和英语同属日耳曼语族,加速了古英语的简化过程。1066年法国入侵,法语成为官方语言,法语属罗曼语族,与英语不是同一个语族,英语吸收了大量的法语词汇,语法上也受到了法语的影响。在法国入侵之后,英国实际上存在着3种语言:法语是官方语言,拉丁语是宗教语言,英语是社会下层使用的语言。后来由于政治上的历史变动,英语逐渐成为官方语言,学校开始教英语,英语成为了英国的全民共同语。在英语上升为官方语言的过程中,吸收了大量的法语借词,公元1250年-1400年的150年内,约有10000个法语词汇进入了英语,75%至今还在使用。由于基督教会的影响,拉丁语词汇也大量进入英语,使得英语的同义词大量增加。例如,同是表示“火”的三个词,fire来自英语,flame来自法语,conflagration来自拉丁语;同是表示“问”的三个词,ask来自古英语,inquire来自法语,interrogation来自拉丁语。文艺复兴时期对古希腊、罗马文化的研究,大量的拉丁语、希腊语词汇涌入英语。例如,arithmetic(算术),grammar(语法),logic(逻辑)来自希腊语,arbitrator(仲裁人),executer(执行者),item(条款)来自拉丁语。这些情况,使得在现代英语中,借词占了80%的比重,这些来自不同语言的大量借词,减少了同形词和同音词产生的机会。大量吸收外来词--这是英语正词法得以形成和巩固的一个重要因素。英语正词法中比较严重的问题是如何解决英语的书面拼写形式和读音之间的矛盾问题。由于文艺复兴时期印刷术的推广和教育的普及,英语的书面拼写形式逐渐统一,形成了规范的形式,而这些规范的形式又通过印刷的方式进一步固定下来。与此同时,英语的语音发生了很大的变化。例如,gnash(咬牙)和gnat(小昆虫)中,g不发音,knight(骑士)和know(知道)中,k不发音,而在中古英语中,这几个字母全都要发音。又如,辅音字母前的r(如arm)和词尾的r(如father)不发音,词尾的e(如live)不发音,而在中古英语中,它们都是要发音的。这种情况,使得规范的书面形式与实际的发音之间出现了很大的矛盾。在英语正词法中,基本上保持历史上原来的词形,从而减少了同形词和同音词产生的可能性。18世纪开始,英国强调语言的规范化,要求语言准确有力。1755年,约翰逊(SamuelJohnson)编写了第一部英语词典,把英语词的拼写形式固定了下来。这样,英语的正词法就能够以词典作为规范的根据。尊重历史,保留词形的原有形式,这是英语正词法得以形成的另一个重要因素。书面拼写形式与实际的发音不一致,当然也会给英语的学习和使用带来一些困难,为了统一读音,英国从维多利亚时代就开始推行标准语,著名语音学家琼斯(DanielJohns)编写的《英语发音词典》(EnglishPronunciationDictionary)成了人们必须遵守的发音规范。我们可以看到,英语的正词法主要是遵从历史原则,同时也适当考虑语音原则。法语的正词法法语属罗曼语族,它的祖先是拉丁语。拉丁语的使用早在罗马帝国时代就一分为二了:书面的拉丁语古文有严格的语法规则,专为贵族和僧侣使用,口头拉丁语俗体是人民大众使用的活语言,又称民间拉丁语。民间拉丁语随着罗马帝国版图的扩大,由军队和商人传到了法国南部的高卢人那里,并逐渐取代了高卢语,同时又受了高卢语的影响。公元7-8世纪,原来的民间拉丁语变成了一种新的语言--这就是古代法语。12世纪末,以巴黎为中心的方言逐渐成为了法语的全民语言,17世纪以来,由于发展商品经济的需要,法国一直十分注意语言文字的标准化和规范化,主张清除法语中的不纯洁成分。在长期的历史发展过程中,法语的语音有了很大的变化,而书面的拼音形式却已经基本固定下来,语音的演变并没有反映在书面的形式上,因此,法语与英语一样,也存在着书面的拼写形式与实际读音之间的巨大差异。这一方面固然给学习法语带来了一定的困难,但另一方面却为区分同形词和同音词提供有力的手段。为了解决书面拼写法和实际读音的矛盾,法语的正词法提出了许多行之有效的规则。例如,法语词末的辅音-ds,-s,-x等,大多数是古音在书面形式上的遗迹,在现代的口语中已不发音。利用这些形式不同而实际上已经不发音的词末辅音,就可以区分同形词和同音词。poids(重量),pois(豌豆),poix(松香)3个词,发音都是[pwa],是同音词,由于词末辅音-ds,-s,-x不发音,利用这些形式各不相同的词末辅音,就可以把这3个同音词在书面形式上区别开来。可见,法语正词法主要是遵从历史原则,并把这个原则作为区别同音词的重要手段。德语的正词法德国人在使用拉丁字母之前,是使用鲁纳字母(Rune)的。这种字母的形式很像拉丁字母和希腊字母。德国人在接受了基督教之后,就放弃了鲁纳字母而改用拉丁字母。公元2世纪,拉丁字母的地位在德国进一步巩固。到了公元7世纪,拉丁字母成了西欧各国大部分民族文字的基础。但是,德国使用的拉丁字母是歌德体的字母,与西欧各国并不完全一样。在使用拉丁字母来拼写德语的过程中,德语的正词法逐渐形成。1596年,语言学家魏歇勒(Wecherer)建议,名词的第一个字母大写,这种办法有
本文标题:学者新论中文信息技术标准汉字注音
链接地址:https://www.777doc.com/doc-1295728 .html