您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 优化“语义信息处理”的新方法与实施例(精选)
第六届(国际)汉语词汇语义学研讨会(论文)2005年4月中国厦门1优化“语义信息处理”的新方法与实施例——从“一词泛读”到“释义字组”再到“一字精读”邹晓辉0756-5505041qhkjy@yahoo.com.cn519125广东珠海井岸桥东恒美花园15-2栋201号摘要:本文论及一种优化“语义信息处理”的新方法。该方法源于“语义三棱”、A库、B库、组字公式和字组阵列。其实例是借助“释义字组”进行“一字精读”。关键词:一词泛读、释义字组、一字精读、语义信息处理一、绪言本文是对汉语词汇语义学新方法的探讨,涉及:语义表示、义项的限定。特点:以“字”的“义项解析”和“释义字组”的“结构解析”作为汉语词汇语义研究的突破口。重点:精确解析“字与二字组的关系”探寻“义项”的发散与收敛的规律。研究途径:首先,根据“语义三棱”原理,把“语义信息处理”转化为“形式信息处理”。接着,对“中文形式信息”的“A库”实施“三化”改造,再经“三注”成“B库”。最后,通过解析“字与字组的关系”提炼出“组字公式”和“字组方阵”。本文对具体研究对象的限定:这里报道的“一字精读”示例,仅限于:对“字与二字组的关系”进行的基础性科学探讨;对“义”与“字”这两个范畴的“义项解析”示例,前者,限于“语义信息处理”及“语义三棱”的领域,后者,仅限于:本文列举的语言学主要学科分支领域;“组字公式”的示例,仅限于:由“实字”组成的“释义二字辞”。基本假设:能搞清楚“字与二字组的关系”,就能搞清楚“字与字组的关系”,进而也就能搞清楚“汉语词汇语义研究的突破口”究竟在哪里。知识贡献:指出了“字间信息”处理的基本原理,即:“组字公式”和“字组阵列”,为进一步精确地系统地解析“字与字组的关系”提供了“语义信息处理”的新方法。二、综述自从弗雷格开辟语言哲学的新方向,使意义问题成为哲学研究的中心问题之后,围绕着:意义的承载单位究竟是词、句子、…,还是整个语言系统,产生了不同的意义理论。上述现象和理论,在汉语学界表现为各种“本位”说,如:“字本位”——区别于:英语的“词与句‘(双)本位’”[徐通锵(1991)]、“词组本位”[朱德熙(1982,1984,1985)]、“小句中枢”[邢福义(1995)]、“句本位”[黄昌宁(1994)]、“复本位”——区别于:“单本位”,如:“词本位、词组本位、句本位”[马庆株(1998)]。“字与字组的关系”的研究认为:从整体上看,这些“本位”说恰似“盲人摸象”,各自仅仅摸到了(汉语这个)“大象”的一个部分。尽管如此,这仍是非常了不起的!因为(汉语这个)“大象”的确太大,致使任何个人的经历或阅历要想统观全局且一览无余都是难以想象的。这样,狭义融智学作为一门研究自然人与计算机之间如何实现高度协作且优势互补的学问,在“人类智能”与“人工智能”之后提出的“协同智能”及其“融智概念体系”(在汉语词汇语义层面可视为:“语义三棱”模型)的功用和特长,也就必然会有用武之地。融智教学法“一字之师”的理论与实践,采用的就是“一字精读”与“字组泛读”相结合的策略。其中,“泛读”的“字组”实际上是“释义字组”。仅仅就语汇层次而言,在协同智能计算语言数据库(作为全球语言定位系统GLPS的实第六届(国际)汉语词汇语义学研讨会(论文)2005年4月中国厦门2施例,简称:“A库”)与协同智能计算知识数据库(作为全球知识定位系统GKPS的实施例,简称:“B库”)中,“释义字组”有“直接呈现”与“间接呈现”两种基本形式。本研究,做了以下双向思考:从“一字精读”到“释义字组”再到“一词泛读”(由内向外与别人的研究结合)的发展;从“一词泛读”到“释义字组”再到“一字精读”(由外向内与自己的研究结合)的回顾。结果发现:1、“释义字组”用于字典词典的分析,可与“释义元语言”[苏新春(厦门大学)《论汉语释义元语言的特征》]产生“交集”。2、“释义字组”扩展到“释义句子”与“释义段落”乃至“释义篇章”,可与“一词泛读”[郑锦全(中央研究院语言学研究所)《词语管窥与宏图》]产生“交集”。探讨:如果双方都能借鉴吸收对方的研究成果,那么,可发展出什么样的互动前景呢?在计算机辅助汉语学习方面,“一字精读”或“字组泛读”与“一词泛读”之间,可否产生互动呢?在汉语字典与词典的分析方面,“释义字组”与“释义元语言”的有关研究之间,可否产生互动呢?以下具体介绍和论述。三、方法优化“语义信息处理”的新方法,由四个步骤组成,即:1、应用“语义三棱”原理,实施宏观收敛;2、遵循“同义并列”法则,实施形式收敛;3、按照“三级标注”方式,实施内容收敛;4、解析“字与字组的关系”,实施微观收敛;其特征在于:1、应用“语义三棱”原理,把“语义信息处理”转化为“形式信息处理”。解决“语义信息处理”的问题,途径有二:一是从“概念分类体系”入手,二是从“范畴分类体系”入手。由于前者过于庞杂而后者简明扼要,所以,本研究采用后者。“范畴分类体系”是由“物(对象)、意(概念)、文(符号)、义(关系)”四大范畴构成的语义分类体系。据此,有两种“语义信息处理”策略及方法:直接处理:改进现有“概念分类体系”——基于“物(对象系统)、文(符号系统)、义(关系系统)”而构成新的优化的“概念分类体系”,其特点是:依附于人脑的“概念系统”——表现为:“思想观念”。间接处理:改进现有“语汇分类系统”——基于“物(对象系统)、意(概念系统)、义(关系系统)”而构成新的优化的“词汇分类体系”,其特点是:依附于电脑的“符号系统”——表现为:“标准文本”。2、遵循“同义并列”法则,对“中文形式信息”的“A库”实施“字组化、数字化、表格化”改造。“字组化、数字化、表格化”简称:三化。构建汉语的“三化”词汇数据库,即:从“协同智能计算语言数据库”(简称:“A库”,作为全球语言定位系统GLPS的实施例)中,抽取“文本总量控制模型”(GTCM)和“音节总量控制模型”(GSCM)总量相等、形式迭交的“词汇集合”,实施“字组化、数字化”改造。图1图1是“A库”的“三化”示意图。经过“三化”的“A库”——涉及大量的“释义字组”,旨在:处理“字间信息”。其依据是通过第六届(国际)汉语词汇语义学研讨会(论文)2005年4月中国厦门3“实字”和“虚字”在“字组”中的“序位”调节“字间的各种组合关系”的汉语语法规则和方法。3、按照“三级标注”方式,分“三级”扩展“A库”的“信息标注”列,构成“B库”。“语言文字信息标注、通用常识信息标注、专用知识信息标注”简称:“三注”。在汉语的“三化”词汇数据库的基础之上,构建“三注”知识信息数据库,即:优化的“协同智能计算知识数据库”(简称:“B库”,作为全球知识定位系统GKPS的实施例)。图2图2是“B库”的“三注”示意图。经过“三注”的“B库”——同时可提供“一词泛读”的语料,旨在:处理“字外信息”。其依据一方面是“三注”信息,如:通用常识与科学知识两个系列的分类信息标注;另一方面是语言文字的分类信息标注,如:基于“语义三棱”原理的“基本语义语法分类”,如:实字及实字组部分的“虚的对象的称谓与实的对象的指称”、“抽象的属性与直观的状态”、“瞬间的动作与连续的过程”、“静的机理与动的法则”;虚字及虚字组部分的“近距关系与远距关系”。4、解析“字与字组的关系”。4.1、把“释义字组”限定在“二字组”的范围,4.2、用“字”的“义项解析”和“释义字组”的“结构解析”相结合的方式,做“一字精读”。4.3、重点研究“字与二字组的关系”。四、结果以下从理论结果、实践结果和应用结果三方面介绍:新方法的功用。1、新方法在理论上的收敛步骤及预期结果1.1、宏观收敛的结果:由“语义三棱”的四个顶点向一个顶点聚焦,即:由“物(对象)、意(概念)、义(关系)”三个范畴向“文(符号)”一个范畴进行收敛。1.2、形式收敛的结果:由“字内形式信息处理、字间形式信息处理、字外形式信息处理”乃至“字里行间的形式信息处理”向“字间形式信息处理”进行收敛。1.3、内容收敛的结果:由“字内内容信息处理、字间内容信息处理、字外内容信息处理”乃至“字里行间的内容信息处理”向“字间内容信息处理”进行收敛。1.4、微观收敛的结果:由“多字间信息处理”向“二字间信息处理”进行收敛。2、新方法在实践上的收敛步骤及实际效果众所周知,“字”集中反映了汉语的特点。“什么是字?”汉语理论界至今无定论。我们认为:这样的提问方式不是一个便于操作的方式。因为,单单一个“字”,其含义,既模糊,又不确定,各种可能性都存在。“什么是字?”或“字是什么?”的问题,恰似“语义三棱”理想实验“设想1”的情形,即:“四点合为一点”的情形。结果只能是:什么都是,什么又都不是。为此,不如换一种便于操作的提问方式。如:汉语“字本位”理论所说的“字”究竟涵盖了什么重要的语言学信息?要完整地回答这个问题,虽然也不是一件容易的事,但是,毕竟具有可操作性。下面尝试应用本文所述的理论和方法对这个具有挑战性的汉语“字本位”理论的一个根本问题给出自己的答案或收敛步骤及结果。我们就以“语义三棱”原理“实验2”的方式或途径,作为正式回答这个问题的“切入点”。以“字”为例来检验上述新方法的收敛效果。第六届(国际)汉语词汇语义学研讨会(论文)2005年4月中国厦门42.1、宏观收敛的效果:“字”属于“文(符号)”这个范畴,位于“语义三棱”四个顶点中的一个。“文(符号)”范围还是太宽,其中,“字内信息”通常属于文字学的研究范围,“字间信息”既涉及语义学又涉及语法学的研究范围,“字外信息”通常属于语用学的研究范围,“字里行间的信息”既涉及词汇学又涉及语音学的研究范围。对“汉语”而言,以“字”作为“基本语言结构”具有独特的功效,既涉及“字内”又涉及“字间”甚至还涉及“字外”(如:话外音)的信息处理。2.2、形式收敛的效果:“字”可能涉及“字间形式信息处理”。如:从“A库”中找出“字”所在的“表”。2.3、内容收敛的效果:“字”可能涉及“字间内容信息处理”。如:从“B库”中查出“领域信息”。2.4、微观收敛的效果:由“多字间信息处理”向“二字间信息处理”进行收敛。从“A库”中“二字表”中查出:含有“字”的“二字组”。根据“B库”中“字”的“领域信息”选出“可以作为语言学主要分支学科的微观研究对象”的“字”的“字间与字外信息”。具体步骤和结果如下:2.4.1、从“A库”中查出“字”的“前字”和“后字”信息——“字间信息”。2.4.1.1、“字”,作为:被其他字限定其义项范围的“解字”。如:铸字、正字、正字、脏字、许字、虚字、习字、文字、题字、题字、俗字、数字、熟字、实字、识字、生字、如字、签字、铅字、排字、名字、盲字、活字、画字、汉字、方字、点字、单字、待字、打字、错字、赤字、衬字、拆字、测字、草字、别字、表字、本字、白字、八字、……2.4.1.2、“字”,作为:去限定其他字的义项范围的“用字”。如:字帖、字谜、字面、字眼、字幕、字母、字体、字书、字样、字模、字典、字汇、字号、字画、字据、字迹、字调、字句、字纸、……可见,即使“二字组”可与其搭配的范围也相当宽。接着需对字的义项和释义字组实施“领域”限制。图3图3是语言学主要分支学科的微观研究对象排列。2.4.2、从“B库”中查出“领域信息”——“字外信息”。2.4.3、解读“可作为语言学主要分支学科的微观研究对象”的“字”。3、解析“字与字组的关系”的过程中提炼出“组字公式”与“字组阵列”。汉语“字本位”理论,把语汇分为“字、辞、块”三种基本类型。这里把“辞”与“块”统称为“语”。这样,“组字成语”的逆过程就是“分语为字”,其中,涉及:切“辞”、分“块”(即:从“语”中切分出“辞”与“块”)两个步骤。在字与(各级)字组的关系中,字与二字组的关系是基础,下面给出“二字组”基本关系的科学描述。如果把需解释或限定其义项的“字”命名为“解字”,把限定“解字”义项的“字”命名为“用字”,那么,限于“二字组”的“释义字组”就只有“释辞”与“释语”两种类型。“释义二字组”=“用字”+“解字”。这是:基本
本文标题:优化“语义信息处理”的新方法与实施例(精选)
链接地址:https://www.777doc.com/doc-2702698 .html