您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒
1基于二元根词相关性的汉语三字格词语知识挖掘研究*山东大学盛玉麒(*本文得到国家社科基金项目“基于语料库的汉语根词相关性句法模型研究”的经费资助)一、词相关性1.相关性理论“相关性”通常指随机事件之间的关系。在数理语言学领域常指两个语言单位的关系程度。可以是字与字之间的相关性、也可以是词与词、短语与短语、句子与句子之间的关系。在计算语言学中,常用“共现”一词表示两个成分共同出现在一个语句中。相比之下,“共现”只是强调同时出现,而“相关性”则明确度表达了“关系的程度”。统计学有“相关分析”法,专门研究随机变量之间的相关性,包括偏相关、复相关、定序变量相关等不同类型相关性的统计分析。本文所谈“二元相关性”是指任意两个词之间的关系程度。可以把这种关系想象成词的矩阵,纵横分别按照自然数列排列全部词,两两组合的节点数就是相关性组合的理论数值。假设有10000个词,那么,相关性组合的理论数值就是10000*10000=1亿个。但是实际应用中绝不会有那么多。因为许多词之间由于句法功能的差异以及应用分布的关系,包括合理组合与非合理组合。例如下面的例子:李嘉诚称,“事实上,中国人有好人,也都有差的;外国亦都有好有差,国籍没有特别的关系。”没有分词的情况下,可根据标点符号分隔的两个相邻单位之间就存在相关性,“事实上,中国人有好人”、“中国人有好人,也都有差的;”等等。分词标注词性后,得到如下文本:李/nr嘉诚/nr称/v,/w“/w事实/n上/f,/w中国/ns人/n有/v好/a人/n,/w也/d都/d有/v差/a的/u;/w外国/n亦/d都/d有/v好/a有/v差/a,/w国籍/n没有/d特别/a的/u关系/n。/w”/w其中“李/nr嘉诚/nr称/v,/w”算上标点一共4个单位,其中的二元相关性组合就有“李/nr嘉诚/nr”、“嘉诚/nr称/v”和“称/v,/w”3组。显然“李/nr嘉诚/nr”和“嘉诚/nr称/v”具有合理性,而“称/v,/w”就不具有合理性。根据相关性的程度可大致分为“高、中、低、无”四种。相关性与结构关系不同,结构关系是具有内在逻辑规定性的关系,例如主谓、述宾、偏正、述补等基本句法结构关系。相关性是指“随机变量”之间的关系,随机变量是不确定性的量,并不能确定是否存在真正的逻辑关系,所以要通过统计分析来求证。2.相关性的获得获得相关性的途径有两条:一是从理论预设为主,将所有的词建立二元搭配矩阵,然后逐一筛选排查;二是从抽样语料中进行统计分析,找出实际使用中存在的相关性组合。前一种方法具有“穷尽性”,但是工作量大,可控性不足,因为人工筛选排查过程如何防止错漏是一个大问题。判断标准也不好掌握。因为词离开具体的语境2后,往往很难判断其合理性。后一种方法往往受限于抽样语料的规模。从理论上说,不管语料库多大,都具有不完备性,因此一定会有遗漏。二者相比,后者具有现实可行性。本研究采用基于语料库的统计分析方法进行词相关性的知识挖掘。3.相关性的意义用相关性来描述语言单位之间的关系具有统计学的意义。现代汉语关于词的定义中有“结构稳定性”、“历史继承性”、“社会通用性”等标准。其中的“结构稳定性”用相关性进行描述就属于“高相关性”。新词语多属尚未达到“稳定性”的程度,可以用“中低稳定性”加以描述。因此,在新词语知识挖掘研究中,相关性研究就有了重要的意义。从词长看,新词语一般多为2——4个音节,5音节以上的很少。其中,双音节词与双音短语之间的区别难度最大。三字格中除了少数被收入辞典的惯用语等固定短语之外,多数为临时短语,真正的“三音节词”并不多。四字格中除成语外,情况与三字格类似。固定短语一般都是从临时短语发展来的,都经过了“临时短语”——“准固定短语”的阶段,因此,从3-4音节的相关性组合中挖掘“准固定短语”应是新词语研究的一个重点。二、抽样语料库根据2003年1月分解放军报电子版文本语料,通过word字数统计结果为2128619个汉字,不计空格字符数为3119202个。采用中科院计算所自动分词软件进程分词和标注词性作为预处理。自动分词后得到830797词次,统计结果得到词种37065个。其中:单音词4702个,累计使用次413186次;双音词24543个,累计使用次380400次;三音词4663个,累计使用次27167次;四音词2899个,累计使用次9398次;五字以上词258个,累计使用次646次。列表如下:表1.抽样语料库词频统计结果词长词种所占比例累计频次所占比例单音词470212.69%41318649.73%双音词2454366.22%38040045.79%三音词466312.58%271673.27%四音词28997.82%93981.13%五字以上2580.70%6460.08%合计37065100.00%830797100.00%从表内可见,静态词种分布比例中双音词所占比例最高,达到66.22%;单音词和三音节词比例相当。但从动态使用频次看,单音词的所占比例最高,达到49,73%,其次是双音词,为45.79%,两项合计达到达到95.52%。三音节以上的词都比静态分布比例大幅下降。这个结果一方面说明在现代汉语中,单、双音词的活跃程度,另一方面也反映出自动分词软件所依据的分词标准的局限性。因为自动分词软件基本上是以权威词典所收词语为分词依据,即所谓“语法词”或“词典词”。起码我们目前所使用的分词软件尚不具备动态“自动学习功能”,还无法识别标准词表之外的“未登录词”和“新词语”。这恰恰是新词语知识挖掘研究的重要任务和巨大的发展空间。3三、词形相关模式统计“词形相关模式”指以词与词之间的相关性为特征的组合模式。按照37065个词种计算,二元相关性组合的理论数据应为37,065*37,065=1,373,814,225组。实际统计得到326,490组(含标点符号),去掉标点符号后共计266924组,仅占理论数据的万分之二。两个数据相差悬殊的主要原因在于理论数据为“任意两个词的组合”,而抽样语料库的统计结果是实际使用文本中的“相邻两个词语单位的组合”。1.词形组合频级266924个二元相关性组合中,使用100次以上233组,累计使用51740次;使用50-99次的二元组681组;使用40-49次的二元组946组;使用30-39次的二元组1433组;使用20-29次的二元组2476组;使用10-19次的二元组6553组;使用1-9次的二元组260371组。表2.二元相关性组合的频级分布表频级组数所占比例累计组数频次所占比例累计频次100↑2330.09%233517408.82%5174050-994480.17%681305755.22%8231540-492650.10%946116691.99%9398430-394870.18%1433165902.83%11057420-2910430.39%2476246444.20%13521810-1940771.53%6553537319.16%1889491-926037197.54%26692439751067.78%586459合计266924100.00%266924586459100.00%586459从上表可以发现,使用频级和对应的组数具有反比例关系,即频级越高、组数越少,频级越低、组数越多。频级在10次以下的低频区多达260371组,占总组数266924组的97.54%。另一方面,从使用频次中发现,占总组合数0.26%的高频区(50次以上)681组相关性组合,累计使用频次高达82315次,占到总频次586459的14.04%。由此可见,使用频次对于知识挖掘的参考价值。2.词长相关性词长是词形的重要特征之一。从词长相关性看,三音结构有“1+1+1”、“2+1”和“1+2”三种模式。实际统计结果为,“1+1+1”模式有23178组、“1+2”模式有54267组、“2+1”模式有50667组,合计128112组。表3.词长相关性分布统计结果模式组数占总组数比例累计频数占总频次比例1+1+12317818.09%6046419.66%1+25426742.36%13169442.83%2+15066739.55%11534337.51%合计128112100.00%307501100.00%“1+1+1”属于“三元相关性”模式,按照降频选取使用频次100以上共得到20组。详见表4。4表4.“1+1+1”相关性组合高频样表序号词1词2词3频次合理性01党/n的/u十/m78502新/a的/u一/m54703的/u一/m年/q50504了/u一/m台/q42905的/u新/a房/n41506就/d是/v要/v293√07时/ng俱/dg进/v27508与/p时/ng俱/dg27209是/v一/m种/q242√10在/p新/a的/u15311有/v一/m批/q143√12也/d不/d是/v12513多/m年/q的/u12314有/v了/u新/a12315要/v有/v新/a11716上/v了/u新/a11017多/m万/m元/q10818几/m年/q来/f107√19不/d会/v冻/v10720都/d有/v可/v101从表4可见,20组中只有“就是要”、“是一种”、“有一批”和“几年来”4组具有句法结构的合理性,占20%,其余几乎都不完整。由此可见,即使使用频次很高的组合,如“与时俱”和“时俱进”都是因为“与时俱进”的高频切分后形成的“伪高频”,没有句法合理性。3.二元词长相关性统计按降频选取“1+2”模式使用频次100次以上的共有40组,详见表5。表5.“1+2”相关性组合高频样表序号词1词2频次标记01期/q版条/q152502条/q标题/n126603十/m六大/j108304个/q代表/n60705的/u发展/vn34106新/a战士/n316√07条/q引题/n25908江/nr泽民/nr255√09的/u工作/vn24310的/u重要/a23211的/u问题/n21812的/u思想/n20413的/u要求/n18214和/c军队/n17515的/u精神/n17116是/v一个/m170√17高/a技术/n154√18的/u一个/m15119的/u基础/n14820的/u历史/n14521团/n党委/n143√22的/u基本/a13923的/u建设/vn13924的/u同时/n13725了/u一个/m124526的/u根本/a12127核/n问题/n118√28是/v我们/r117√29的/u情况/n11730新/a世纪/n111√31的/u政治/n10632一/m系列/q106√33江/nr主席/n105√34的/u生活/vn10435的/u时候/n10436胡/nr锦涛/nr104√37和/c人民/n10138的/u目标/n10039李/nr岚清/nr100√40的/u官兵/n100上表所见,只有“新战士、江泽民、是一个、高技术、团党委、核问题、是我们、新世纪、一系列、江主席、胡锦涛、李岚清”等12组具有句法合理性,占30%。其余都不具有合理性。按降频选取“2+1”模式使用频次100次以上的共有41组,详见表6。表6.“2+1”相关性组合高频样表序号词1词2频数标记01关键/n词/n1242√02建设/vn的/u41503自己/r的/u33904工作/vn的/u33505军区/n某/r31106本报/r讯/ng296√07贯彻/v十/m26308进行/v了/u23909发展/vn的/u22910官兵/n的/u22811社会/n的/u19212部队/n的/u17513特别/d是/v168√14思想/n的/u16615我们/r的/u15716人民/n的/u15517群众/n的/u15118我们/r党/n148√19重要/a的/u14620问题/n的/u14521他们/r的/u14022精神/n的/u13123条件/n下/f129√24取得/v了/u12825国防/n和/c12226方面/n的/u12227建设/vn和/c12128关系/n的/u12029基础
本文标题:基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒
链接地址:https://www.777doc.com/doc-2573206 .html