您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 酒店餐饮 > 红楼梦的文本分析探索人物之间的关系
1《红楼梦》的文本分析摘要《红楼梦》作为中国古代优秀的章回体文言文小说,其中的人物关系错综复杂,所以研究《红楼梦》中的人物关系疏密度具有重要意义。本文以所选《红楼梦》文段中的人物作为特征项,通过分析人物出现的频率和出现位置的分布,来分析所选文段中人物的主次以及他们之间的关系疏密度。首先通过Matlab等软件进行编程获取所取的文段样本中的人物以及人物出现的频数和位置分布,再根据人物之间出现位置的绝对值距离与人物之间关系密切性近似成反比的关系来建立能够刻画人物之间关系疏密度的数学模型。通过我们所建立的数学模型计算出的人物之间关系疏密度的结果能够较好地符合所选文段中人物之间关系疏密度的实际情况,我们所得到的人物之间关系疏密度近似服从幂律分布,与现有的一些研究结论相符合。关键词人物关系疏密度数理统计方法绝对值距离幂律分布2一、问题重述文本分析是对文本信息进行挖掘,信息检索的一个基本问题,由于文本中一般含有大量的信息,如何从大量的文本中挖掘有用的信息,就需要选取合适的分析角度对文本进行分析。基于数理统计的方法对文本进行分析一直以来是一个热点。对于《红楼梦》的文本分析,目前已有很多人从不同的角度提出了分析方法。如运用聚类分析对虚词分析(1987,[1]),运用独立样本检验动词和名词的搭配(2009,[2])以及运用K-S检验法检验动词,连词的分布等,但现有的分析主要集中在对写作之人写作手法和写作风格上的分析,或是对于情景的关注程度的分析,却没有人对小说三要素之一的人物进行过深入的分析。本文采用数理统计的方法主要对《红楼梦》里的人物主次和主要人物之间关系疏密度进行分析。二、问题分析每个文本里包含了多个人物,每个人名出现的频率存在差异,每个人名可能多次出现,在整个文本里出现的位置也存在差异。要对人物进行分析就要统计每个人物在文本里出现的频率和出现的位置分布。可认为人物出现的频率与人物的重要程度是正相关,对于每个人物出现的位置分布,可认为两人物多次出现的位置邻近的越多,则两人物间关系越密切,反之,两人物的名字出现的位置邻近的越少,则两人物间的关系越疏远。可用绝对值距离来反映两人物的出现的位置的邻近程度,可认为绝对值距离与两人物的邻近程度近似成反比关系。因此两人之间关系疏密度可看成是两人多次出现的位置相互间的绝对值距离反比的累加。基于此来建立我们的数学模型。三、模型假设1)假设人物名字出现的频数与人物的主次成正相关,出现次数越多,越是主要人物。2)假设人物A出现的各个位置附近人物B出现的次数较多且距离人物A出现的位置较近时,可认为人物A与人物B的关系较为密切(这里的关系指两人间的关联,而非带有感情色彩的关系);反之,可认为人物A与人物B的关系较为疏远。四、符号说明W:选取的文字去除停用词后的样本;1W:选取的文字去除停用词后的样本1;2W:选取的文字去除停用词后的样本2;3W:选取的文字去除停用词后的样本3;C:样本W的总字数;1C:样本1W的总字数;2C:样本2W的总字数;3C:样本3W的总字数;G:从样本W中提取的人物;31G:从样本W中提取的人物1;2G:从样本W中提取的人物2;……nG:从样本W中提取的人物n;x:人物G出现位置的相对数值;1x:人物G第1次出现的相对位置;2x:人物G第2次出现的相对位置;……mx:人物G第m次出现的相对位置;ijG:人物iG与人物jG关系疏密度;五、模型建立与求解1.模型的建立记从《红楼梦》中选取的某段文字去除停用词后记为样本W,所选的三段文字去除停用词后分别记为321,,,对于样本W,它的总字数为C,三个样本321,,的总字数分别记为321CCC,,,从样本W中提取的某人物记为G,提取的n个人物分别记为n21GGG,,,人物G某次出现的相对位置记为x,m次出现的相对位置分别记为m21xxx,,,mx的定义为100CWx的总字数所在样本人物次出现的位置值第人物GmGm上式中乘以100的原因是为避免“人物G第m次出现的位置值/人物G所在样本W去除停用词后的总字数C”的数值过小,在使用Matlab处理时会出现较大误差。人物(G)m次出现的相对位置组成的一维向量用]xx[xGm21,,表示。定义样本W中人物iG与人物jG关系疏密度ijG如下:]xx[xGp21i,,;]xx[xGq21j,,;pqij11xx1G;其中,如果rxx,则令rxx;r的定义:将从样本中提取的所有人物出现的相对位置值从小到大排列,相邻的相对位置值之差(绝对值)的平均值作为r。引入r的意义:由于xx可能出现特别小的情况,当xx特别小时,xx1会特别大,为了避免xx1过大而引起ijG出现较大误差,故引入r,当rxx时,令rxx;r取所有人物出现的相对位置值从小到大排列后,相邻的相对位置值之差(绝对值)的平均值作为r,可使上述误差大大降低,而且所得结果与事实符合的较好。4模型的意义:当人物iG出现的各个位置附近人物jG出现的次数较多且距离人物iG出现的位置较近时,可认为人物jG与人物iG的关系较为密切;反之,可认为人物jG与人物iG的关系较为疏远。我们所定义的关系疏密度ijG是一个能够综合反映人物iG出现的各个位置附近人物jG出现次数的多少和距离人物iG出现位置远近的量。观察pqij11xx1G,我们可以看到当有多个jG出现位置在iG出现位置附近时时,由累加效果可看出ijG会相对较大,当jG出现的某个位置与iG出现的某个位置距离较近时,xx1会比较大,ijG同样会相对较大,因此ijG能够反映人物iG与人物jG的关系疏密度。2.样本的选取我们选取《红楼梦》前四十回里的第二十回去除停用词后作为第一个样本1W,第四十一回到第八十回中的第六十回去除停用词后作为第二个样本2W,第八十一回到第一百二十回中的第一百回去除停用词后作为第三个样本3W。3.数据的获取获取方法1)提取样本W中的人物,我们使用中国科学院计算技术研究所的ICTCLAS系统来完成,并经过一定的人工修正。2)通过程序1(使用Matlab所编),我们可以统计每个人物在样本W中出现的频数m和获得人物(G)m次出现的相对位置m21xxx,,。3)按上述1、2步骤分别对321,,进行处理。获取结果1)表一为从三个样本321,,中提取的人物、人物出现的频数和频率(某人出现的频数比上所有人出现的频数之和)、样本的总字数。2)表二为从三个样本321,,中获取的人物出现的相对位置向量。4.数据的处理1)对表一中三个样本321,,中的人物和对应的频率画出散点分布图,并用曲线拟合,作图结果分别为图一、图二、图三。2)通过使用excel软件利用表二中的相关数据计算得到三个样本中的r值,计算结果如下表:三个样本的r1r2r3r数值0.5250.8740.8453)通过程序2和程序3利用表二中的相关数据分别计算三个样本321,,中的5ijG。计算所得结果记入表三。4)利用上述步骤3所得的结果,画出主要人物与其他人物之间的关系疏密度ijG的散点分布图,并用曲线拟合,作图结果分别为图四、图五、图六。图一上图中其他人物的序列如下表:123456789101112宝玉黛玉宝钗贾环袭人麝月莺儿李嬷嬷凤姐晴雯贾母赵姨娘5524171514108776436图二上图中其他人物的序列如下表:123456789101112宝玉赵姨娘探春袭人蕊官蝉儿莺儿藕官豆官李纨晴雯黛玉242213966543332图三上图中其他人物的序列如下表:7123456789101112薛蝌宝玉宝钗宝蟾贾母袭人探春王夫人黛玉薛姨妈薛蟠凤姐1915141111111096522图四上图中其他人物的序列如下表:1234567891011黛玉宝钗袭人麝月贾环晴雯莺儿李嬷嬷贾母凤姐赵姨娘1398981.670.564.841.132.832.526.625.310.98图五上图中其他人物的序列如下表:1234567891011赵姨娘探春蕊官袭人莺儿蝉儿藕官黛玉李纨晴雯豆官44.829.523.319.416.89.57.15.85.13.43.3图六9上图中其他人物的序列如下表:12345678910宝钗袭人探春黛玉贾母王夫人宝蟾凤姐薛姨妈薛蟠3634.831.329.824.417.14.33.41.50.8六、参数估计与模型检验基于以上所作图的结果,我们可以得出结论:1)所选《红楼梦》文段中的人物出现频率近似符合幂律分布,三个样本中排前三的主要人物如下表:1W2W3W宝玉黛玉宝钗宝玉赵姨娘探春薛蝌宝玉宝钗通过阅读所选文段与实际情况符合的较好。2)三个样本中人物“宝玉”都是主要人物,与《红楼梦》以宝玉为主人公这一事实符合的较好。3)由图四、五、六,可得《红楼梦》文本中的人物之间关系的疏密程度近似符合幂律分布,且基于样本一,人物“宝玉”与“黛玉”的关系较为密切。与所选文段实施情况一致。4)基于样本二,人物“宝玉”与“赵姨娘”的关系较为密切,根据该章回的事实,该结果基本属实;基于样本三,人物“宝玉”与“宝钗”的关系较为密切,根据第一百回的事实情况,该结果基本正确。根据所取的样本文本中的事实情况,我们所估计的得到的的人物关系与样本中所体现的人物关系基本符合。七、模型异同点分析根据所取的样本文本及所绘制的图,可以得出相同点和异同点如下:相同点:1)人物“宝玉”出现的频数最多,“宝玉”为样本中的最主要的人物;2)在所取的样本中人物“宝玉”与人物“黛玉”,“宝钗”,“袭人”的关系较与其他人物相比较更为密切。不同点:1)在不同的所取的样本中,主要人物不完全相同,排前三的主要人物如下表:1W2W3W宝玉黛玉宝钗宝玉赵姨娘探春薛蝌宝玉宝钗2)在不同的所取的样本中,最主要人物“宝玉”关系最为密切的人物也不相同,在三个样本中和“宝玉”关系排前三的如下表:1W2W3W黛玉宝钗袭人赵姨娘探春蕊官宝钗袭人探春在不同的样本中其他人物与人物“宝玉”的关系程度也不同,在样本W1中“黛玉”的比重为139,而在样本W3中,“黛玉”的比重仅为29.8,可见相同的人物在不同的文本中与“宝玉”的关系也不相同。10八、模型评价模型优点:1)对《红楼梦》的人物关系的疏密程度作出了数学上的统计分析,对人物之间的关系非常清晰明白。2)采用绝对值的反比例函数的方法近似刻画了人物之间的关系的疏密程度,对关系程度的刻画符合幂律分布,比较符合事实。模型缺点:1)没有特别好的统计方法去统计不同人物的不同称谓,例如人物“林黛玉”的称谓就有“黛玉”,“林妹妹”,“颦颦”,“颦儿”,“潇湘妃子”等好几种称谓,没有做到完全的人物统计;2)绝对值的反比例函数取值是否合理,只能模糊估计,不能精确计算。表一1W2W3W人物频数频率人物频数频率人物频数频率宝玉550.32宝玉240.24薛蝌190.17黛玉240.14赵姨娘220.22宝玉150.13宝钗170.10探春130.13宝钗140.12贾环150.09袭人90.09宝蟾110.10袭人140.08蕊官60.06贾母110.10麝月100.06蝉儿60.06袭人110.10莺儿80.05莺儿50.05探春100.09李嬷嬷70.04藕官40.04王夫人90.08凤姐70.04豆官30.03黛玉60.05晴雯60.04李纨30.03薛姨妈50.04贾母40.02晴雯30.03薛蟠20.02赵姨娘30.02黛玉20.02凤姐20.02统计1701统计1001统计1151总字数4337总字数6194总字数4793表二1W人物位置分布向量宝玉19375916520127227633138240765488597110071167119212681312137913981505155716221674170617241751183718921965226223122354262226392806323732553286332433301133623436348735293568360936473672
本文标题:红楼梦的文本分析探索人物之间的关系
链接地址:https://www.777doc.com/doc-4101903 .html