您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 布拉德福定律、齐普夫定律与洛特定卡律的应用
布拉德福定律应用对索引中1981至1995年间记录的汉文期刊索引进行登记,统计出各种期刊1981-1995年间的发文情况。为了便于对15年间藏学期刊的变化情况进行比较,我们以5年为一个时间段,筛选各时期的核心期刊,从中了解15年中藏学核心期刊的变化发展概况。因为核心期刊有随学科的发展呈现动态性的特点,以5年为一个时间段以便于及时反映藏学核心期刊的最新变化。m=(eE·Y)1/RP=21n(eE·Y)式中的m为布拉德福系数,R为分区数,布氏认为是三个区域,P为核心区数,E为欧拉系数E=0.5772,Y为最大载文量期刊的载文量。区域法是根据载文递减顺序排列表,将期刊按载文量分成相同的3个区域,1区为核心区,2区为相关区,3区为边缘区。核心区的期刊即为核心期刊。15年的统计中第二个时间段的期刊数量都是最多的,都有从升到降的过程。从藏学期刊数量的变化,可以反映出藏学研究发展的脉络。80年代初、中期藏学研究开始复苏,相继有期刊刊发藏学研究论文。随着学科的发展,产生了越来越多的藏学论文,出现了一批刊载藏学研究成果的期刊。80年代中、后期,藏学研究进入了繁荣时期,研究成果的快速产生又催生了一批刊载藏学研究成果的期刊,使这一时期的期刊数量达到了峰值。进入90年代,藏学研究逐步走向成熟,各刊有了相对稳定的作者群,期刊自身的发展也趋于有序化、规范化,有了各自的办刊特点,从而导致了部分期刊的并刊、改刊、停刊等。虽然藏学期刊的数量减少了,但在版期刊的质量有了新的提高,这预示着学科正在步入成熟阶段。15年来藏学期刊的核心效应十分明显,我们不仅从前面的表格中可以看出来,而且用累加百分比法进行计算也可以发现要获得80%的藏学期刊信息,第1个5年需要24.6%的期刊,第2个5年需要22.3%的期刊,第3个5年只需要19.8%的期刊。用计算法计算出的布氏核心期刊数与实际观察值相差较大,也说明了藏学期刊的核心效应。对藏学专业期刊核心中的核心研究发现,藏学专业期刊在15年中逐步产生了一批学科性专业期刊。核心区的专业期刊以社会科学和民族学期刊为主,相关区的专业期刊则从最初的文学类期刊拓展到中期的教育类、艺术类期刊,再到后期的民族宗教类、经济类期刊,无不带有时代的烙印。第3区的专业期刊中受《索引》体例限制收入论文数量较少的科技类期刊在3个5年中发文数量持续增加,受出版频率影响发文数量相对较少的政治类期刊亦是如此。民俗类、旅游类期刊虽然90年代初才创刊,时间较短,但发文数量已进入第3区的前7位。透过各种学科性专业期刊我们不难看出藏学研究的传统学科在继续加强,研究由广度向深度发展;新型的应用性学科应运而生,而且研究方向正在向藏区的社会现实问题转移,体现了藏学研究的时代性。齐普夫定律应用齐普夫定律被广泛地应用到各个领域中,尤其是信息组织中。比较成熟的应用有以下几个方面:①编制词表。研究表明,每个学科的科学家所用的词和他们所关注的学术领域有很大关系,而网络信息检索。利用齐普夫定律对基于专业词表和大众主题词表对所有有价值的网络资源进行自这一领域科学家所关注的学科范围又有一定的规律,这个规律在一定程度上与齐普夫定律有很大关系,这些词绝大部分集中在中频词的后段和低频词的前段,大多为长词,这样我们可以从齐普夫定律的图像的某一段来取词,从而在很大程度上减少词表取词的盲目性,提高取词效率。②网络信息检索。利用齐普夫定律对基于专业词表和大众主题词表对所有有价值的网络资源进行自动标引、聚类。③压缩文本数据库。一个汉字在计算机中占2Byte,而一个字母只有1Byte,所以汉语文本的存储占用空间比较大,利用齐普夫定律可对文本数据库进行有效的压缩,有研究结果表明,压缩率可以达到0.42。④自动标引。下面笔者重点对齐普夫定律在自动标引方面的应用做一些讨论。齐普夫定律在自动标引中的应用随着计算机的不断发展和应用,信息处理的自动化程度会越来越高,但由于汉语语言本身的特殊性,造成了计算机自动处理的复杂性。就现有的计算机检索方式而言,主要是分为两种,一种是网络搜索引擎,另一种是光盘数据库。网络搜索引擎是基于因特网高速发展条件下的第四代检索语言——全文检索,它具有简单、方便、费用低等优点,但检索效率较差;光盘数据库大多是采用传统的叙词语言或关键词语言进行人工赋词标引,因而具有标引质量高、可以进行扩检和缩检、检全率高等优点,但词表维护难,标引成本高。有没有一种折中的办法,既保留赋词标引检索效率高的优点,又吸取网络搜索引擎方便、费用低的长处?答案是肯定的!可对现有的基于关键词赋词标引的自动标引技术作改进,通过对齐普夫定律的汉语适用性的研究,利用新的词频统计和位置加权的办法来进行汉语的自动标引。赋词标引的关键在于词库的建立,词库构筑的完善与否,对系统的标引效率影响很大。一方面要求词库收录的词汇要全,另一方面还要求词库有一个合理的结构。在此我们设想建立各个专业词库,标引时,先对文献进行粗分类后再用计算机自动标引。每个专业词库包含3个词表:①停用词表。停用词表中收录无实际检索意义的词。②关键词表。关键词表是抽词标引的依据,所以必须尽量完备,最好的建立关键词表的办法就是从现有的专业词典和专业词表中抽取关键词。③同义词表。同义词用于控制抽词结果,使抽词结果保持一致性,并将关键词转换为表示概念的主题词。为了能进行扩检和缩检,设计了关键词表的结构。洛特定卡律的应用洛特定卡律(Lotka'sLaw)主要是探讨作者人数与其出版文献数量之间的关系。洛特-加龙省卡(AlfredJamesLotka,1880-1949)是一位统计学家、数学家与物理化学家,为了证明不同才能的科学家和学者,对科学进步所作出的贡献亦不相同,以对数坐标表现出作者的出现频率和发表论文数量之间的关系,发现科学著作作者著述能力的规律。他随即提出著名的科学生产力倒平方律(InverseSquareLawofScientificProductivity):发表X篇论文著作数约等于X篇论文数的倒平方数,按此比例,所有写过一篇论文的作者比例大约占作者总数的60.79%:发表n篇论文的作者总数,是发表1篇论文作者总数的n平方分之一,如写2篇论文的作者数量约为写1篇论文作者数量的1/4;写3篇论文作者数量约为写一篇论文作者数量的1/9;写n篇论文的作者数量约为写一篇论文作者数量的;另外,只发表一篇论文的作者总数,约占全部作者总数的60.79%。洛特-加龙省卡定律因此多用来假设在学术活动中,不同研究能力的人,其著述数量肯定不同,而且在同样的一段抽样时间内,不同学术工作者的论著数量分布有其规律。研究学者的著述特征以及研究文献按作者分布的规律时,研究结论大致都符合洛特-加龙省卡定律的分布特征,显示学术人员的著述状况和发表论文的数量,可以进而揭示学者生产文献的能力。国内外的研究都发现:发表文献数与作者人数呈反比现象;笔者检视近二十年针对洛特-加龙省卡定律所进行调查的研究结果后,得出之平均值为:发表1篇期刊论文或出版1本图书的著作者,占所有作者数的65.32%,发表2篇期刊论文或图书著作者,占所有作者数的15.41%,发表3篇期刊论文或图书著作者,占所有作者数的6.39%,以上大致符合洛特-加龙省卡的发现;有趣的是,发表1-2篇期刊论文或图书著作的作者数共占所有作者数的80.73%,也大致符合普来斯定律和80/20法则,根据2011年12月一份博士论文的最新研究结果,维基百科中科学条目的贡献者,也符合这项定律。可见,高生产率与高影响力的作者群,是由较少数的学者专家所组成。洛特-加龙省卡定律探讨学术论文著者的不平衡分布规律,可以推论出在宏观的学术著述活动中,只有少数作者写出了大量的文章;反之,大多数人的著述是不多的,可见学者及其论著间的数量关系有很重要的现实意义。然而,洛特-加龙省卡定律只能作数量上的分析,无法肯定文献的质量和作者的权威。文献资料是出自人为的产物,必然伴随着极大的变量,无法绝对客观或保证无误。但是这种「马太效应」的分布状况和影响的描述,在现实世界中,却是恒常不变的真理。
本文标题:布拉德福定律、齐普夫定律与洛特定卡律的应用
链接地址:https://www.777doc.com/doc-1459800 .html