您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 能源与动力工程 > 第2章-信息资源分布
2020/2/27InformationResourceManagementPage1第二章信息资源分布如同物质资源和能量资源一样,信息资源也是稀缺的。•为弥补资源的稀缺性,我们需要使用现代化的管理手段和管理方法来研究信息资源在社会活动中的利用规律及信息资源的分布规律,并依据这些规律对信息资源进行组织、规划、协调、配置和控制。•对信息资源进行管理。2020/2/27InformationResourceManagementPage2第二章信息资源分布§2.1信息资源的集中与分散规律§2.2信息资源随时间的分布规律§2.3信息资源在空间上的分布规律2020/2/27InformationResourceManagementPage3§2.1信息资源的集中与分散规律•2.1.1信息资源分布的马太效应•2.1.2布拉德福定律•2.1.3齐夫定律•2.1.4洛特卡定律•2.1.5普赖斯定律2020/2/27InformationResourceManagementPage4§2.1信息资源的集中与分散规律2.1.1信息资源分布的马太效应•马太效应:R·默顿(美国)引用圣经《新约全书·马太福音》中的一段话“……谁若有,就给他,并不断增加;而谁没有,则已有的都要被夺走”。•信息资源产生和分布中的马太效应•少数出版社成为某类图书的权威出版机构•核心期刊的形成•少数作者成为某一领域的核心作者•少数网站集中了大量用户•传递功能强的词汇被经常引用•这种信息分布的“富集”与“贫集”的现象是人类社会特有的选择机制支配的结果。2020/2/27InformationResourceManagementPage5§2.1信息资源的集中与分散规律•由马太效应引起的信息富集分布表现为核心趋势和集中取向。•核心趋势:是信息生产主体的主动期望与采取实际步骤的结果。如高产作者群体的形成、期刊信息密度增大、高频词汇的确立等•集中取向:主要是社会选择和影响的结果,信息生产者基本上处于被动状态。如一篇论文多次被引、一个网站被众多用户点击等。2020/2/27InformationResourceManagementPage6§2.1信息资源的集中与分散规律•信息分布富集现象的积极意义:突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依据,降低信息管理成本,提高信息利用效益。•马太效应的不足:•马太效应描述的信息资源的优势和劣势过度积累,容易使信息工作者按简单的优劣进行信息的选择、评价、传播和利用,因循守旧,不思进取。•所形成的信息分布富集优势仅仅是表面的、外在的。•核心信息源是马太效应优势积累的结果,但过分注重核心信息源,会忽略分布在其他信息源中有价值的信息。•马太效应青睐名人、拒绝新人的习惯势力限制了新思想、新知识和新信息的产生及传播。2020/2/27InformationResourceManagementPage7§2.1信息资源的集中与分散规律2.1.2布拉德福定律•信息资源的离散分布是信息资源的重要属性,它表现为信息的内容单元以不同方式从不同角度分布于各种载体中,信息资源的离散分布具有复杂的机理,本质上是由信息的生产和利用决定的。•产生背景:•一门学科的论文分散在其他学科的期刊杂志上屡见不鲜。•根据科学统一性原则,每一学科都或多或少地与其他任何一门学科相关联。2020/2/27InformationResourceManagementPage8§2.1信息资源的集中与分散规律2.1.2布拉德福定律•英国著名文献信息学家布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。他在长期的观察和统计基础之上,提出了有名的“布拉德福分散定律”(Bradford’sLawofScattering),简称为布拉德福定律或布氏定律:•“如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的‘核心’部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成1∶a∶a2的关系(a1)。”这就是布拉德福定律的区域表述形式。•设第一区(核心区)所涉及的文章n1种期刊;第二区(相关区)包括n2种期刊;第三区(外围区)包括的n3种期刊。那么,3个区中的期刊数量成下列关系:n1:n2:n3=1:a:a2(a1)式中:a—布拉德福常数,或称比例系数。2020/2/27InformationResourceManagementPage9§2.1信息资源的集中与分散规律两个学科的期刊分区表:(1)将刊物按刊载相关主题文章的载文量多少的递减顺序排列(2)将表中的科学期刊按其登载论文数量的大小,期刊分为包含同等数量论文的三个区。相继各区的期刊数成等比数列其中:9:59:258≈1:5:252020/2/27InformationResourceManagementPage10§2.1信息资源的集中与分散规律•布拉德福定律的图形描述:•如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,我们将绘制出的曲线称为布拉德福分散曲线。•布拉德福分散曲线由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是一段上升的曲线BD。2020/2/27InformationResourceManagementPage11§2.1信息资源的集中与分散规律•布拉德福分散曲线R(n)CBDNlgnR(N’)COAR(N)n1R(n1)N’布鲁克斯用下述模式来表示布拉德福定律:R(n)=αnβ(曲线部分)(1≤n≤C)(2-1)R(n)=klg(n/s)(直线部分)(C≤n≤N)(2-2)曲线上BD部分只是近似地满足(2-2)式。论文累积数期刊累积数的对数2020/2/27InformationResourceManagementPage12在式中:•R(n)——相关论文累积数。•n——杂志等级排列的序号(级)。•α——第一级杂志中的相关文章数R(1)。也就是载文章最高的杂志中的相关文章数。•C——“核心区”中的杂志数量。•N——等级排列的杂志总数。•k,s——待定参数,k等于分布曲线中直线部分的斜率,可用实验方法求得。当N足够大时,k≈N。•β——参数,与收藏的杂志(核心中杂志)数量有关,大小等于分布图中曲线部分的曲率,β总小于1。•式(2-1)和(2-2)就是布拉德福定律的图形表述形式。§2.1信息资源的集中与分散规律2020/2/27InformationResourceManagementPage13以应用物理学期刊为例:§2.1信息资源的集中与分散规律2020/2/27InformationResourceManagementPage14§2.1信息资源的集中与分散规律布拉德福分散曲线:2020/2/27InformationResourceManagementPage15§2.1信息资源的集中与分散规律•布拉德福定律的数学描述令m1,m2,m3为一、二、三各区中的论文数量,p1,p2,p3为对应区的杂志数量,r1,r2,r3为各区每种杂志的平均论文数量,则有:r1=m1/p1,r2=m2/p2,r3=m3/p3划分区域使得:r1p1=r2p2=r3p3=m1p2/p1=r1/r2=a1p3/p2=r2/r3=a2令a1=a2=a,则p2=a1p1,p3=a2p2=a1a2p1于是p1:p2:p3=1:a:a2…………(2-3)2020/2/27InformationResourceManagementPage16§2.1信息资源的集中与分散规律•布氏定律的维克利解释将杂志分区的数目推广到n3的普遍情形。设将载有某一学科相关论文的杂志分为m个区,使每一区的论文数量相等,各区中期刊的数量n1,n2,n3,…,nm有如下关系:T1:T2:T3:…:Tm=1:b:b2:…:bm-1…………(2-4)其中:b为维氏分布系数Ti=ni(i=1,2,…,m)为前i个区的杂志数量Tm=n1+n2+n3+…+nm=N,N为杂志总数2020/2/27InformationResourceManagementPage17§2.1信息资源的集中与分散规律•布拉德福定律的两个基本要点:•一是频次等级排序,形成主体来源(期刊)的有序目录;•二是确定相关论文在主体来源中的分布规律。•布拉德福定律的具体方法则包括区域分析和图形描述,虽然两者数值并不相等,但所揭示的都是论文在期刊中的分散规律。•20世纪60年代,人们从不同的角度和侧面提出了许多经验分布公式和理论模型,使布拉德福定律取得了很大发展,但也存在很多问题。•对布拉德福定律进行严格检验,比较各公式的优劣,寻找更为规范的精确的数学模型;•其次要深入研究布氏分布的机理,寻找科学的统一的理论解释;•再次,进一步分析和研究其适用条件及局限性,大力开展应用研究。•布拉德福定律主要揭示的是宏观层次的信息(文献)离散分布,而对于微观层次的信息(内容单元)分布的研究基本上是空白。2020/2/27InformationResourceManagementPage18§2.1信息资源的集中与分散规律2.1.3齐夫定律•齐夫定律的研究内容任何文集或文献中不同词汇的使用有什么特点?它们在文献中出现的频次有没有一定的规律?如果有规律,其表现形式应当是怎样的?齐夫定律正是要回答这个问题。•齐夫定律的表述如果将一篇较长文章(约5000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级……这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有:fr=c…………………………(2-5)式中c为常数。上式称为齐夫定律。2020/2/27InformationResourceManagementPage19§2.1信息资源的集中与分散规律词频分布示例rfLgrLgf140000.9922000.695.3031331.104.8941001.384.605801.614.386661.794.197581.944.068502.083.919442.203.7810402.303.692020/2/27InformationResourceManagementPage20§2.1信息资源的集中与分散规律•齐夫词频分布曲线:如果建立f与r的直角坐标系,用横坐标表示词的等级序号,纵坐标表示出现频次,就得到一条双曲线。f25020015010050300r1325642020/2/27InformationResourceManagementPage21§2.1信息资源的集中与分散规律•齐夫定律的对数曲线:如果等级r与频次f都取对数,则双曲线变成一条直线。与之等价的数学表达式为:lgr+lgf=lgc图中的虚线表示理想化形式。•齐夫定律的修正:一般地,斜率为b的任一直线可表示为:blgr+lgf=lgc这一直线由图中的实线表示。如果将其改写成(2-5)式的形式就得:frb=c…………………(2-6)取b=1,(2-6)式与(2-5)式相同,因此可以将(2-6)式看做是对齐夫定律的修正。LgfLgr2020/2/27InformationResourceManagementPage22§2.1信息资源的集中与分散规律•齐夫分布的其他形式•齐夫定律是一个纯粹的经验定律,仅仅使用了一般的统计方法,其过于简单的形式和结论对于出现频次特别高的词和特别低的词都不能完全满足。其适用范围具有一定的局限。•朱斯双参数等级分布:美国学者朱斯指出,在(2-6)式中,不仅c应当是参数,而且b并不总是等于1,也是一个参数,齐夫定律可更为一般地表示为:f(r)=cr-b…………………………(2-7)式中,b0,c0,对于r=1,2,…,n式(2-7)就是朱斯的双参数等级分布定律。f(r)表示r位词出现的频率(或概率)。2020/2/27InformationRe
本文标题:第2章-信息资源分布
链接地址:https://www.777doc.com/doc-4034354 .html