您好,欢迎访问三七文档
信息资源管理InformationResourceManagement第3章信息分布InformationDistribution3.1信息产生与分布中的马太效应3.2信息内容的离散分布规律3.3信息生产者分布规律3.4信息对时间的分布规律3.5网络应用:网络信息资源的分布规律在信息传递过程中产生的大量信息呈现出怎样的分布呢?信息生产的多目的性和无序性,使信息分布十分复杂,研究具有较大难度。文献作为信息的主要载体,具有较好的稳定性和可计量性,由此出现了一些文献信息分布的经典定律,揭示了信息管理的基本定律,对实际的信息管理具有重要的指导意义。网络环境下信息资源的分布也成为近年来的研究热点,可以进行一些初步探讨。3.1信息产生与分布中的马太效应1、什么是马太效应(MatthewEffect)?先看一个小故事吧有一家主人,远行前叫仆人来,把家业交给他们,按着各人的才干,给他们银子,一个给了五千,一个给了三千,一个给了一千。领五千的拿去做买卖,另外赚了五千;领二千的也照样另赚了二千;领一千的把银子埋地里了。过了许久,主人回来了,和他们算帐。领五千的说:‘主啊,你交给我五千银子,我又赚了五千。’主人说:‘好,我要把许多事派你管理。’领二千的说:‘主啊,你交给我二千银子,我又赚了二千。’主人说:‘好,我要把许多事派你管理。’领一千的掘开地说:‘主啊,你的银子在这里。’主人夺过他这一千,给那有一万的,说:‘凡是多的,还要给他,叫他有余。凡是少的,就连他所有的也要夺过来。’圣经《新约.马太福音》美国学者默顿引用3.1信息产生与分布中的马太效应1、什么是马太效应(MatthewEffect)?人类社会特有的选择机制(社会惯性),即优势和劣势都有其积累过程,成功的积累使其更具优势,形成“富集”;失败的积累使其劣势增强,形成“贫集”,从而形成强者愈强、弱者愈弱的社会现象。社会信息流亦是如此,由此也出现了信息分布的“富集”和“贫集”现象。大家总是找生意好的饭店吃饭,哪怕要等一等。人越多的饭店生意越兴隆,门庭冷落的饭店生意越惨淡。3.1信息产生与分布中的马太效应2、马太效应在文献信息分布中的表现核心趋势:信息生产者主动期望和采取行动的结果。形成高产作者群体期刊信息密度增大,形成核心期刊形成高频词汇集中取向:信息生产者处于被动,是社会选择和影响的结果。一篇论文多次被引用一个网站被众多用户点击3.1信息产生与分布中的马太效应3、马太效应的在文献信息分布中的作用积极作用产生富集现象,提供选择捷径——优劣的描述可以让人们较快识别信息分布规律,为信息源的选择、获取、评价和利用提供依据,降低信息管理成本,提高信息利用效益。产生核心信息源,形成对“成功”的激励——核心信息源的形成有一个积累过程,其优势也会在积累中放大。3.1信息产生与分布中的马太效应3、马太效应的在文献信息分布中的作用负面作用忽略分布在其他信息源中有价值的信息。青睐名人、拒绝新人,易导致信息对象的优势和劣势的过度积累,限制了新思想、新知识和新信息的产生及传播。信息分布富集可能仅仅是表面的、外在的(炒作?)。马太效应的积累要适度,不能太任性。适当的干预是必须的。3.2信息内容的离散分布规律信息内容在各载体中的离散分布是信息的重要属性,因此,研究和揭示信息的离散分布规律是信息管理学的重要课题。研究成果主要以科学文献信息为对象。1、布拉德福定律英国著名文献信息学家布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。他在长期的观察和统计基础上,提出“布拉德福分散定律”(Bradford’sLawofScattering),简称布拉德福定律或布氏定律。3.2信息内容的离散分布规律应用地球物理学论文的布氏分布分区期刊载文量(篇/年)期刊数量论文数量14942921-459499312584081、布拉德福定律布拉德福定律的经验数据若将刊载“应用地球物理学”论文的所有期刊,按载文量划分为核心区1、相关区2和非相关区3,使每区论文数大致相等,则期刊服从布拉德福定律分布,即:9:59:258=1:5:523.2信息内容的离散分布规律1、布拉德福定律布拉德福定律的区域表述(经验定律)如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列,把期刊分为专门针对这个学科的核心区、相关区和非相关区。若各个区的文章数量相等,则核心区、相关区,非相关区期刊数量为1:a:a2的关系(a1,且a≈5)。基本要点频次等级排序,形成主体来源(期刊)的有序目录。确定相等载文量的期刊分区,得出相关论文在主体来源中的分布规律。3.2信息内容的离散分布规律1、布拉德福定律布拉德福定律区域表述的数学解释令m1,m2,m3为1、2、3各区中的论文数量(m1=m2=m3),p1,p2,p3为对应区的杂志数量,r1,r2,r3为各区每种杂志的平均论文数量。则有:令于是1332211mprprpr12112//arrpp32232//pprraaaa212321::1::aappp3.2信息内容的离散分布规律1、布拉德福定律布拉德福定律的图形描述如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,绘制出的曲线称为布拉德福分散曲线。BR(n)DNLogenR(N’)COAR(N)n1R(n1)N’布拉德福分散曲线由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是下垂的曲线BD(格鲁斯下降)。3.2信息内容的离散分布规律布氏定律区域表述与图形描述为什么存在差距?1、布拉德福定律布氏定律区域表述与图形描述差距的原因分析学科界定:运用布氏定律时,必须满足严格的先决条件,即学科界限必须经纬分明。但现代科学技术互相交叉渗透,边缘学科越来越多,如本应属于情报科学的文献,也会将其归于计算机科学,从而造成统计上的误差。数据源:应用布氏定律时,均借助于书目、索引、文摘之类的工具书。在编纂这类工具书时,编撰人员都要对原始文献进行选择和加工,统计结果没有原始文献可靠。其他:在实际统计各种数据时,会遇到干扰,如期刊的更名、停刊、重复发表等造成统计数据的不精确。3.2信息内容的离散分布规律1、布拉德福定律•布拉德福的主要贡献•(1)揭示了文献集中与分散规律。•(2)提出了核心期刊的概念。•集中性:少量的一组核心期刊集中了某学科大部分高质量论文。•代表性:某一学科的一组核心期刊上的论文,代表着这一学科的最新水平和发展方向。•学科性:核心期刊总与某一学科联系在一起。•权威性:核心期刊的确定需得到公认。•层次性:核心期刊中也分不同的层次,有的是该学科最重要的权威刊物,有的是层次略低的重要刊物。•相对性:指核心期刊相对于非核心期刊,仅具有相对意义,不是绝对的。•动态性:核心期刊是一个动态的概念,不是固定不变的。3.2信息内容的离散分布规律3.2信息内容的离散分布规律2、齐夫定律齐夫定律的经验数据3.2信息内容的离散分布规律r(等级序号)f(词频)LgrLgf140005.9922000.695.3031331.104.8941001.384.605801.614.386661.794.197581.944.068502.083.919442.203.7810402.303.69词频分布2、齐夫定律(ZipfsLaw)齐夫定律的表述如果将一篇较长文章(约5000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级……这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有:式中c为常数。3.2信息内容的离散分布规律cfr2、齐夫定律齐夫定律的图形表达如果建立f与r的直角坐标系,用纵坐标表示词的等级序号,横坐标表示出现频次,就得到一条双曲线。3.2信息内容的离散分布规律f25020015010050300r132564齐夫词频分布曲线2、齐夫定律齐夫定律图形的变形如果等级r与频次f都取对数,则双曲线变成一条直线。与之等价的数学表达式为:3.2信息内容的离散分布规律cfrlglglgLgfLgr齐夫词频对数分布曲线图中的虚线表示理想化形式,一般地,斜率为b的任一直线可表示为:cfrklglglg2、齐夫定律齐夫定律的理论基础“省力法则”假说。齐夫认为,在语言交流过程中,说话人希望用词少,一词多义,以节省其精力。听话人希望一词一义,使听到的词与其确切涵义容易匹配,减少理解的功夫。这2种节省精力的倾向最后平衡的结果,便是词频的双曲线型分布。“成功产生成功”假说。H.A.西蒙构造了一个概率模型:在文献中,一词使用的次数越多,再次使用的可能性越大。普赖斯后来也建立了一个相类似的模型,并明确地提出了“成功产生成功”的假说。3.2信息内容的离散分布规律例:越是简便易用的检索系统,用户使用的频率越高。“网络流行语”的产生也是因为它既简单精炼,又内涵丰富,交流双方均“省力”。3.3信息生产者分布规律1、洛特卡定律统计学家洛特卡试图通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。选择美国《化学文摘》和德国奥尔巴赫《物理学史一览表》为数据源研究科技工作的论著数量分布。1926年,在美国著名学术刊物《华盛顿科学院学报》发表“科学生产率的频率分布”一文,1949年引起学术界关注。3.3信息生产者分布规律1、洛特卡定律洛特卡定律的图形描述以论文数(x)和作者数(yx)的对数为横坐标(logx)和纵坐标(logyx),两组数据都是直线。图中:虚线表示《化学文摘》数据,实线代表《物理学史一览表》的数据。用最小二乘法计算拟合直线的斜率,近似为-2LogyxLogx10532151253010020洛特卡分布曲线3.3信息生产者分布规律1、洛特卡定律洛特卡定律的数学描述根据经验数据,在论文数x和作者数之间存在下列关系:式中,yx是发表了论文x篇的作者数,n和c是对应于这一典型数据集合而估计出来的两个常数,n的数值在2上下波动。通过变换可以得到下面的公式:cyxxn3.3信息生产者分布规律2xcyx21xycyyxxx1、洛特卡定律洛特卡定律的数学描述令,表示写x篇论文的作者出现的频率。是新的常量,表示作者取样总数比例,这样可以写成:这就是著名的平方反比分布。并且可以求得常数:C=0.6079=60.79%,即按照平方反比分布,所有生产一篇论文的著者的比例刚刚超过60%。xxxyyyf)(xycC2)(xCyfx3.3信息生产者分布规律例:《物理学史一览表》数据中,共有1325位作者,写一篇论文的为748人,占总数的59.2%。1、洛特卡定律洛特卡定律的数学描述如果取绝对数,则可表述为:生产2篇论文的作者大约是生产1篇论文作者数的(即)生产3篇论文的作者大约是生产1篇论文作者数的(即)生产n篇论文的作者大约是生产1篇论文作者数的412219123121n洛特卡定律是对信息生产的一般理论估计,不是一个精确的统计分布,因而有其局限性,可以将其视为一个特例。3.3信息生产者分布规律2、普赖斯定律普赖斯定律的数学描述——核心生产者分布的“平方根定律”在某一特定领域中,全部论文的半数系由该领域中全部作者的平方根的“那些人”(核心或高产作者)撰写的,该定律可表示为:式中,n(x)为撰写x篇论文的作者数;I=nmax为该学科规定时期内最高产的作者数;N为该学科领域全部作者总数。m可由下式确定,即高产作者中一位最低产的作者发表的论文数量,等于最高产作者所发表论文数的平方的0.749倍。NxnIm1)(21max749.0nm普赖斯定律简洁地描述了信息按生产者能力分布,从而揭示了少数信息生产者生产了大量信息的规律和特点,充分显示了马太效应的作用效果。但不能将普赖斯定律绝对
本文标题:第3章信息分布
链接地址:https://www.777doc.com/doc-4396798 .html