您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 文献信息中的离散分布规律.
一.布拉德福定律二.齐普夫定律三.洛特卡定律四.布-洛-齐分布系文献信息中的离散分布规律一、布拉德福定律布拉德福定律的产生背景布拉德福定律的形成布拉德福定律的基本原理布拉德福定律的理论发展1.布拉德福定律的产生背景布拉德福SamuelClementBradford,1878-1948著名的文献学家和化学家创立了布拉德福文献分散经验法则,是文献计量学的主要奠基人多产作家,著有大量关于分类理论与实践,编目理论的著作1948年,完成巨作《文献学》文献分散规律的系统概述1.布拉德福定律的产生背景文献分散是普遍的客观现象一门学科的论文分散在其他学科的期刊杂志上屡见不鲜。如何找出其分散的规律性是关键所在。科学统一性原则每一门学科都或多或少与其他任何一门学科相关联对一个专家有用的论文,不仅出现在这个专家所在学科的专业期刊上,也可以出现在“其他学科”的期刊上。1.布拉德福定律的产生背景现象:300种文摘和索引期刊每年摘登的750000篇文章,由于漏摘、漏标和同时存在的无意义重复,致使仅载有250000篇不同的文章,而两倍于此数量的500000篇文章则全部漏摘、漏标而与读者绝缘。猜测:专业文献除密集地登载于相应的专业期刊(约1/3),还登载于大量的专业边缘(相关的)期刊(约1/3)和更一般化的期刊(约1/3),后两者过于分散而难以查找等原因导致文献大量丢失。假设:任何一学科的绝大部分专业文献都集中于少数的相应专业期刊内,但是同时也散布于其它的相关期刊之中,其散布的态势则与该学科研究范围的大小有关。2.布拉德福定律的形成1933年,科学博物馆样本:期刊应用地球物理学润滑学领域2.布拉德福定律的形成右表为科技期刊按其载文量递减顺序排列的表格统计结果A为期刊数量B为相应期刊所载的论文数量C为A项的累积和ΣAD为B项的累积和ΣBE为期刊累积量的对数即lgC=lgΣA。3.布拉德福定律的基本原理布拉德福的两种处理方法:区域表示法(文字表述法)图形表示法(经验法)3.布拉德福定律的基本原理区域表示法(文字表述法)布拉德福根据专业论文载于三类不同期刊的设想将表中的数据经加和后按载文累积量划分为a、b、c大致相等的三个区域,即每一区域所包含的相关论文数量相等。两个领域的期刊分区表分区期刊载文数数量(篇/年)应用地球物理学润滑作用期刊数量论文数量期刊数量论文数量a94298110b5949929133c2584041271524N14NN13.布拉德福定律的基本原理发现相应期刊的累积量(C)之比近似构成等比数列;即:第一区(核心区):数量不多但效率最高的种期刊第二区(相关区):数量较大、效率中等的种期刊第三区(边缘区):数量最大而效率最低的种期刊三个区域中的期刊数量关系a为布氏系数1p2p3p2321::1::aannn(润滑作用)应用地球物理学224:4:1127:29:8)(5:5:1258:59:93.布拉德福定律的基本原理布氏定律的表示发现:各区的期刊数,逐区上升每种期刊的载文量逐区下降核心区信息密度最高,每种期刊平均刊载27.5篇论文相关区次之,每种期刊平均载文5.5篇论文边缘区最低,每种期刊平均刊载1篇论文分区期刊数论文量1(核心区)82202(相关区)40=852203(边缘区)2202582003.布拉德福定律的基本原理布氏定律的文字描述如果将科技期刊按其刊载某专业论文数量多少,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量呈的关系.......:::12nn)(::1::2321为公比nnnnnn3.布拉德福定律的基本原理图形表示法取期刊累积量的对数为横坐标,以相应论文的积累量为纵坐标,得到了图中的A.B两条曲线。通过观察,布拉德福认为这两条曲线除下弯部分外,上半部分可以认为是一条直线。3.布拉德福定律的基本原理设P1为该曲线的直线部分与曲线部分的分界点;且令则,因为横轴为对数坐标,所以有:rOXOYYYYY111223,SXXXX2312)(102lg)(10lg)(10lg2rrr的累积期刊数为第一、第二、第三区或刊数为第一、第二区累积期或为第一区的期刊数或)()(sssrsrr)(::110:10:10::A102)2()(s为公比,得令AAAsrsrr3.布拉德福定律的基本原理结论如果将某专业刊载文献按载文量的递减顺序排列,并将其划分为三个载文量相等的区域,则相应的期刊累积数量呈等比关系。显然第一区,即P1以下的下弯部分,其载文密度最大,布拉德福将其称为核心区域。)(::1::2为公比AAA3.布拉德福定律的基本原理布拉德福认为造成这种文献离散分布势态的根本原因在于:科学的整体性原则科学是在时间上先后相继、各个专业间内容相联的整体。作为科学知识载体的各专业文献之间也必然会存在这样的联系,文献的增长与老化是前者的体现,而专业文献散布于相关专业期刊中的事实却是后者的反映学科专业之间联系的紧密程度不一整体性原则还认为科学中各个学科专业之间联系的紧密程度不一。此在文献中的表现就是刊载文献在相应期刊中的不均匀分布3.布拉德福定律的基本原理格鲁斯下垂:格鲁斯(Q.V.Groos)认为布氏定律的图形应该为三个部分。上升的曲线部分——直线部分——弯曲下垂部分下垂部分称为布鲁斯下垂加拿大的波普(AdrewPope)进行统计分析也证明了图形由三部分组成反映理论值与实际值的差异期刊数和文献量统计不足,未能代表全部文献3.布拉德福定律的基本原理区域描述与图形描述的比较经过数学证明布氏定律的两种形式存在着不能统一的矛盾从数学和实际观察来看,图像描述更接近于文献的实际分布情况就文献计量学的规律说明,不论是区域描述还是图像描述,都只能近似的揭示文献分布的规律,无法精确的符合统计数据4.布拉德福定律的理论发展创立阶段1934年,布拉德福的论文《特定主题的信息源》(SourcesofInformationonSpecificSubject)1934-1948年,无人问津1948年,《文献学》的出版,使其理论开始传播理论研究阶段(60年代)“布拉德福热”:相关研究空前活跃形成两个学派:区域派和图像派全面发展阶段(60年代以后)由纯粹的理论研究向应用领域渗透理论与应用并列的全面发展情形4.布拉德福定律的理论发展维克立的两个推论布氏定律不只局限于划分三个区域,其证明可将等级排列的期刊划分为任意多个区域图像表达式的推论(维氏公式)为第一区到第k区的期刊累积数量m为划分的区域数v为分散系数布氏公式的推广形式(布氏公式)12131211......:::1......:::mmVVVnnnn),.....3,2(1mknk12321......:::1......:::mmaaannnn4.布拉德福定律的理论发展莱姆库勒对布氏定律的描述发展了区域描述方法从布氏定律的文字描述(区域描述)出发,推导出按等级排列的期刊中论文分布的规范式公式莱姆库勒累积分布函数的推导F(x)表示在x的比例下,期刊论文数与期刊论文总数的比例。例如,如果要得到比例为80%的论文,将F(x)=0.8和相应的的值代入,反求出x,即所需期刊的最少数量,a是布拉德福系数,=b-1x表示用来定义全部期刊中含有某一指定数量相关论文的最少期刊与期刊总数之比)1ln()1ln()(xxF11)(bbfXf2ab4.布拉德福定律的理论发展布鲁克斯对布氏定律的描述1969年,英国著名情报学家布鲁克斯利用数学公式描述了布氏定律R(n):对应于n的相关论文累积数n:期刊等级排列的序号a:第一级期刊中相关论文数R(1)c:核心区的期刊数N:等级排列的期刊总数k:参数,分散曲线中直线部分的斜率,当n足够大时,k=Ns:参数,其数值等于图形直线部分反向延长线与横轴交叉点的n值4.布拉德福定律的理论发展例子右表为所收集的有关维生素学论文在相应在期刊中分布的统计数据和以布鲁克斯公式为数学模型的计算值。表中n为按载文量递减顺序排列的期刊序号,R(n)为前n种期刊的论文累积量。4.布拉德福定律的理论发展验证实际统计数据是否符合布拉德福定律:由布鲁克斯公式可得:查表知R(5)=269,若满足布拉德福定律,则查表可知R(25)=537,R(52)≈R(25)因此可初步认定上述数据符合布拉德福定律。)(2ln2ln)(22nRsnksnknR5382692)5(2)5(2RR4.布拉德福定律的理论发展验证查验该项统计的完整性:经统计已知,有关维生素论文在相应期刊中分布的s值为1,在表中,选n=25为参考点,则有:R(25)=Nln25/1=537所以N=537/ln25=167(种)则有论文的理论值总量为:R(167)=167ln167/1=853(篇)与表中的实际查到值比较,实际查到期刊总量为146种,实际查到文献总量为730篇,则统计结果的完整性是值怀疑的。4.布拉德福定律的理论发展布氏分布理论的发展趋势主要的研究工作进行具体分析,验证布氏经验法则,并实际应用寻求普遍而精确的经验分布公式和理论解释,并取得了较大的发展当前研究方向和有待解决的问题运用大量的统计数据、严密的数学方法,确立或寻求更为精确的规范化的数学模型深入研究布氏分布的机制,寻求科学统一的理论解释努力结合实际,开展应用研究,提高图书情报服务的效率二、文献信息词频分布规律——齐普夫定律齐氏定律形成的基础频率词典(词表)每一个词在一定长度的文件中出现的频率两个最基本的数量指标(词的出现频率、词的序号)艾斯杜(J.Estoup,速记员)1916发现较长的文章中,词频分布的定量化形式Nr×r=C(常数)•词的序号:1,2,…,r,…,D(1:绝对频率最大的词,D:绝对频率最小的词)•词的绝对频率:n1,n2,…,nr,…,nD二、文献信息词频分布规律——齐普夫定律齐氏定律的内容齐普夫定律fr×r=cfr:频次,r:等级序号齐普夫定律的“最省力法则”的解释任何语言中,凡是使用频率最高的词,功能总是不会太大;因为其本身在这个场合中价值小,因而传递它们所需要的“力”就不大。二、文献信息词频分布规律——齐普夫定律齐氏定律的图像描述横坐标:等级序号r纵坐标:相应的频率f等级r与频率f均取对数虚线:lnr+lnf=lnc实线:blnr+lnf=lnc斜率为b二、文献信息词频分布规律——齐普夫定律齐氏定律的应用文献标引和词表编制信息检索在图书情报管理中的应用三、文献信息作者分布规律——洛特卡定律洛特卡定律概述诞生1926年,洛特卡最先研究了科学文献数量与著作数量之间的关系,并创造性地提出“科学生产率”的概念,即指在一定时间内科学工作者在科学上所表现出的能力和工作效果,通常用其生产的科学文献数量来衡量。在提出科学生产率概念的同时,洛特卡就围绕它进行了统计研究。选用《化学文摘》与《物理学史一览表》来研究科学家的著述数量,以此经过数据统计、归纳分析及运用数学工具的推算得出洛特卡定律,即写有x篇论文的作者频率与x的平方呈反比。频数频率三、文献信息作者分布规律——洛特卡定律洛特卡定律公式表述设f(x)为写x篇论文的作者数占作者总数的比例,c为某主题领域的特性常数,洛特卡统计的指数a大约为2,对于倒幂法则的这个特例式变为这就是科学生产率的“平方反比定律”的表达式axcxf/)(2/)(xcxf三、文献信息作者分布规律——洛特卡定律洛特卡定律理论意义1926年洛特卡(Darka)定律创立至今已整整80年,是文献计量学中创立最早的一个定律,洛特卡定律也是文献信息计量学的经典定律之一。为文献计量学的诞生奠定了一定的基
本文标题:文献信息中的离散分布规律.
链接地址:https://www.777doc.com/doc-2338108 .html