您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 国外图书情报类期刊热点主题及发展趋势研究XXXX0909
书书书《现代图书情报技术》版权所有,欢迎下载引用!请注明引用地址:国外图书情报类期刊热点主题及发展趋势研究[J],现代图书情报技术,2010(9):48-55.48 现代图书情报技术国外图书情报类期刊热点主题及发展趋势研究安 璐 李 纲(武汉大学信息管理学院 武汉430072)【摘要】利用自组织映射(SOM)人工神经网络方法分析60种有代表性的国外图书情报类期刊的热点主题及JournalofInformationScience(JIS)从1981-2007年的主题发展趋势。利用改进的SOM输出方式———属性叠加矩阵,识别出60种期刊的7类热点主题,并构造一种新的SOM显示方式“热点属性投影”,结合常见的U-matrix图,分析JIS期刊的热点主题在过去27年间的发展过程与规律。其研究结果在一定程度上可以反映国外图书情报类期刊主题的发展规律。该研究方法为期刊热点主题识别及发展趋势研究提供较为完整的工具与思路。【关键词】热点主题 发展趋势 图书情报类期刊 自组织映射【分类号】G353.21ResearchontheSalientSubjectsandTheirDevelopingTrendsofForeignLibraryandInformationScienceJournalsAnLu LiGang(SchoolofInformationManagement,WuhanUniversity,Wuhan430072,China)【Abstract】ThispaperutilizestheSelf-OrganizingMap(SOM)toanalyzethesalientsubjectsamong60foreignjournalsinthefieldofLibraryandInformationScience(LIS)andthedevelopmenttrendsofJournalofInformationScience(JIS)from1981to2007.AnenhancedSOMdisplaymethodnamedAttributeAccumulativeMatrixisemployedtoidentify7groupsofsalientsubjectsamongthe60investigatedjournals.AnovelSOMdisplaymethodnamedPrevalentAttributeProjectionisconstructedcombinedwithU-matrix,toanalyzethedevelopmentprocessandpatternsofJIS’salientsubjectsinthepast27years.TheresearchfindingsreflectthedevelopmentlawsofforeignLISjournalstosomeextent,andtheresearchmethodscanprovidesystematictoolandprocedurefortheanalysisofsalientsubjectsandtheirdevelopmenttrendsamongjournals.【Keywords】Salientsubject Developmenttrends Libraryandinformationjournals SOM 收稿日期:2010-07-06 收修改稿日期:2010-08-06 本文系中国博士后科学基金面上资助项目“基于自组织映射的学术知识组织研究”(项目编号:20090460986)的研究成果之一。1 引 言 学术期刊是科学交流的重要载体,期刊的热点主题通常反映该学科的重要研究领域及前沿课题,而期刊主题的发展趋势研究则可以揭示该学科的发展轨迹与未来的方向,因而受到研究者的广泛关注。国内外许多研究者情报分析与研究XIANDAITUSHUQINGBAOJISHU 49 都在这方面进行了相关研究,如文献[1]以2643篇中英文论文为样本,从中筛选出65个中文关键词和62个英文关键词,利用词频统计法分析了国内外知识管理的热点主题。文献[2]利用等级聚类法对LISA数据库中12种影响因子较高的期刊的题名和摘要字段进行分析,在此基础上总结出情报学近几年主要的研究内容是检索与计量、与信息技术和互联网相关的主题以及与信息资源管理相关的主题。文献[3]通过对国际信息资源管理领域的两大权威期刊IRMJ和JASIST的2003-2008年的文献进行梳理与归纳,发现信息资源管理研究的热点是理论探索与技术应用、本体理论、形式概念分析、语义学、数据挖掘和以计算机为中介的交流。文献[4]通过比较美国图书情报类权威期刊JASIST在1988-1997年及1998-2007年这两个10年间的高频关键词,发现排名靠前的关键词分布从核心的情报学转移到其他子学科,如信息技术、社会行为学。 现有的期刊热点主题及发展趋势研究往往采用统计计量等定量研究或定性分析的方法,在定量研究中大多以论文的关键词或题名、摘要为研究对象,这使得语义相关的关键词难以合并,由此发现的热点主题较为分散,需要研究者自行整合。少数研究者试图在聚类的基础上来分析期刊的研究热点,但这仍然需要研究者逐一比较各聚类包含的主题数量与论文数量,缺乏一种直观地显示热点聚类的方法。 本文采用一种无指导学习的人工神经网络方法———自组织映射(Self-OrganizingMap,SOM)算法来研究期刊的热点主题及其发展趋势。SOM算法是一种可视化的降维方法,被广泛用于多个学科领域,如数据分析[5]、网络日志挖掘[6]、机器状态可视化与故障识别[7]、特征抽取与计算机视觉[8]等。本文利用一种改进的SOM输出方式———属性叠加矩阵,识别60种国外图书情报类期刊的热点主题,并构造一种新的SOM显示方式“热点属性投影”,结合常见的U-matrix图,分析一种有代表性的期刊的热点主题发展过程与规律。2 SOM用于期刊热点主题识别及发展趋势研究的方法设计2.1 SOM输入矩阵的构造 SOM算法需要构造一个m×n的输入矩阵,其中矩阵的行代表将在SOM空间中显示的对象,列代表对象的属性。构造两个SOM输入矩阵: (1)主题-期刊矩阵M1,它有m行n列。其中元素cij(i=1,2,…,m;j=1,2,…,n)被定义为第i个主题词在某段时间内出现在第j种期刊中的次数,如下所示:M1=c11C12…c1nc21C22…c2n…cm1Cm2…cmn(1) (2)年份-主题矩阵M2,它有p行q列。其中元素dkl(k=1,2,…,p;l=1,2,…,q)被定义为某期刊在第k个年份出现第l个主题的次数,如下所示:M2=d11d12…d1qd21d22…d2q…dp1dp2…dpq(2)2.2 属性叠加矩阵 SOM输出的方式主要有两种:U-matrix图和成分图(ComponentPlane)。前者通过计算SOM输出中各节点与相邻节点之间的欧几里德距离来揭示输入数据的聚类结构[9],后者则反映各属性对SOM输出的贡献大小。在本文的研究中,这两种SOM输出方式均无法识别期刊集的热点主题。虽然词频统计等计量方法可以识别期刊集的热点主题,但是对于语义相关的主题存在不易归并的问题。鉴于此,以主题-期刊矩阵M1为SOM的输入矩阵,采用文献[10]提出的“属性叠加矩阵”来识别期刊集的热点主题。其原理是在SOM训练结果的基础上,计算SOM输出中各节点的权向量的所有分量之和,除以所出现的最大值,求其平方根。这样,主题在SOM聚类的基础上,语义相关的主题会映射到SOM输出中邻近的位置,而SOM节点的背景颜色(通过属性叠加矩阵的值转换而成)则显示对应主题的热门程度,映射到属性叠加矩阵中值较大的节点中的主题为被调查期刊集的热点主题,映射到属性叠加矩阵中值较小的节点中的主题为冷门主题。2.3 热点属性投影 为了分析被调查期刊在热点主题上的发展趋势,构造一种“热点属性投影”方法,其原理描述如下:设有l个输入样本,每个样本有n个属性,分别为v1,v2,…,vn,以这n个属性为行,以l个输入样本为列,构造总第197期 2010年 第9期50 现代图书情报技术SOM输入矩阵,利用SOM算法进行训练,计算属性叠加矩阵,将这n个属性按其在属性叠加矩阵中对应元素的值的大小降序排列。映射到属性叠加矩阵中值最大的SOM节点中的属性或属性集称为第一热点属性,用P1表示;映射到属性叠加矩阵中值第二大的节点中的属性或属性集称为第二热点属性,用P2表示,以此类推。 设S为一个SOM输出(注意:这里的输入矩阵是以l个输入样本为行,以n个属性为列构造的),有m个节点,与第i个节点相联系的权向量为si(i=1,2,…,m),它有n个分量,表示为wi1,wi2,…,win,其中n为输入样本的属性个数,即维数。 假设第一热点属性P1包含属性vj1,vj2…,vjp,第二热点属性P2包含属性vk1,vk2,…,vkq,第三热点属性P3包含属性vl1,vl2,…vlr,那么构造三个列向量X,Y,Z,如下所示,其中i=1,2,…,m:X=(∑jpt=j1wit)′(3)Y=(∑kqt=k1wit)′(4)Z=(∑lrt=l1wit)′(5) 式(3)-(5)显示,X,Y,Z分别是由每个SOM节点的权向量在第一、第二、第三热点属性所包含的所有属性上的分量之和构成的。以X,Y,Z为轴,将由l个输入样本为行,n个属性为列构成的输入矩阵的SOM训练结果投影在这个三维空间中,形成热点属性投影。 对于输入矩阵为M2,即年份-主题矩阵的情况,将生成的年份SOM输出投影到由前三组热点属性构成的三维空间中,可以使用户直观地观察各年份聚类在热点主题上的发展趋势。如果某年份聚类投影到P1上的值较大,则P1所包含的主题是该年份聚类的重要主题特点,如果某年份聚类投影到P1上的值较小,则P1所包含的主题不是该年份聚类的重要主题特点,以此类推。3 实验过程与数据分析3.1 国外图书情报类期刊热点主题分析 本文的数据来源于ProQuestResearchLibrary数据库(简称ProQuest)。该数据库为每一篇论文标引了若干主题词,而不是论文作者使用的关键词,这使得期刊论文的主题概括更加规范,提高了分析的效率与质量。通过查看期刊的录稿范围,搜索与图书馆学、情报学相关的术语,结合SCI/SSCI收录的相关领域的期刊列表,收集了60种英文期刊(参见附录1)从2006-2008年刊载的12415篇论文条目,并抽取了3952个主题词。按照式(1)构造输入矩阵M1,即主题-期刊矩阵。为了方便识别各主题在SOM空间中的位置,用0到3951的编号依次表示各主题。 为了避免数值范围较大的属性可能在SOM输出中占统治地位,将输入矩阵M1用‘var’[11]方法进行规范化;采用线性初始化和批学习算法[12],对输入数据进行训练,并采用超环面的SOM输出形状。应用属性叠加矩阵作为SOM输出的背景,SOM输出的结果为彩色图形,将其转换为黑白图形,如图1所示:图1 国外图书情报类期刊的主题SOM输出 从图1可见,共有33个节点,节点中的数字代表映射到该节点的主题数量。右方的颜色条指示SOM输出的背景颜色代表的属性叠加矩阵中各元素值的大小,浅色(彩色图中为红色)代表属性叠加矩阵的值较大,深色(彩色图中为蓝色)代表属性叠加矩阵的值较小。 由于SOM算法具有保留输入数据的拓扑结构的特点,属性相似的输入数据会映射到SOM输出中邻近的位置。根据输入矩阵M1的构造方法,出现在相似的期刊集合中的主题会映射到图1中邻近的节点。鉴于学术期刊通常具有一定的录稿主题范围,出现在相情报分析与研究XIANDAITUSHUQINGBAOJISHU 51 似的期刊集合中的主题倾向于语义相关,于是映射到SOM输出中邻近位置的主题会形成主题聚类。 由于属性叠加矩阵反映的是映射到该节
本文标题:国外图书情报类期刊热点主题及发展趋势研究XXXX0909
链接地址:https://www.777doc.com/doc-534020 .html