您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 第3讲-CiteSpace安装及分析功能
第3讲CiteSpace安装及分析功能配套教程:李杰,陈超美著.CiteSpace科技文本挖掘及可视化[M].首都经济贸易大学出版社.2016.作者博客:李杰博客:;陈超美博客:李杰1,2,陈超美31.上海海事大学海洋科学与工程学院2.上海海事大学科技情报研究所3.DrexelUniversity-CollegeofComputingandInformatics本讲基本内容CiteSpace基本术语CiteSpace下载和安装界面介绍(功能参数区和可视化界面)CiteSpace数据分析的关键步骤CiteSpace结果解读的提示基本术语:CiteSpaceCiteSpace:引文空间是一款着眼于分析科学分析中蕴含的潜在知识,是在科学计量学、数据可视化背景下逐渐发展起来的一款引文可视化分析软件。由于是通过可视化的手段来呈现科学知识的结构、规律和分布情况,因此也将通过此类方法分析得到的可视化图形称为“科学知识图谱”。BSE和CJD研究领域的演变(引文空间的变化)动画下载地址~cchen/talks/demo/BSE_CJD_1981-2001_transp.exe基本术语:中介中心性Betweennesscentrality:中介中心性是测度节点在网络中重要性的一个指标(此外还有度中心性、接近中心性等)。CiteSpace中使用此指标来发现和衡量文献的重要性,并用紫色圈对该类文献(或作者、期刊以及机构等)进行重点进行标注。出现紫圈的节点的中介中心性=0.1基本术语:突发性探测Burst检测:突发主题(或文献、作者以及期刊引证信息等)。在CiteSpace中使用Kleinberg,J(2002)年提出的算法进行检测。基本术语:引文年轮Citationtree-rings:引文年环–代表着某篇文章的引文历史。引文年轮的颜色代表相应的引文时间,一个年轮厚度和与相应时间分区内引文数量成正比。CiteSpace图例某个时区的引文量被引次数时区图例首次共被引时间发表时间基本术语:阈值阈值,在数据处理中CiteSpace会按照用户设定的阈值提取出各个时间切片满足的文献,并最后合并到网络中。下面给出三个例子,其他的阈值选择方法将在后文全面介绍。研究前沿与知识基础123知识基础是一个有利于进一步明晰研究前沿本质的概念。如果把研究前沿定义为一个研究领域的发展状况,那么研究前沿的引文就形成了相应的知识基础。研究前沿的知识基础是研究前沿在文献中的引用轨迹。研究前沿的三种典型认识:1.共被引文献聚类2.共被引文献聚类和所有引用这个聚类的文章3.引用共群文章的文献聚类。CiteSpace下载和安装登陆CiteSpace的下载页面~cchen/citespace/download/下载Java下载并解压即可完成安装小提示只有安装了Java才能运行CiteSpace双击打开安装与自己电脑位数匹配的Java版本下载Java进入CiteSpace之前的信息界面界面介绍-CiteSpace功能区及参数区项目区处理报告处理过程文本处理时间切片网络配置网络剪裁可视化设置16547832CiteSpace功能区及参数区项目区:新建项目和项目的编辑空间状态:显示所分析数据的分布情况过程报告:分析数据结果的整体参数数据的时间切片:对数据进行时间切分项目区:新建项目和项目的编辑的重点介绍——如何调整CiteSpace里project的参数最大引用跨度:如果论文A发表于2015年,并引用发表于1978年的参考文献R,其引用跨度为2015-1978+1=38年。CiteSpace可以通过参数LookBackYears(-1:unlimited)的设置来滤掉跨度超过一定长度的引用,比如只考虑10年以内的引用。当该参数的值为-1时,所有跨度的引用都包括再内。最大相邻节点数:Max.No.LinkstoRetain(-1:unlimited)可调节网络模型中每个节点最多可以有多少相邻节点。当该参数的值为-1时,没有任何限制。当该值为正整数k时,网络中每个节点最多可以有k个相邻节点,而且这k个节点是所有相邻节点中关联最强的k个。每项参数的值或者为on/off或者为数字。如提示为(on/off),则说明系统预先设置的值是前面的on。如果要用到Alias,Exclusion等功能,设相应的参数值为on。陈超美.如何调整CiteSpace里project的参数功能区及参数区文本处理:文本处理分为文本处理的知识单元来源和文本的提取网络配置:包含节点、标准化方法和节点提取依据CiteSpace功能区及参数区:网络属性节点类型决定了使用CiteSpace分析的目的作者、机构或者国家的合作网络分析主题、关键词或WoS分类的共现分析文献的共被引分析、作者的共被引分析以及期刊的共被引分析文献的耦合分析合作网络分析共现网络分析共被引分析文献耦合基金分析在CiteSpace中提供了7种节点的选择依据,这里我们推荐topN方法。g-indextopNTopN%Threshold阈值选择ByCitation引证过滤Usage180Usage2013U1使用次数(最近180天);U2使用次数(2013年至今)topN提取的数据至少有一年在topN里面,最后计算节点在数据集中的总和。Threshold阈值选择的补充该功能是同时对节点出现次数和关系强度进行的筛选。第一个值2代表了某个项目(item)出现的次数不低于2次,中间的2代表两个items之间的共现次数最低要为2,并且满足标准化后的余弦标准化强度不小于0.2。这里的0.2是软件默认的ccv值。CiteSpace功能区及参数区——地理可视化菜单GeographicalCiteSpace功能区及参数区-期刊的双图叠加菜单OverlayMaps下面以国际Scientometrics期刊1978-2014年的4003篇论文分析为例说明。当然,在实际数据处理中,并不是分析了所有的数据。723393737484462506961797083826296839981891408911587941011141601291311922332262672623620501001502002503003504001978198219861990199419982002200620102014论文量时间1978-2014年发表在Scientometrics期刊上论文的年度分布国际科学计量学合作网络-作者GlanzelW为当前Scientometrics期刊的主编L.Waltman为JournalofInformetrics现任主编高产作者列表国际科学计量学合作网络:地理可视化(2001-2014)文献的共被引网络界面介绍-CiteSpace可视化界面菜单菜单栏快捷功能区节点信息列表可视化视图区图形属性调整图形位置调整分析结果参数信息Metrics:中介中心性的手动计算View:查看突发性探测结果。网络布局,通常这里不需要用户任何操作。CiteSpace可视化快捷功能快捷功能区节点标签调整连线调整突发性探测聚类功能区节点属性调整结果保存背景颜色运行/停止主题词标签文献标签连线标签图形布局方式聚类标签得到的聚类数量突发性检测(注意使用这个功能要等到网络运行静止后才有效)拖动工具条放大或缩小图形网络中节点信息检索框在网络中逐年显示信息(每个时间段中新增加的关系)右侧的小空白用于显示年份。关键路径识别CiteSpace可视化快捷功能整体色调的可视化图形节点的可视化年轮中介中心性向量中心性Sigma指数PageRank统一尺寸聚类类别WoS总被引次数usage180daysusage2013图形节点标签的可视化标签阈值和大小设置连线的透明度和过滤聚类标签的阈值和大小调整图形连线的可视化调节图形连线的可视化连线的透明度和过滤LinkFilter=0LinkFilter=30LinkFilter=60视图方式-时间线(Timeline)视图方式-时区图(TimeZone)默认45度60度30度0度时间线视图的调整6.CiteSpace数据分析的关键步骤①确定研究主题及其相关术语。运用尽可能广泛的专业术语来确定所关注的知识领域。这是为了所得到的结果能尽可能地涵盖所关注领域的全部内容。该步骤要求用户对自己所关注的领域要比较熟悉。在此前提下用户才能确定出合理的术语,以及需要重点关注的术语问题。②收集数据。在上一步确定好要检索的术语以后,接下来则要选择数据库来获取所要分析的数据。当前CiteSpace所分析的数据类型基础是WebofScience格式,也就是说从WebofScience中下载的数据,CiteSpace直接可以读取和分析。而从其他数据库所收集的数据需要通过转换器进行格式的转换才能进行分析。数据转换的思路是把其他格式的数据转换为WebofScience的数据格式(例如:CNKI2WoS,CSSCI2WoS以及Scopus2Wos等)。③提取研究前沿术语。从数据库文献的题目(Title)、摘要(Abstract)、关键词(Keywords)、系索词(Descriptor)和标识符中检索N元文法(N-grams)或专业术语,出现频次增长率快速增加的专业术语将被确定为研究前沿术语。④时区分割(TimeSlicing)。在CiteSpace中需要明确要分析的时间跨度(开始时间和结束时间),以及这个时间跨度的分段长度(即单个时区的长度)。CiteSpace数据分析的关键步骤⑤阈值的选择。CiteSpace允许用户使用三种方法来设定阈值。分别为TopN法,TopN%法以及ThresholdInterpolation法。⑥网络精简和合并。在CiteSpace中提供两种网络精简算法,分别为Pathfinder和MST。在对数据进行初始分析时,一般不做任何精简。通过初步得到的结果,再决定采用何种精简方法。⑦可视化显示。CiteSpace的标准视图(默认)为网络图,此外还有Timeline和Timezone视图。⑧可视化编辑和检测。得到图谱之后借助CiteSpace可视化界面提供的网络可视化编辑功能美化图形,也可以利用提供的网络计算功能对网络进一步分析。⑨分析结果的验证。使用CiteSpace得到分析结果后需要与熟悉本专业的学者、专家进行沟通。特别地,建议对网络中突出的关键节点的作用进行咨询。①结构是否能看到自然聚类(未经聚类算法而能直观判定的组合),观察通过算法能得到几个聚类?是否包括一些重要的节点,如转折点(Pivotnode,有紫色外圈的节点,具有高的中介中心性的节点)、标志点(Landmarknode,如每个节点大小代表它的总被引次数,节点越大则总被引频次越高)和具有高的度中心性的点(Hubnode,枢纽节点,具有高的度中心性)。CiteSpace可视化网络中的几类重要节点特征CiteSpace结果解读的提示②时间每个自然聚类是否有主导颜色(出现时间相对集中),是否有明显的热点(节点年轮中出现红色年轮,即被引频率是否曾经或仍在急速增加)?通过各个年轮的色彩可判断被引时间分布。
本文标题:第3讲-CiteSpace安装及分析功能
链接地址:https://www.777doc.com/doc-4758381 .html