您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 理论文章 > CiteSpace展示报告
CiteSpace软件展示报告一、概述CiteSpace是由美国德雷塞尔的陈超美教授开发的一款可视化文献分析软件,能够显示一个学科或知识域在一定时期发展的趋势与动向,形成若干研究前沿领域的演进历程。简单说来,就是找出学术文献中文字(包括:作者,杂志,关键词,被引用词汇等等)的关系,并可视化表示出来。二、作者简介陈超美(ChaomeiChen),男,1960年9月生于中国北京,英国籍,美国德雷塞尔大学(DrexelUniversity,Philadelphia,PA,USA)信息科学与技术学院副教授(终身教职)。大连理工大学长江学者讲座教授,Drexel–DLUT知识可视化与科学发现联合研究所所长。他是当代信息可视化与科学知识图谱学术领域中的国际顶尖学者和领军人物之一信息可视化新领域的最早开拓者之一。陈超美的个人博客有相关最新内容。CiteSpace的主页~cchen/CiteSpace/有一部分基础资料可以作为蓝本学习使用软件。陈超美的与他的CiteSpace的发展历程:1999年率先发表了该领域第一部专著2002年创办了该领域第一份该领域的专业期刊《InformationVisualization》2002年独立创办了每年一度的SymposiumonKnowledgeDomainVisualization(KDViz)系列国际讨论会。2004年开始利用其开发的软件CiteSpace,在该领域写出了不少经典论文,如《Searchingforintellectualturningpoints:ProgressiveKnowledgeDomainVisualization》《CiteSpaceII:Detectingandvisualizingemergingtrendsandtransientpatternsinscientificliterature》2005年提出信息可视化领域面对的十大挑战性问题;在信息可视化领域中引入Pathfinder算法,扩展和提高了文献引文共被引网络分析的效率和应用范围。2011年7月发布CiteSpace2.2R11版本。最新版本是今年7月份发布,不过它需要64位的大内存的电脑去支持。三、信息可视化与科学知识图谱的发展历程因为CiteSpace是一种可视化软件,它与科学知识图谱有密切关系,我们大概讲一讲这个发展过程。科学知识图谱基本概念:1、传统的科学计量学图谱以简单的二维、三维图形(如:柱形图、线性图、点布图、扇形图、平面图等)表达科学统计结果2、新时期的科学计量学图谱随计算机处理能力日益提高,文献信息电子化和专利授权,知识图谱等工具在模拟人类数据分析等方面,可帮助人类进行某些领域的判读、搜索、决策、预测……例如:文献共被引,一段时间内文献聚类。只要有坐标、有文献的发表出处地点,结合地图就能形成一幅文献地理位置图3、CiteSpace研究领域(1)CiteSpaceII的概念模型在第一代Citespace中,用户只能通过视觉观察找到网络中连接不同聚类的点,进而确定关键点。而CitespaceII有了更好的优化,能用时间切片抓拍(Time-slicedsnapshot)来显示研究领域的演变。接下来我们只会着重介绍CitespaceII。(2)CiteSpace工作流程(3)我们能用CiteSpace做什么?①研究热点和前沿分析——聚类图A:重要学科领域分析(以术语和学科主题作为网络节点)学科领域分布图B:研究前沿的知识基础分析(以参考文献作为共引分析节点)基于文献共被引的网络知识图谱引文数据Source共引矩阵Co-CitationMatrix解释Interpretation检索Retrieval自动标注AutoLabeling类标签ClusterLabels降维DimensionalityReduction因子、主成分Factors,Components,…意义和分析线索SenseMakingandAnalyticCues分类Categorization被引文献CitedAuthor/References概述Summarization主题句TopicalSentences引文的SVDSVDofCitingArticles引文网络NetworkofCitingArticles聚类Clustering类Clusters可视化Visualization图谱Graphics聚合AggregateC:研究热点分析(关键词作为网络节点)基于关键词共现的网络知识图②研究前沿与发展趋势分析——时序图(timeline、timezone)③实现文献计量与地理地图的整合(GoogleEarth)④……四、术语解释1、Nodes节点——在绘图软件中,节点即曲线中的控制点、交叉点,网络连接的端点。2、Centrality节点中心度——是指其所在网络中通过该点的任意最短路径的条数,是网络中节点在整体网络中所起连接作用大小的度量。中心度大的节点相对地容易成为网络中的关键节点。3、Betweennesscentrality中间中心性——用来进行中心性测度的指标,指网络中经过某点并连接这两点的最短路径占这两点之间最短路径线总数之比。中间中心性高的点往往位于连接两个不同聚类的路径上。4、Burstterms突现词——通过考察词频,将某段时间内其中频次变化率高的词从大量的主题词中探测出来。5、Citationtree-rings引文年环——代表着某篇文章的引文历史。引文年轮的颜色代表相应的引文时间。一个年轮厚度和与相应时间分区内引文数量成正比。6、Citationhalf-life引文半衰期——半衰期描述引文(文献)老化程度,半衰期越大,显示引文的有效价值越大。7、Pathfindernetworkscaling路径网络简化——种网络简化算法。8、Minimalspanningtrees最小生成树——种网络简化算法。9、Pivotalpoints(Turningpoints)关键点(转折点——网络中中间中心性大于或等于0.1的节点CiteSpace图谱中用紫色的节点表示网络中的关键节点。10、Thresholds阈值——用户在引文数量、共被引频次和共被引系数三个层次上,按前中后三个时区分别设定阈值,其余的由线性内插值来决定。11、Time-zoneview时区视图12、Timeslicing时间分割——设定整个时间跨度和单个时间分区长度。13、Researchfront研究前沿——定义为一组突现的动态概念和潜在的研究问题,引证文献组成了研究前沿。14、Intellecturebase知识基础——是它在科学文献中(即由引用研究前沿术语的科学文献所形成的演化网络)的引文和共引轨迹,被引文献组成了知识基础。五、软件安装与简介1、环境配置CiteSpace是一个以java语言编写的程序,必须依托浏览器进行启动。因而必须首先配置java环境。要CiteSpace能正常运行,系统必须安装6.0以上的JDK(JavaDevelopmentKit)才可以,具体只需要登录java官网下载最新版本的JDK并安装即可。目前最新的版本为JDK7.9版。下载地址:、安装包下载CiteSpace目前最新的版本为3.1R3版,但是该版本是基于64位系统开发的,有可能在32位的系统上出现错误,并且需要通过java虚拟机(JVM,JavaVirtualMachine)来运行,所以建议使用32位系统的同学选择3.0R5版进行下载。下载地址:~cchen/CiteSpace/download.html而如果是64位系统的同学,就选择3.1R3版本里最新的链接。JVM需要在内存中运行,所以,需要按照具体电脑的内存容量来选择所运行的JVM。由上至下分别是512M、1GB、2GB和4GB内存的JVM,可适当选择。文件为一个JNLP文件,大小约200K。下载完成后,打开该JNLP文件,会弹出以下一个对话框,勾选“我接受风险并希望运行此应用程序”,并按“运行”,则可自动安装。安装完成后,会弹出以下一个窗口,将其最大化后,点击最下方的Proceed按钮,即可进入CiteSpace。如见到下面的画面,证明安装已成功完成。3、控制界面简介(1)数据库选择在CiteSpaceII中,用户可以从webofscience中下载数据,然后导入到CiteSpace中进行分析,也可以从PubMed(公共医学数据库)中直接下载数据到CiteSpace,然后进行分析。(2)数据导入区在webofscience数据库下,这一区域主要用于导入已下载的数据,可以通过设置文件的存储路径来读取数据文件。而在PubMed数据库下,则可以直接在Query框内输入关键字、时间跨度等直接下载数据进行分析。(3)设置时间分隔在这个区域可以设置要读取的文件的时间跨度,并且设置CiteSpace统计的时间片。如果需要以每三年或每五年作为文献的研究时间片,可以在Slice处设置3或5。(4)图像的端点类型和连线的计算方式这个选项比较关键。上面一个选项主要用于确定生成的图像中的端点代表是什么。有参考文献、作者等等的选项。下面一个选项是用于确定生成的图像中两点间的线的粗细程度,通过计算两个端点(可以是两篇参考文献、两个作者等)的余弦相似度确定两点间连线的粗细,相似度越高,连线越粗。(5)节点与连线筛选这一区域是生成图形中最关键的一步。这几种方式主要来控制最终生成的网络将由哪些节点组成。这是第一种方法,第一种办法最简单,最适于初学阶段,所以目前版本将其放在首位。其余几种办法逐渐变得复杂,最好等熟悉系统之后再考虑。TopN:系统设定N=30,意为在每个timeslice中提取N个被引次数最高的文献。N越大生成的网络将相对更全面一些。TopN%:将每个timeslice中的被引文献按被引次数排序后,保留最高的N%作为节点。ThresholdInterpolation:设定三个timeslices的值,其余timeslices的值由线性插值赋值。三组需要设置的slices为第一个,中间一个,和最后一个slice。每组中的三个值分别为c,cc,和ccv。c为最低被引次数。只有满足这个条件的文献才能参加下面的运算。cc为本slice内的共被引次数。ccv为规范化以后的共被引次数(0~100)。SelectCiters:与以上方法不同的是这个方法先选施引文献,然后需再用方法1-3之一。先CheckTCDistribution然后填写UseTCFilter后面的两个数字:最低和最高TC值(TimeCited),选定UserTCFilter前的选项。按Continue,再设定方法1,2,或3。(6)修剪图像这一选项主要用于对生成的图像进行路径的寻找、发现最小生成树和修剪产生的网络,留下最主要的枝干。(7)图像生成选项这一选项主要用于确定产生的图像聚类时是使用动态还是静态的方式进行聚类,同时也可以选择是按时间片来分开不同时间段的图像还是融合到一起来表现。4、图像界面首先主要介绍工具条上的主要功能:自动聚类和添加聚类标签后可以得到这样的图:然后我们介绍一下图像的控制面板:六、具体应用1、关于Terrorism的文献分析这一个例子的分析是基于作者在《CiteSpaceIIDetectingandVisualizingEmergingTrends》这篇文章里的详细分析。(1)背景介绍恐怖主义(1990~2003年):1995年的俄克拉荷马城爆炸和2001年的9.11恐怖主义袭击是最具杀伤力的恐怖主义事件。其每个事件都可能改变研究的进程。科学共同体如何应对这些事件和衍生的结果?这个研究领域的新兴研究前沿是什
本文标题:CiteSpace展示报告
链接地址:https://www.777doc.com/doc-5029151 .html