您好,欢迎访问三七文档
国家科学图书馆青年人才领域前沿项目结题报告基于本体的科学知识图谱分析方法研究撰写人:王建芳、吴清强、张超星、安新颖撰写时间:2011年6月10日摘要由于目前基于共词关系绘制的科学图谱可读性不强的问题,本研究尝试利用本体的语义关系来优化共词科学图谱的关系展示,通过理论分析、实验案例来揭示其可行性和有效性。本研究借鉴相关领域的研究成果,提取本体关系中的上下位关系及关联关系计算词与词之间的语义关系,并根据两种类型的语义关系构建了其与共词关系融合的算法。通过“农业污染”领域的案例实验,分析了共词关系与本体中体现的上下位关系、关联关系融合的效果,结果显示,上下位关系对共词关系图谱的优化效果有效,而关联关系可以在一定程度上丰富语义关系,并优化聚类结果。关键词:科学知识图谱;本体;关系融合AbstractAsamethodofscience-mapping,co-wordbasedmappingalwayshaveaquestionofreadability.Thisstudyattemptedtousesemanticrelationstooptimizetheco-wordbasedsicencemapping.Thesemanticrelationsaredefinedbyontology.weusetheoreticalanalysisandtestcasetorevealthefeasibilityandeffectiveness.Inthisstudy,drawingonresearchinrelatedfields,weextractedhyponymyrelationsand“related”relationsbetweenwordsfromtheselectedontology.Thenbasedonthetwotypesofsemanticrelations,builttheintegrationalgorithmbetweensemanticrelationsandco-wordrelations.Throughtheagriculturalpollutionfieldcaseexperiments,theresultsshowthathyponymyrelationscontributesfewtotheresultsofco-wordscicenemapping,while“related”relationsisbetter,andafterrelaitonintegration,wecanseerichersemanticrelationstosomeextent,andoptimizedtheclusteringresults.Keywords:sciencemapping;ontology;relationintegration目录一、研究背景与现状................................................................................11.1研究背景............................................................................................11.2国内外研究进展...............................................................................21.2.1科学知识图谱及相关研究进展.................................................21.2.2基于本体的情报分析研究进展................................................4二、科学图谱语义解释性问题及引入本体的可行性............................62.1科学图谱语义解释性问题的分析...................................................62.2基于共词的科学图谱中引入本体关系的可行性分析...................72.2.1构建共同的分析词条................................................................72.2.2基于共词关系与本体关系的关系融合的思路.........................82.3研究思路............................................................................................8三、基于本体的科学图谱分析方法........................................................93.1共词关系与本体关系计算的方法...................................................93.1.1本体层次关系及关联关系的计算............................................93.1.2共词关系计算..........................................................................113.2共词关系与本体关系融合的方法.................................................12四、案例验证及结论分析......................................................................134.1案例实验的实施.............................................................................134.1.1适用本体的选择与结构解析...................................................134.1.2案例试验流程..........................................................................154.2研究结果分析.................................................................................17五、存在的问题及展望..........................................................................20附录...........................................................................................................211一、研究背景与现状1.1研究背景在科学技术自身发展取得巨大进步的同时,对于科学技术发展演化特征的解读也在日益繁荣。科学技术史考证史实,梳理科学发展的脉络;科学技术社会学审视科学与技术建制的结构与运行机制,描述科学技术与社会的关系;科学哲学界定科学,反思科学,诠释科学发展的逻辑;创造学总结技术系统进化的规律性。关注科学与技术发展的相关学科对科学技术知识演化的特征做出了规律总结。情报科学以独特的视角和方法观察、展现科学活动与科研成果。情报学的独特视角在于利用科学与技术知识的载体作为分析对象,尝试利用定量的方法解读科学与技术知识之间的关联性。随着文献计量学的发展,尤其是可视化技术的进步,科学图谱方法在揭示科学领域之间的相关关系及其发展演化等方面得到了广泛的应用。绘制科学图谱的一般方法包括了共引分析方法、引文耦合分析方法、共词分析方法,以及融合了其他文献特征的综合分析方法等。但无论分析方法如何改进,采用何种可视化计划,基于这些方法绘制的科学图谱一直存在可视化结果可读性不高、结果解释性不够的问题。因此,对于科学图谱方法的优化是必须解决的问题。这一问题的解决首先有赖于分析对象之间语义关系的明确。而知识组织系统对人类知识结构的表达能力在不断提升,包括能揭示语义关系的叙词表、语义网络和本体等,它们通过对于概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识体系和描述语言,为计算机实现类似人的思考构建一个概念层次。而概念层次关系的模糊性正是科学图谱方法中导致可读性不高的关键问题,为此,本文试图借助知识组织系统的概念关系来优化科学图谱方法,以提升科学图谱展示的科学进展的质量。21.2国内外研究进展1.2.1科学知识图谱及相关研究进展在科技哲学与科学社会学等领域,对于科学和技术知识演化及其关系的理论阐述已经非常成熟。文献计量学、科学计量学作为对科学技术发展状况进行数字解读的学科也已经得到了长足的发展,尤其在利用信息可视化技术实现科学发展的展示方面,已经成为目前领域研究的热点,利用其揭示科学发展的前沿等特征的尝试也越来越多。对科学技术发展演化状况进行可视化分析的方法,即科学图谱分析方法。科学图谱分析方法的研究中,包括分析过程中若干阶段的研究和实践,力图以更客观真实的图示为读者提供科学发展状况的简化描述。该过程可以大致划分为如下几个阶段:根据分析的目的确定计量分析的文献特征;选择分析的方法,构建合适的文献特征之间的关联;对关联特征进行适当的数字化表述,以尽量客观的方式反映知识关系;对数字关系以清晰、易读的可视化形式呈现给读者。用于计量分析的文献特征有很多,而可用于分析的文献特征中,具有知识表达功能的只有引文、分类和词(短语),如基于引文的共引分析和基于主题词的共词分析等。引文指向的是一篇文献,代表的是一条法则、规律或一个问题,可以认为是若干知识单元的集合,所以基于引文的分析是不能反映微观层次的知识关联的。分类一般代表的是一个综合的知识领域,即使是比较详细的分类,对微观知识的反映也是有限的。因此,为了明确分析知识之间的关联关系,只有选择知识继承与发展的最小功能单元,即词作为分析对象。共词分析基于的是词之间的关联而进行的知识关联分析,词是代表概念的,因此相比共引分析而言,共词分析揭示的是更微观的知识关系。但是一般的共词分析没有揭示词之间的语义关系,DT方法作为共词方法的一种3改进,利用临近度来揭示语义关联性。在这些研究领域,国外开创了方法研究的先河,近年来,国内也有越来越多的学者开始这方面的研究和实践应用。本研究为揭示知识之间的关联关系,选择共词分析的方法,为此以下的研究现状论述以共词分析为主。早期共词分析方法的基本思想是以问题网络的层次结构为基础,通过包容指数和临近指数两个指标寻找中心-边缘关系,发现目前规模较小但是具有成长潜力的领域,并将问题网络展现为包容地图和临近地图。在包容图中通过比较问题网络的结构变化说明知识的发展变化,这里的指标通常包括:中心词的个数、点的位置变化、点与点之间的关联变化、网络密度、结构层次等。临近地图揭示具有较强关联性的小主题。随着阈值的降低,越来越多的高频词之间的强关联包括进来。因此它又被认为是自下而上的分析,揭示问题网络中的微单元知识。由于上述方法的复杂性及结果解释等问题,后来学者们又开发了基于网络密度和中心度的网络分析方法,并据此建立空间坐标、进行网络比较等。这里密度用来度量共词网络中聚合成一个主题的内部凝聚程度,中心度用来度量一个研究主题和其它研究主题的相互影响程度。将密度与中心点分别作为横纵坐标绘制战略坐标图,通过研究主题在图中的位置,以及比较主题在不同时期的位置变化,可以对领域的发展进行一定的预测。相比较初期的方法,该方法的易操作性大大提高,因此得到了比较广泛的应用。类似于共引网络聚类图的展现,后来的共词网络分析也依据各种相关度指数,如ja
本文标题:[本体-知识图谱]_国家科学图书馆青年人才领域前沿项目结题报告-基于本体的科学知识图谱分析方法研究
链接地址:https://www.777doc.com/doc-2831020 .html