您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > DBpedia说明文档
DBpedia知识库说明文档[摘要]在现有的语义网项目架构中,基于关联数据形式的知识库项目往往处于整个语义网络的核心,如何对于这些知识库的知识内容进行组织、储存和查找就成为了决定整个语义网络运行效率的关键因素。在目前的关联数据知识库项目中,DBpedia是较为典型且成熟的一个,DBpedia网站使用本体的方法来对其条目内容进行组织和存储。一、DBpedia本体的类和条目属性分析根据斯坦福大学医学院发本体的构建七步法,构建本体有如下七个步骤:(1)确定本体的专业领域与范畴(2)考察复用现有本体的可能性(3)列出本体中的重要术语(4)定义类和类的等级关系(5)定义类的属性(6)定义属性的分面(7)创建实例但以上所述的七步法仅适用于某一专业或学科领域本体的构建。在DBpedia知识库一例中,由于所需要构建本体的是维基百科条目,因此其专业领域与范畴无法简单确定,因此在DBpedia的本体构建中,采用了类似于以叙词表为基础的自动化本体转换的方式。但同样的,维基百科的词条表并非规范的叙词表,其类目划分也无法简单归于某一专业分类之下,词语的专指度不可避免的出现不足,因此,在DBpedia的本体构建中,类目划分和定义基本是人工完成,之后的条目转换才使用了自动转换的方式。1.1DBpedia类共有属性分析本体的体系结构主要包括3个要素:核心元素集、元素间的交互作用以及这些元素到规范语义间的映射关系。对于本体的一般构造过程,可以用以下公式进行表示:本体=概念(Concept)+属性(Property)+公理(Axiom)+取值(Value)+名义(Nominal)从以上的一般公式中,我们还可以归纳出本体当中的基本关系类型,共有四类:(1)part-of关系,表达概念之间部分和整体的关系(2)kind-of关系,表达概念之间的集成关系(3)instance-of关系,表达概念的实例和概念之间的关系(4)attribute-of关系,表达某个概念是另一个概念的属性由于DBpedia知识库的本体从分类上属于知识本体,因此在类和条目的属性设置上需要体现以上四种关系。如图1所示,DBpedia的类除了名称这一唯一标示之外,还有如下共有属性:图1DBpedia类属性实例(1)Type属性,类型是类与条目的根本性区分,以图中‘Film’这个类为例,它的类型属性值是‘Class’,而该类下属的具体电影条目的属性则是‘Film’。(2)Istypeof属性,这一属性列出了该类下属的所有条目(3)SubclassOf属性,这一属性表明该类的上级类(4)IsSubclassOf属性,这一属性表明该类的下级类(5)Sameas属性,这一属性值指向一个URI,其中说明了所有跟该类同义的词语以上是DBpedia本体类的五个共有属性,从该属性定义中可以看出,由于条目数量多,类目归属复杂,DBpedia类的属性定义较为简单。但仍能体现概念之间的关系。此外,由于名称的复用可能存在,因此DBpedia类和条目的属性命名匹配规则都较为严苛。仍以图中Film类为例,当以film为索引词查找该类时,无法直接得到反馈结果。由于DBpedia的使用用户生成内容较为随意,在创建本体时为类和条目添加了Sameas属性,以反映不同名称的同一事物。1.2DBpedia条目属性分析在DBpedia本体体系当中,条目与类是两种不同属性的概念。简单的区分而言,DBpedia本体体系中的条目相当于一般本体体系中的概念、属性和取值的集合,三者共同描述某种客观事物,而类则相当于一般意义上的分类概念,并不指代某种具体事物,而是一类事物的共有概念。因此,DBpedia本体的条目属性除了表明其与类和其他概念的关系和联系之外,还根据其所属的类拥有各自独特的属性。图2DBpedia条目属性实例从实例条目中,DBpedia条目所共有的关系属性仅有一条,即:(1)Type,如类属性,在不同的本体语言下其Type定义不同。在DBpedia本体语言下,条目的Type属性是其所有上级类。如例所示,该条目所描述的运动员从属于“运动员”、“花样滑冰运动员”和“人”三个类,因此其Type属性在DBpedia本体语言下有三个值。而根据其从属类的不同,DBpedia本体体系中的条目拥有独特的用以说明其概念的属性,如上例的运动员有“出生年月”、“性别”等属性。1.3DBpedia本体属性设置的评析从实例分析中,不难看出,DBpedia的本体设计和构建符合以上本体构建原则。尽管由于原维基百科的条目存在重名,以及单个概念在不同领域的不同含义等问题,但在DBpedia本体的构建过程中,以名称为区分条目和类的最根本区别。使用了添加后缀等命名规则来区分在原维基百科条目中重名条目。同时,针对不同类或条目所涉及的不同概念,合理的添加了能够反映其概念特质的属性。同时,针对不同本体语言,DBpedia还对同一属性做了不同取值,这样在使用和查询的过程中,能够用多种本体语言对DBpedia知识库的数据内容进行查找。2.DBpedia本体结构分析基于DBpedia类和条目的属性,DBpedia本体的结构较为简明,规则大致如下:(1)以“事物(Thing)”这一概念来总括描述DBpedia本体中所涉及到的所有客观事物。(2)事物(Thing)类下分有不同的子类,每一个子类都可以有它自己的子类(3)条目用以描述具体的事物,从属于某个类和它的全部上级类2.1DBpedia本体结构表事物活动游戏运动解剖结构动脉骨骼脑胚胎淋巴肌肉神经静脉奖杯化学物质化合物颜色货币数据库生物数据库装置汽车引擎武器疾病药物民族事件协约选举电影节武装冲突音乐节太空任务体育项目足球赛国际长途汽车大奖赛武术混合项目奥林匹克赛跑女子网球联合会赛事摔跤太空航行年份食物饮料假日语言案件美国最高法院案件交通方式飞机汽车火车火箭轮船太空舱空间站航天飞行器音乐流派姓名名奥林匹克成绩组织乐团广播电视台广播网络公司广播台电视台公司航空公司唱片公司教育组织学院学校大学政府机构立法机关军事单位非营利性组织政党运动联赛美式橄榄球联赛澳式足球联赛高速赛车联赛篮球联赛棒球联赛加拿大式橄榄球联赛板球联赛曲棍球联赛高尔夫球联赛冰球联赛手球联赛轮滑曲棍球联赛长曲棍球联赛武术混合联赛摩托赛车联赛马球联赛英式橄榄球联赛足球联赛垒球联赛速滑联赛机车联赛网球联赛电子游戏联赛排球联赛运动队伍美式橄榄球队篮球队加拿大式橄榄球队曲棍球队足球俱乐部摩托车队公会人物大使建筑师艺术家演员成人演员喜剧演员动漫画家音乐人作家宇航员运动员澳式足球运动员羽毛球运动员棒球运动员篮球运动员拳击手板球手自行车手花样滑冰运动员一级方程式赛车手盖尔运动员高尔夫球手美式橄榄球运动员美国橄榄球运动员冰球运动员武术家全美汽车比赛选手大学生运动会运动员英式橄榄球运动员斯诺克运动员斯诺克冠军足球运动员网球运动员摔跤手英国皇室牧师红衣主教基督主教圣徒足球教练罪犯虚构人物动漫人物记者法官军事人员模特君主官员哲学家《花花公子》玩伴女郎牌手政客大法官国会议员州长市长议会议员总统首相参议员科学家足球经理地点建筑结构建筑历史建筑医院旅店灯塔博物馆餐厅超市体育场剧院基础设施机场火箭发射台发电厂道路交通桥梁公交中转系统铁路公路三岔路口隧道车站公园历史名胜纪念碑自然景点水体湖泊流动水体运河河流山洞环形山山山脉峡谷人类居住地行政区划大陆国家岛屿定居地城市城镇村庄保护区滑雪区产酒区世界文化遗产保护地星球编程语言计划研究计划蛋白质单曲斯诺克世界排名种群古细菌细菌真核生物动物两栖类蛛型类鸟类甲克类鱼类昆虫哺乳类软体类爬行类真菌植物石松类针叶类苏铁类蕨类有花植物葡萄银杏类苞果类绿藻类苔类劳动成果电影音乐乐曲专辑单曲欧洲歌唱大赛参赛曲软件电子游戏电视剧真人秀网站书面成果书期刊文献学术期刊杂志报纸戏剧其他类2.2DBpedia本体结构的优点和存在的问题从上表可以看出,DBpedia的本体结构从整体上仍借鉴和使用了维基百科的类目分类方法。由于其本体结构较为简单,类之间只有不同层之间的从属关系而没有同层之间的其他关系,因此在维护和添加数据时较为方便,可扩展性良好。对于数据扩充极为迅速的DBpedia项目而言,这种结构有利于它的数据扩充和维护。但DBpedia的本体结构也存在问题,主要是本体类的设置较为随意,同层次之间的类概念语义联系极弱。在某些领域的类划分过于详细,其他则比较粗糙。这就造成在目前的阶段,DBpedia在线知识库的搜索和查询效率不高,在线查询的稳定性差等问题。参考文献(1)MikeUschold,MichaelGruninger.Ontologies:Principles,MethodsandApplications.KnowledgeEngineeringReview,1996,11(2):5-33.(2)Bizer,Christian;Lehmann,Jens;Kobilarov,Georgi;Auer,Soren;Becker,Christian;Cyganiak,Richard;Hellmann,Sebastian(September2009).DBpedia-AcrystallizationpointfortheWebofData.WebSemantics:Science,ServicesandAgentsontheWorldWideWeb7(3):154–165.(3)邓志鸿,唐世渭,张铭等.Ontology研究综述.北京大学学报(自然科学版).2002,38(5):730-738.
本文标题:DBpedia说明文档
链接地址:https://www.777doc.com/doc-2909531 .html