您好,欢迎访问三七文档
知识组织——智能信息系统之五知识组织的概念知识组织的产生和发展:“知识组织”最早出自图书馆学和文献学的研究领域,1929年英国著名的分类法专家《书目分类法》(BC)的编制者H.E.布利斯(H.E.Bliss,1870-1955年)首次提出了“知识组织”的概念,并出版了《知识组织和科学系统》、《图书馆的知识组织》两部著作。知识组织的内涵:知识组织就是对知识元素的本质内容和知识元素之间的关联进行揭示和序化的活动。知识组织的研究内容①知识组织的理论基础,包括其指导思想、基本原理、研究对象等。②知识组织的方式和方法。③知识组织的手段和技术。④知识组织的工具和语言⑤知识库的建模、管理、更新与维护。⑥知识组织系统及其构成要素知识组织过程知识组织过程一般包括知识提取、知识重组、知识表示、知识存储和知识学习等关键阶段。知识组织方式基于知识元素的知识组织方式:这种方式主要注重知识元素本身的内容与意义。常见的如分类、聚类、元数据等就属于这类组织方式。基于知识关联的知识组织方式:这种方式主要注重知识元素间的关系和约束,例如,概念网络、知识地图等属于这类组织方式。知识组织方法分类组织法元数据组织法基于本体的组织法基于内容的多媒体知识组织法分类组织法(1)按学科分类。它的基本原理是:以学科分野作为区分知识集合的标准,将相同学科的知识集合在一起,以类目(具有相同属性知识的集合性概念)表征知识元素,以类目的等级体系表征知识关联。(2)按主题概念分类。以知识客体的主题概念作为分类知识的标准,将相同或相近主题概念的知识聚集在一起,用主题词表征知识元素,用参照系统(主题词之间的关系)显示知识关联。分类组织法(3)按人或对象聚类。按人或事物对象为分类标准的组织方法,将与某人或某物相关的内容集合在一起。例如:马列主义、毛泽东思想、邓小平理论、鲁迅著作等。。(4)按用途分类。以知识本身的用途或效用为标准来分类知识,将符合同一应用需求的内容集合在一起。分类组织法(5)按时空分类。知识具有一定的时空特性。按知识的时空分类就是根据知识产生的时间和空间为标准来组织。如按年、月、日分类,或者按国家、地区分类等。(6)聚类。是指在分类标准未知的情况下,将知识元素按其内容和相互关联程度聚合成不同的类(或簇)。例如,划分法、层次法、基于密度的方法、基于模型的方法等。元数据(Metadata)组织法元数据:既是一种对数字化信息进行组织处理的数据结构标准,常用的元数据体系有DublinCore、MARC、CORC系统等,其中DublinCore(简称DC,都柏林核心)是目前广泛承认和支持的电子信息资源元数据模式。元数据组织法:指对信息元素及其集合进行规范描述从而形成元数据,并依据其将分布式的信息资源整合成有机知识体系的组织方法。元数据的结构元数据组织是通过多层次结构予以完整定义的,包括:内容结构(ContentStructure),是对元数据的构成元素及其定义标准进行描述。句法结构(SyntaxStructure),是定义元数据整体结构以及如何描述这种结构。语义结构(SemanticStructure),是定义元数据元素的具体描述方法。元数据的结构——内容结构①描述性元素(DescriptiveElements),即对数据对象的基本内容特征进行描述的元素,例如题名、作者;②技术性元素(TechnicalElements),即对数据对象制作、传递、使用或保存过程中的技术条件或参数进行描述的元素,例如扫描分辨率、压缩方法、使用软件;③管理性元素(AdministrativeElements),即对数据对象及元数据本身的管理进行描述的元素,例如有效期限、使用权限;④复用元素(ReusedElements),即该元数据集从其他元数据集中复用的元素,有可能需要对其语义范围和编码规则进行修订。元数据的结构——句法结构①元素的分区分层分段组织结构,例如MARC分成头标区、目次区和数据字段区,EAD分为头标段、前面事项段和档案描述段,CEDARS分为保存描述信息和内容信息;②元素结构描述,一般用XMLDTD.XMI,Schema,RDF或SGMLDTD来定义;③元素复用方式,可以通过命名域(namespace)来链接相关DTD,Ontology或内容规范。元数据的结构——语义结构语义结构定义了元素语义的具体描述方法,包括三个层次:①元素定义;②元素内容编码规则定义;③元素语义概念关系定义。元数据的结构——语义结构①元素定义;是对元素本身有关属性进行明确定义,一般采用国际标准IS011179-3,通过以下10个属性来界定元素:Name,元素名称;Identifier,元素标识;Version,版本(采用该元素的元数据版本);RegistrationAuthority,登记机构;Language,语言(元素本身的语言);Definition,定义;Obligation,使用约束;Datatype,数据类型;MaximumOccurrence,最多出现次数;Comment,注释。元数据的结构——语义结构②元素内容编码规则定义;它确定在描述元素内容时应该采用的编码规则。内容编码规则可以是特定标准,或是最佳实践,或是自定义的描述要求.例如DublinCore建议日期内容编码采用ISO8601,资源类型编码采用DCMIType、媒体格式编码采用IMT、标识符采用URI、主题词可使用LCSH、MESH、DDC、UDC以及LCC。③元素语义概念关系定义。这些元素可能在不同的领域有不同的含义,例如Title在文献领域是文献标题,在社交领域则是人名职衔。因此,需要把元素放在一个概念体系中来说明它的上下文关系,说明它与其他概念的关系。基于本体的知识组织法本体论(Ontology)这一概念源自于哲学,原意是指关于存在的客观世界及其本质和规律的学说。本体(ontology)是表述哲学理论的术语,是物质存在的一个系统的解释,这个解释不依赖于任何特定的语言。本体已广泛应用于企业的知识分类、知识组织等知识管理中。近年来,本体的概念被越来越多的应用于计算机知识工程、自然语言处理、知识表示、知识获取等领域,用于对客观世界的存在现实进行系统化描述,方便知识的集成、共享、重用和交互。基于本体的知识组织法本体的定义公认的本体定义是TomGruber于1994年在SRKB(SharedReusableKnowledgeBases)的E-mail列表中提出的定义:“本体是关于共享概念的协议。共享概念包括对领域知识建模的概念框架、可互操作的系统通信协议和特定领域理论的表示协议。在知识共享环境中,本体以定义表达词汇的形式来获得描述。”基于本体的知识组织法本体的组成元素(一个本体可由概念、关系、函数、公理和实例组成。(1)概念——表示广义上的概念,是从不同层次对领域知识的抽象描述,它可以是一般意义上的概念,也可以是任务、功能、策略、行为、过程等的概括。概念具有各种静态和动态的性质。依据概念的语义,概念之间具有各种语义关系;(2)关系——表示概念之间的关联,例如一些常用的关联:等级关系、等同关系、相似关系等语义关系;其中的等级关系,描述概念之间的本质关系,因此在本体的描述中,概念通常用类(Class)来定义,从而构成分类层次结构;(3)函数——是一类特殊的关系,即由前n-1个要素来唯一决定第n个要素,如数学函数:长方形的长和宽唯一决定其面积;(4)公理——表示永真式,本体中,属性、关系和函数都具有一定的关联和约束,这些约束就是公理,公理一般用槽的侧面(Facet)来定义;(5)实例——表示属于某个概念类的具体实体元素。基于本体的知识组织法本体的构造方法(1)确定本体的目标。(2)确定本体的主题范围(3)建立本体;(4)检查和评估本体。(5)提交本体和反馈基于本体的知识组织法本体概念层次结构的组织概念是本体中的基本知识元,通常用类(Class)来定义。因此,本体的概念层次结构实际上就是一种类层次结构。下一页图中的信息系统本体就具有典型的层次结构。基于本体的知识组织法基于本体的知识组织法本体概念层次结构的组织方式有三种:自底向上法自顶向下法中间开始法基于本体的知识组织法(1)自底向上法自底向上法的过程是,从类层次结构的底层开始,首先定义最细化、最专指的叶子结点类,然后逐步将这些类概括,形成较综合的上层概念类。自底向上法的缺点是容易产生过多的细节,进而导致重复工作和不一致性。基于本体的知识组织法(2)自顶向下法自顶向下法的定义过程是:从类层次结构的顶层开始,首先定义最通用的概念类,然后逐步将通用概念分解,形成专指概念。自顶向下的方法可以较好地控制细节,但是由于高层概念的产生比较随意,不是通过自然聚合形成的,因而容易导致整体模型的不稳定性。基于本体的知识组织法(3)中间开始法鉴于自底向上法和自顶顶向下法的缺陷,中间开始法是一种可操作性更强的组合式方法。中间开始法就是从概念集合中选取最重要的对象概念,作为类层次结构的中间层,然后再对其进行逐步的细化或泛化。这种方法从最突出、最明显的类开始定义,描述细节的概念类只在需要的时候才提出,因此可以保证适当的细节规模。另外,由于高层概念由中间层概念自然产生,因而保证了整体模型的稳定性。基于内容的多媒体知识组织法基于内容的组织是指根据媒体对象的内容特征及上下文联系对其进行组织。它突破了传统的基于文本组织方法的局限,直接对图像、视频、音频内容进行分析,抽取其语义、视觉和听觉特征,利用这些内容特征揭示媒体对象的本质。它的前提是计算机能够自动识别或理解媒体的重要特征;基于内容的多媒体知识组织法多媒体对象的内容(内容概念的多层次描述)概念级内容:表达对象的语义。感知特性:视觉特性,如颜色、纹理、形状、轮廓、场景、运动等;听觉特性,如音高、音色、音质、音调等。逻辑关系:音视频对象的时间和空间关系,语义和上下文关联等。信号特性:通过信号处理方法获得明显的媒体区分特征。特定领域的特征:与应用相关的媒体特征,例如人的面部特征、指纹特征基于内容的多媒体知识组织法多媒体内容的处理过程内容获取:通过对媒体各种内容的分析和处理而获得媒体内容。例如。多媒体数据的时间和空间特征、结构特征、运动规律以及对象之间的关系等。特征提取包括区分特征和人的视觉(visual)、听觉(auditory)方面的感知特征。特征提取对于图像可以提取颜色、纹理、形状等特征。而对于视频,由于视频是动态图像,则有静态特征提取和动态特征提取两大类。内容描述:目前,MPEG7已经成为描述多媒体内容的国际标准。该标准主要采用描述子(descriptor)和描述模式(scheme)来分别描述媒体的特性及其关系。知识库结构模型知识库中的知识应根据它们的应用领域特征、背景特征、使用特征、属性特征等组织成便于处理与利用的结构形式。我们称这样的结构形式为知识库结构模型。知识库结构模型:层次模型分布式互连模型多维结构模型知识库结构模型(1)层次模型层次模型将知识组织成有向树结构,由不同层次的知识结点组成。知识关系——层次关系。它代表两个知识结点之间一对多的关系,也叫做父子关系。知识库结构模型(2)分布式互连模型分布式互连模型将知识组织成有向图结构。结构中的结点可以是各种知识元素、知识记录或知识资源对象等,连线则描述不同知识结点间的关系示例1:数字图书馆资源组织:为了给用户提供多维度的知识导航,数字图书馆的知识库模型采用知识网络知识库结构模型(3)多维模型多维模型是一种从多个角度展示和组织知识的结构模型。该模型将知识以多维空间的形式表示,非常直观,容易理解,与人们分析问题时的思维方式一致,可以为知识用户提供一种直接面向主题分析的知识视图。知识库结构模型多维模型的组成元素维(Dimension):维是人们观察事物的特定角度。如产品销售中的产品维、时间维、地理维。维的层次(Hierarchy)和层数:例如时间维可以有年、季、月、日等四个层,另一种层次;“年
本文标题:5知识组织
链接地址:https://www.777doc.com/doc-840172 .html