您好,欢迎访问三七文档
当前位置:首页 > 幼儿/小学教育 > 小学教育 > 针对BBS短文本的提取标注
78针对BBS短文本的提取标注信息科学技术学院计算机系00级赵婧摘要/Abstract摘要:Web的海量数据激发了人们对计算机理解语义的要求。语义网的出现为计算机真正“智能化”地处理数据描绘了美好前景。其中一个重要的应用就是Web信息提取。信息提取有许多实现技术。包括基于统计和基于规则的。我们构造的信息提取系统是一种针对本体知识的提取技术。可以说本体是一个独立的概念,反映的是计算机对客观世界的认识,可以说是独立于应用的。只是我们把本体应用到信息提取中,并结合统计和规则进行提取。本文前半段将会介绍有关本体的相关概念,后一部分将介绍本体在我们系统中的应用。为了配合信息提取,需要一些先验性的知识和统计信息。所以,我们构造了自己的针对BBS短文本的提取标注工具。为此构建了本体知识并以直观方式展现出来。结合本体推理机,我们的标注工具在标注的同时具备推理能力使得标注智能化,并能通过引用一个包装好的提取算法进行提取预览。1引言随着Internet信息的飞速膨胀,人们手工在之上获得所需的有用信息将变得负担沉重。信息提取技术的产生从一定程度上为人们获取web信息提供了便利的手段。基于关键字的提取是比较传统的信息提取技术,其主要思想是对关键字进行统计,在信息提取过程中进行匹配。这种提取算法简单,实现相对容易,在特定范围或领域中(例如针对某一个网站)可以取得比较好的提取效果。缺点在于关键字的提取是不基于语义的,它仅仅从统计词频等角度来考虑提取。2001年,万维网创始人T.Berners-Lee在《ScientificAmerican》上提出的语义网[Berners-Lee,T.,Hendler,J.&Lassaila,O.,2001]的概念是:设想构造一个所有数据都可被计算机理解的新的网络环境,使得计算机能够真正智能的为人类提供服务。其核心在于使计算机在操控数据本身的同时,能够“理解”数据的语义。从语义网的目标来看,基于关键字的提取虽然有其可取的优点,但作为一种提取技术已经不能很好的满足通用的需求了。从上无语义的数据到携带语义的数据转换是一项极有挑战性的工作。目前研究较多的一种提取方法是用一定的有语义的结构来构建特定领域的本体知识(ontology)。这些知识描述了机器对该领域的全部认识,也成为信息提取的基础。本体描述的是某个领域所有事物以及事物之间关系,但仅仅有了这些认识是否就足以把我们的目标-Web信息提取做好呢?答案是否定的。正如,即使我们已经了解客观世界中某事物具备一些属性并与其他事物有一些联系(例如,狗有四条腿,是哺乳动物的一种),在提取文本中我们依然无法得知哪一段文字描述的是ontology中的事物(狗),以及哪些文字或段落描述的是事物(狗)的一些属性,更无法由此推理得到这篇文章描述了一种哺乳动物。79所以在提取之前,除了构建ontology,文本标注工作成为必不可少的一步。标注文本的意义在于:首先对待提取的文本进行标注并把文本作为训练集,对文本进行提取,并将标注结果和机器提取结果进行比较进而评测。其次在标注过程中可以不断完善文本提取的模板(表现为本体知识)。目前的标注工具有许多。例如斯坦福大学的文本标注工具OntoMat[ONTOMAT]。它采用DAML+OIL[DAML+OIL]的ontology描述方式,通过浏览网页并对照ontology进行标注的方式,把每个网页中某个段落文字和ontology中某个概念或关系对应,其过程相当于对一个文本进行了一次标注。我们搭建的基于ontology的文本标注工具在提供OntoMat所有功能的基础上又有新的改进。即在表现领域ontology的同时,将文本ontology也表现出来;在文本中的某个段落与文本ontology中的某个概念发生联系时,建立文本ontology中某个概念的实例与某个领域ontology的概念或实例发生联系。因为本工具的主要目的是辅助信息提取,所以还要考虑增加工具对提取结果可以预览的能力,也就是在标注一个文本时或标注这个文本前,对这个文本进行提取查看提取效果。同时,用户也可以根据提取效果调整自己的标注行为。目前的标注工具已经具备了一定的推理能力,使得标注更加智能化。例如,概念B有一个父概念A,当给概念B标注了某段文本时,在概念A的节点上也可以看到,从而为用户提供了一个友好智能的文本标注工具环境。本文的目的就是介绍整个文本标注工具产生的大环境和它的需求。以及这个标注工具具备的功能和实现技术。第2节介绍了这个工具出现的背景,解释了我们构造这个工具的必要性。第3节介绍了整个工作依赖的基础-本体。从本体的逻辑结构(3.1),本体的表示(3.2),本体的推理(3.3)以及针对我们的应用-提取标注工具构造的本体知识(3.4)。第4节介绍了标注工具的实现细节。2工作的起点和目标我们的整个工作都是基于本体知识的,这也是系统的立足点。在实现时需要考虑两种本体知识:文本结构的本体知识和相关领域的本体知识。目前主要考虑的是交易领域的本体知识。有了标注和提取的基础-ontology,下一步考虑文本的标注工具需要完成的功能。文本标注工具应具备以下两个目标:把文本不同部分对应到文本结构的某个部分上。例如某一段文字对应到文本结构中的作者。把已经标注了的文本结构中的一个对象(例如作者等)关联到领域ontology,成为领域ontology中某个概念的一个实例。作为一个基于本体的文本标注工具,同时还应具备一定的推理能力。这种能力来自于本体的性质,即可以通过使用本体推理机来实现标注过程和提取预览过程中的推理能力。803提取工作的基础—特定领域ontology构建3.1本体的逻辑结构一个ontology的逻辑结构可以看成是一个五元组,O={C,R,H,rel,A}[ONTOLOGYLEARNING]。其结构如下:两个交集为空的集合C和R。C集合的元素被成为概念,R集合的元素被成为关系。概念层次H:H是C×C的一个子集。H(C1,C2)表示C1是C2的子概念。函数rel:rel函数的定义域是R,值域是C×C的一个子集。即:rel(R)=(C1,C2)。公理集A:包含了ontology所需的公理。使用适当的逻辑语言,例如一阶逻辑。作为ontology的核心结构,这个结构被普遍接受并且易于用现有的ontology语言来进行描述。在我们的构建的工具系统中,对应上述五元组的组织如下:C是ontology中的概念。在我们搭建的领域ontology中表现为领域中的事物。例如交易的物品,交易人的联系方式等。在文本ontology中表现为文本的标题,段落等。R是ontology中的关系。领域ontology中例如Document概念与Section概念之间的包含关系。商品与价钱之间的关系等。Rel是定义在关系集R上的映射。对任何一个关系r,都可以找到这个关系的定义域和值域。这在解析ontology时十分有用。为了以图的形式把ontology的结构展现给用户,需要使用包装在这之上的本体推理机得到一个关系的定义域和值域。当得到所有的关系的定义域和值域时,ontology的图结构就展现出来了。3.2本体的表示描述本体的语言可以是多样的。采用较多的是DAML+OIL或是OWL[OWL,2003]。OWL是W3C提出的一种本体描述语言,它是源于DAML+OIL的,并保持了DAML+OIL的框架和大多数语法、语义特征。根据表达能力和可计算性能力,OWL可以分为三种子语言:OWLFull,OWLDL和OWLLite。这三种子语言表达能力依次下降,但可计算性依次增强。我们的本体描述是基于OWLDL的。OWL是基于RDF规范的一种语言,而RDF又是基于目前使用普遍的XML标记的语言。RDF的格式定义如下:[1]RDF::=['rdf:RDF']description*['/rdf:RDF'][2]description::='rdf:Description'idAboutAttr?''propertyElt*'/rdf:Description'[3]idAboutAttr::=idAttr|aboutAttr81[4]aboutAttr::='about='URI-reference''[5]idAttr::='ID='IDsymbol''[6]propertyElt::=''propName''value'/'propName''|''propNameresourceAttr'/'[7]propName::=Qname[8]value::=description|string[9]resourceAttr::='resource='URI-reference''[10]Qname::=[NSprefix':']name[11]URI-reference::=string,interpretedper[URI][12]IDsymbol::=(anylegalXMLnamesymbol)[13]name::=(anylegalXMLnamesymbol)[14]NSprefix::=(anylegalXMLnamespaceprefix)[15]string::=(anyXMLtext,with,,and&escaped)在我们的应用中,class和property是已经固定的。正如前面所说,标注过程是生成一些概念的实例(instance或individual)。3.3本体推理使用本体的目的之一,就是想通过对本体的形式化描述,使得计算机能够理解本体所描述的知识,从而“智能的”完成任务。本体推理是计算机对本体知识理解的一种重要表现。在我们的系统中,选用了OWLDL作为本体描述语言。因为OWLDL的语义基于描述逻辑(DescriptionLogics),而描述逻辑可以较好的实施推理。OWLDL的大多数LanguageConstructor都可以被映射到一个DL逻辑原语。不同的DL语言的推理能力和推理算法互有差别,OWLDL所对应的SHIQ逻辑也决定了对OWLDL进行推理的能力和算法。由于OWLDL能够映射到描述逻辑SHIQ,所以我们采用了SHIQ的推理机RACER[RACER],从而使得将推理的任务变为把OWLDL描述的本体映射到SHIQ逻辑的表示形式。事实上,OWLDL基本上等价于SHIQ逻辑。RACER推理机接受的是两种知识表示格式:DIG(DLImplementationGroup)协议定义的知识描述格式(基于XML)和RACER自己定义的知识描述格式(基于广义表)。我们需要做的工作具体就是:把OWLDL转换到DIG格式或者RACER首选的支持格式RACER。3.4面向应用的本体构建我们系统需要两个ontology。文本ontology椭圆表示concept,单向箭头表示关系,箭头上是关系的名称,矩形表示concept的属性。下面按照关系来说明这个ontology(事实上,这也是我们从ontology中解析出ontology图结构的方法):author:author关系的定义域有一个元素是概念Article,值域有一个元素是概念Human;关系的定义域和值域是可以通过推理机直接得到的。前面介82绍的ontology五元组的逻辑结构中的ref就是把一个关系的定义域和值域找到。fileName:定义域是概念Article,值域是一个string。表示一个文章与一个字符串是fileName这个关系。hasDocument:定义域是概念Article,值域是概念Document。表示一个Article与Document有一个关系hasDocument。hasSection:定义域是概念Document,值域是概念Section。表示概念Document和Section有关系hasSection。这里,一个Document的实例可以和多个Section的实例对应。in:定义域是概念Section,值域也是概念Section。这表示一个Section实例可以和另外一个Section
本文标题:针对BBS短文本的提取标注
链接地址:https://www.777doc.com/doc-1984743 .html