您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 刘秉权-WEB知识服务探索及应用[1]
WEB知识服务探索及应用刘秉权博士,副教授哈尔滨工业大学智能技术与自然语言处理研究室://数字图书馆前沿问题高级研讨班20102010年7月21日,哈尔滨知识服务的定义是对互联网上海量信息进行处理,通常经过信息采集、信息过滤、信息分类、信息摘要、精华萃取等处理过程获取知识,运用交互式方法为网络用户提供服务。互联网的特性内容结构的复杂性,结构化、半结构化与非结构化信息并存,且非结构化信息占主导形态的多样性,包括:图像、声音、文本、视频等信息形态,以文本为主要形态来源的多样性,同一话题的信息片段可能会蕴含在不同作者创建的网页中,或者在邮件、聊天记录、博客、用户提问等各种信息源中内容的随意性,网络中的很大一部分信息是由普通网络用户创建且未经审核与验证的,内容质量良莠不齐知识服务的迫切性搜索引擎越来越显现出其明显的不足:用户很难用简单的关键词明确表达出检索目标,系统难以准确理解检索请求,进而导致了检索的返回结果难以控制。仅仅给用户提供信息检索服务远未充分体现海量网络信息所应具有的真实价值,而“信息爆炸,知识贫乏”的形象描述更是反映了人们面对海量信息却难以获得更好服务时的无奈。问题的提出-能否在海量网络信息的基础上为用户提供“知识”层面上的服务?互联网中知识服务的定义KnowledgeservicesisanemergingconceptthatintegratesknowledgemanagementknowledgeorganizationknowledgemarketsKnowledgeServicesareprogramsthatprovidecontent-based(data,information,knowledge)organizationaloutputs(e.g.,advice,answers,facilitation)tomeetexternaluserwantsorneeds.Knowledgeservicesaredeliveredthroughknowledgemarkets.互联网知识服务在互联网时代,知识服务可以通过互联网来完成。网络知识服务的特点网络知识服务与建立在传统知识源之上的知识推理相比具有更大的挑战性最大的挑战、也是最具价值的工作是如何从海量网络信息中自动获取知识,并将它们用来为开放的用户群体提供较为准确的、个性化的服务知识服务在下一代互联网中的意义知识服务的社会意义从信息社会迈向知识社会知识社会的核心是“为了创造和应用人类发展所必需的知识而确定、生产、处理、转化、传播和使用信息的能力。”联合国教科文组织认为,只有建设知识社会才能“铺就通向世界化进程人道化的道路”。现有的互联网知识服务百度知道(免费)新浪爱问(免费)YahooAnswers(免费)Uclue:fiftyformerGoogleAnswersResearcherslaunchedpaidresearch/Q&Asite(付费)MahaloAnswers(免费and付费)互联网知识服务的具体形式人对人提供服务:问答式(1对1)讲座式(1对多,如博客)群言式(多对多,如论坛)新闻机器自动服务信息检索自动问答…工具类服务在线电子词典在线工具书…什么是知识?当数据被赋予意义后,就成为信息,而信息再经过加工整理,就转化为知识通过对海量网络信息的加工整理,提供经过验证的、更加精确可信的知识,而不仅仅是原始网络信息网络信息融合所谓网络信息融合,是指把驻留在不同Web数据源上的分散的、不一致的、不确定的、冗余或互补信息依据某种准则进行组合,为用户提供一个针对不同数据源的统一视图,以获得事物的一致性解释或描述建立在网络信息加工与标引基础上的网络信息融合是网络知识服务的基础网络信息融合的关键点:网络信息检索数据集成基于本体的知识服务语义词典建设信息检索技术的发展1950年,美国学者CalvinN.Mooers首创了“信息检索”这一术语;1958年,美国学者Luhn提出了统计信息检索的基本理论和方法;1960年,Marson和Kuhns提出了信息检索的概率模型;1965年,美国康奈尔大学的GerardSalton教授及其学生,创立了信息检索向量空间模型;1966年,在Cranfield项目中,信息检索系统的评价方法被首次提出;1968年,Rocchio和Salton共同提出了查询扩展的方法;1972年,Lockheed公司推出了DIALOG系统,成为世界首例商用在线信息查询服务系统;从上个世纪90年代开始,随着各种廉价的数据存储设备陆续研发成功,带来了信息存储技术的革命性进展。新时期信息检索技术的特点在深度上,进一步提高信息自动管理和自动加工的能力,如探索自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻译等等;在广度方面,信息检索正由文本信息检索向全文文本、多媒体、跨语言等新型信息检索发展;信息存储技术正在向着信息资源的网络化和分布化方向发展;在信息检索技术研究领域中,基于概念、超文本信息和多媒体信息检索技术的研究最为活跃,并已取得了突破性发展。信息检索技术的局限性随着人们对信息检索精度的要求越来越高,当前的搜索引擎技术已越来越不能满足人们精确检索的要求,尤其是内容结构相对松散、自由的HTML页面给内容的准确抽取、语义分析等都带来了很大的挑战。的主要作用是将信息从网络中传输到电脑并将他们显示在显示屏上,而这对于今天在浩瀚的信息海洋中进行信息的选择、解释,对比不同信息来源、根据获得的信息得出结论并据此作出行动等等工作来说毫无帮助。“语义网”技术的引入语义网的目标就是对现有的Web进行扩展,将机器能够“理解”的知识加入到网络中,这样计算机就能够根据它所获取的信息进行判断并推导出人们可以预测的结论。基于语义网的智能信息检索方面的研究仍然处于起步阶段。与基于的搜索引擎类似,在语义网中的排序问题同样受到研究者的关注,不过与当前搜索引擎进行文档排序不同的是,在语义网中所关心的则是语义相关度的排序问题。数据集成数据集成是数据库领域的研究热点。数据集成系统就是将各种分散的、异构的数据库中的数据进行集成,实现对多个数据库中数据的透明访问,为用户提供全局的数据视图和统一的查询服务。本体(Ontology)的定义Ontology的定义包含四层含义:概念模型(conceptualization):通过抽象出客观世界中一些现象的相关概念而得到的模型明确(explicit):指所使用的概念及使用这些概念的约束都有明确的定义形式化(formal):指Ontology是计算机可读的(能被计算机处理),而不是完全用自然语言表述共享(share):指Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即此概念集是为整体所共有的,而非个体所独有基于本体的知识服务借助于知识本体将领域内的知识概念化后,可以提供一致的专门术语,使得知识得以交流。由于每个系统所处的环境、使用的语言、使用的技术可能不尽相同,造成交流的障碍,本体的运用,可以提供知识对照或翻译的功能,协助不同系统间的资料交换。而且将领域中的知识规格化,可以使得知识得以重复使用并能加以共享,因此在知识管理领域中,知识本体对于促成领域模型的建构,扮演了很重要的角色。语义辞典的建设语义知识库收集、表示、归档各种词语、概念的词法、语义、语义关系、常识甚至句法等知识,它的建立是为了帮助计算机像人一样去理解自然语言。对自然语言理解而言语义知识库是一种直接资源。随着语义学的发展和其在自然语言处理中的作用和地位的提升,语言学家们开始更加重视语义的研究以及大规模语义词典或知识库的建设。国外辞典建立的发展Princeton大学认知科学实验室GeorgeA.Miller等基于心理语言学基础开发的英语词汇知识库WordNet是一个模仿人脑词汇组织原则的词汇网络和语言知识库。它使用同义词集合(synset)来描述词汇,每个同义词集合代表一个基本的语义概念。Richardson等研究了如何自动从在线词典中获取语言知识,并基于此构建语义知识库MindNet。他们设计了一种自然语言的广域分析器(broad-coverageparser),定义了语义24种关系,并利用此分析器从朗文当代英语词典和美国传统词典中的词汇解释或例句中自动获取语言概念知识和语义关系。C.J.Fillmore从计算机科学中引入“框架”概念,建立以框架语义学理论为基础的FrameNet。FrameNet把对词语语义的理解建立在对语义框架,一种脚本式的语义结构理解的基础上,框架成为组织和关联语义、语义关系的关键手段。DouglasLenat于1984年开始Cyc常识知识库的研究工作,其主要目的是建立一个庞大的人类常识知识库,使人工智能具有和人类似的推理能力。Cyc知识库包含对象是词语和定义词语之间关系的断言(Assertion)。Cyc知识库按照模块组织,称为微理论(micro-theories)。每个微理论包括某一特定领域知识和推理所需的概念,如空间、时间、因果、智能体等。国内辞典建立的发展中国科学院董振东先生等建立的知网(HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的知识库。北京大学计算语言研究所俞士汶教授等把研究的重点放在词条语义知识库上,建设了现代汉语语法信息词典(GrammaticalKnowledgeBase,GKB)、现代汉语语义词典(ChineseSemanticDictionary,CSD)、中文概念词典(ChineseConceptDictionary,CCD)和现代汉语词义标注语料库(ChineseSemanticCorpus,CSC)等一系列的语义词典。台湾中央研究院研发的中英双语知识本体词网(SinicaBOW)是一个中英双语语义知识库,它以英文WordNet和SUMO(SuggestedUpperMergedOntology)为基础,提供中英文之间的语义转换,语言信息和知识本体的连结,语义的区分语义关系的描述和多重词义和词义关系的检索。交互式辞典构建WardCunningham在1995年创立一种允许一群用户通过简单的标记语言来创建和连接一组网页的社会计算系统Wiki,它面向任一网络用户开放,采取多人协同创作,从而达到在一个社群内共享某个领域的知识的目的。知识服务系统框架异构数据存储管理系统网络知识获取网络信息采集信息加工与标引信息融合网络知识服务语言学资源核心知识资源异构信息资源互联网服务需求、用户反馈哈尔滨工业大学智能技术与自然语言处理研究室“海天园”系统工作回顾互联网知识服务平台-“海天园”主要研究方向网络知识服务:问答式信息检索、基于NLP的智能搜索引擎、信息抽取、文本挖掘、文本分类、文本聚类、聚类检索、自动文摘;自然语言处理:统计语言模型、汉字处理、自动分词、命名实体识别、组块分析、句法分析、语义分析、语料库多级加工;智能人机接口:语句级智能汉字键盘输入技术;移动自然语言处理、移动Web信息处理、移动学习(m-learning)结合文本处理技术的多媒体信息加工与检索;计算分子生物学:致力于应用可计算的技术研究生物学问题,包括存储、抽取和分析生物学数据,如核酸(DNA/RNA)、蛋白质序列、结构、功能、调控网络等;已完成科研项目(截止2009年)国家自然科学基金重点项目:问答式信息检索的理论与方法研究;国家863计划目标导向项目:基于NLP的智能搜索引擎;国家自然科学基金面上项目6项;国家863计划重点项目2项、面上项目6项242项目2项;黑龙江省杰出青年基金项目1项;国际合作项目4项。互联网知识服务研究与“海天园”平台建设-问题的提出整合实验室
本文标题:刘秉权-WEB知识服务探索及应用[1]
链接地址:https://www.777doc.com/doc-1586224 .html