您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 基于web搜索引擎的问答系统架构
李方涛2008.11.15问答系统介绍2/20/2020QuestionAnswering—FangtaoLi问答系统介绍背景介绍问答系统的历史问答系统分类相关系统介绍自动问答系统框架及相关研究未来可能研究方向总结2/20/2020QuestionAnswering—FangtaoLi10月12日英国图灵测试艾尔博特12日与12个陌生人交谈,力图让他们相信“它”是“人”,骗过3人2/20/2020GraphicModels--ShilinDING7月1日,微软收购PowerSet微软以1亿美金收购语义搜素引擎PowerSet2/20/2020GraphicModels--ShilinDING背景介绍互联网信息增长2020/2/20全球手机用户今年底将达40亿人国际电信联盟•手机用户日渐增多0204060801001202002.122003.122004.122005.122006.122007.12《2007年中国互联网络信息资源数量调查报告》中国互联网络信息中心(CNNIC)网页数量(亿)背景介绍搜索引擎技术的缺陷基于关键词,无法精确表达用户需求BooksforchildrenBooksbychildren返回的不是精确知识,而是相关文档列表查找相关文档获得知识,费时费力过多冗余信息不利于手机用户获取web知识屏幕小网速慢2020/2/20背景介绍自动问答系统基于自然语言的搜索引擎输入的是以自然语言表示的句子输出的是问题的精确答案能更方便,快捷的满足用户的需求2020/2/20问答系统的历史SomeoftheearlyAIsystemswereQAs(1960s)BASEBALL:answeredquestionsabouttheUSbaseballleagueoveraperiodofoneyear.LUNAR:W.Woods研制成功的基于知识的自然语言理解系统.LUNAR用于查询月球地质数据,协助地质学家查询分析阿波罗11号在月球采集的岩石标本的成分,回答用户的问题。该系统的数据库中有13000条化学分析规则和10000条文献论题索引.1971测试,答对90%以上的问题Thecommonfeatureofallthesesystemsisthattheyhadacoredatabaseorknowledgesystemthatwashand-writtenbyexpertsofthechosendomain2/20/2020QuestionAnswering—FangtaoLi问答系统的历史ELIEA:1968年J.Weizenbaum在美国麻省理工学院设计的基于模式匹配的自然语言系统中最有名的一个。ELIEA模拟一位心理治疗医生(机器)同一位患者(用户)进行交谈.用的是模式及关键字匹配和置换的方法,没有发展成一套系统的技术。例如,假设有关键字me和句型模式:(*you**me),而且还有一个与该模式对应的置换规则:(whatmakesyouthinkI**you),那么,当输入句为“Yesterdayyouhurtme.”时,输出为“WhatmakesyouthinkIhurtyou?”。ELIZA另外一个明显的弱点是:一旦发现用户输入中的一个关键字(词),便马上寻求答案,而不继续寻找用户句子中其它的关键字(词),这样使得一些优先级别比较低的模式几乎永远不会被匹配到。2/20/2020QuestionAnswering—FangtaoLiA:ItiscertainIamapersonB:Howlonghaveyoubeenaperson?A:Morethan20yearsB:Say,doyouhaveanypsychologicalproblems?A:m...howaboutconsciousness?B:Aresuchquestionsonyourmindoften?A:yesB:Iunderstand.A:tellmehowareyouthinkingabouttheconsciousness.问答系统的历史1999年开始,为鼓励QA的发展,TREC设立了QA任务,揭开了近年来开放领域自动问答系统研究的序幕2008年,又引入观点问答系统(opinionQA)至今,共有50多个机构参与了QA的评测,其中包含LCC,MIT,Stanford,IBM,NUS,Microsoft,Uni.ofEdinburgh,Uni.ofSheffield,USC以及国内的中科院,复旦,哈工等高校和研究机构以及最近,社区问答系统正在越来越受关注2/20/2020QuestionAnswering—FangtaoLi问答系统分类自动问答系统(AutomaticQuestionAnswering)问题的答案存在于大量数据集中需要通过信息检索,自然语言处理等技术,获得问题的答案完全自动,不需要人的参与Ask.com;start系统社区问答系统(CommunityQuestionAnswering)基于论坛,社区等形式的问答系统问题已经被提出,并且已经有人回答YahooAnswers!天涯问答,百度知道2/20/2020QuestionAnswering—FangtaoLi问答系统分类自动问答系统OpendomainquestionansweringSystemYoucanaskquestionsaboutnearlyeverythingRelyongeneralontologyandworldknowledgeNeedmuchmoredatatoextractanswerClosedDomainquestionansweringsystemDealwithquestionsunderaspecificdomain(forexample,medicine,novel)Usedomainspecificknowledge,usuallyformalizedinontologies2/20/2020GraphicModels--ShilinDING问答系统分类TREC的问题类型简单事实型问题一般可以用一个名词短语直接回答WhokilledAbrahamLincoln?简单列表问题WhichcitieshaveheldtheOlympicGamestwice?复杂问题Why问题,How问题,Definition问题情感问题2/20/2020GraphicModels--ShilinDING相关系统介绍Start系统AskJeeves系统AnswerBus系统PowerSet系统YahooAnswers!天涯问答百度知道2/20/2020GraphicModels--ShilinDINGStart系统MIT于1993年开发第一个基于Internet的问答系统主要分为4类问题:GeographyScienceandReferenceArtsandEntertainmentHistoryandCulture基于知识库和信息检索的混合模式2/20/2020GraphicModels--ShilinDINGAskJeeves系统比较著名的商用问答系统不仅可以查找web,也可采用新闻,图片,视频等作为数据源2/20/2020GraphicModels--ShilinDINGAnswerBus密歇根大学开发多语种问答系统2/20/2020GraphicModels--ShilinDINGPowersetbuildinganaturallanguagesearchenginethatreadsandunderstandseverysentenceontheWebCurrentlybasedonWikiarticles2/20/2020GraphicModels--ShilinDINGYahooAnswers!2/20/2020GraphicModels--ShilinDING2/20/2020GraphicModels--ShilinDING2/20/2020QuestionAnswering—FangtaoLi自动问答系统的框架2020/2/20文档集合信息检索检索结果问题分析答案选取问题答案问题分类问题分类的作用减少候选答案的空间过滤其他类型的答案指导答案抽取策略不同类型的问题,采取不同的处理方式简单事实型问题:可以采用模板匹配的方式Why或How复杂问题:可以采用文本摘要的方式2020/2/20问题分类分类体系2020/2/20CoarseFineABBRAbbreviation,expressionDESCDefinition,description,manner,reasonENTYAnimal,body,color,creation,currency,disease/medicine,event,food,instrument,language,letter,other,plant,product,religion,sport,substance,symbol,technique,term,vehicle,wordHUMDescription,group,individual,titleLOCCity,country,mountain,other,stateNUMCode,count,date,distance,money,order,other,percent,period,speed,temperature,size,weightUIUC问题分类体系问题分类相关工作概述基于规则的方法根据问题体系,人工构造规则匹配例如,Pasca曾使用以下规则用于问题分类Whois|was|are|werepersonname(s)?Whatisthedefinitionofphrasetodefine?人工构造规则,费时费力分类体系不同,需要重新构造规则2020/2/20相关研究:问题分类基于机器学习的方法普通分类器Hacioglu等提出了使用单词作为特征,并把词性,短语,名词实体添加为特征,利用SVM对问题进行分类。(NAACL03)层次分类器Li提出了一种基于SNoW(SparseNetworkofWindow)的层次分类器,它首先将问题句分类到所属的粗(coarse)类别,然后再分到细(fine)类别(Coling2002)Donald提出了一种基于问题词的层次分类器,它首先根据句子中出现的问题词进行简单的分类,然后再对每个类别分别训练一个分类器(NaturalLanguageEngineering,2007)2020/2/20相关研究:问题分类基于机器学习的方法基于句法结构的树状分类器Zhang利用句法树的子树做特征,提出了基于树形核函数的SVM问题分类器。(SIGIR02)Minh等人将问题分类任务转化为对有序树的分类任务,最终利用最大熵模型和boosting模型完成对问题句子的分类。(IJCAI07)2020/2/20相关研究:信息检索基于关键词的文章检索与传统的文章检索差别不大更为精细的Index(Hickle,TREC07;An,IR4QA08)查询扩展(Bilotti,MITMSthesis04;Riezler,ACL07)相关反馈(Harabagiu,ACL01;Negri,IR4QA04)句子检索基于相似度的句子检索MITRE:词匹配Alicante:余弦距离ISI:多种相似度匹配组合2020/2/20相关研究:信息检索句子检索基于依存语法的句子检索(Cui,SIGIR05)将问题和备选句子用句法分析器处理,生成句法树在训练集中获得依存关系的对应概率对问题和备选句子对齐,分别
本文标题:基于web搜索引擎的问答系统架构
链接地址:https://www.777doc.com/doc-3923839 .html