您好,欢迎访问三七文档
当前位置:首页 > 机械/制造/汽车 > 综合/其它 > 基于电信业务场景的智能问答机器人关键技术
ComputerScienceandApplication计算机科学与应用,2017,7(4),291-300PublishedOnlineApril2017inHans.://doi.org/10.12677/csa.2017.74036文章引用:屠要峰.基于电信业务场景的智能问答机器人关键技术[J].计算机科学与应用,2017,7(4):291-300.:Apr.1st,2017;accepted:Apr.14th,2017;published:Apr.19th,2017AbstractIntelligentquestionansweringsystemisanewtypeofinformationinteractionfornaturallan-guageunderstanding.Withthedevelopmentofintelligentquestionansweringsystem,itwillbringnewhuman-computerinteractionmodeandnewbusinesspattern.IntelligentquestionansweringsysteminvolvesmanyfieldssuchasNaturalLanguageProcessing,knowledgemanagement,intel-ligentdialogueandsoon.Inthispaper,takethesceneoftelecomserviceforinstance,wediscussthatthearchitectureofIntelligentQuestionAnsweringSystembasedonnaturallanguageunder-standingisputforward,andtherelatedtechnologiesareanalyzeddeeply.KeywordsIntelligentQuestionAnswering,NaturalLanguageUnderstanding,MachineLearning,DeepEarning基于电信业务场景的智能问答机器人关键技术屠要峰中兴通讯,云计算研究院,江苏南京收稿日期:2017年4月1日;录用日期:2017年4月14日;发布日期:2017年4月19日摘要智能问答系统[1]是一种针对自然语言理解的新型的信息交互方式。它的发展将带来新的人机交互模式,带来新的业务形态。智能问答系统涉及自然语言处理、知识管理、智能对话等多领域技术,本文以电信业务场景为例,提出了基于自然语言理解的智能问答系统架构,并对相关关键技术进行了深入分析。屠要峰292关键词智能问答,自然语言理解,机器学习,深度学习Copyright©2017byauthorandHansPublishersInc.ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY).引言传统的客服中心以人工服务的呼叫中心为主,但随着移动互联网与智能手机的不断普及,社交渠道多元化和应用软件功能的不断丰富,传统客服面临着急剧增加的服务需求和更为碎片、多元化的客户服务场景,这导致传统客服中心陷入到现实的多方困境:第一,人工客服受时间影响,难以保证7*24小时全天候服务。第二,人工客服业务操作繁琐,响应速度和服务质量的一致性难以保证,容易影响客户满意度。第三,业务知识的更新速度加快,增加了对服务人员的培训成本。第四,为满足增大的业务量和提高并发度,需要增加服务人员或者加班时间,导致成本高昂,而且近年来人力成本不断的上升。同时,服务信息难以保存,难以进行及时有效的分析,导致知识无法共享,服务灵活性不足。2.智能问答系统发展机遇艾媒咨询在2015年发布的报告显示:中国客服市场整体规模超过千亿人民币[2]。但在庞大的市场规模下,难掩的是多数传统企业客服部门正在陷入上述之高成本、低效率、需求碎片化、满意度低、订单转化率低等矛盾。传统客服面临的现实困境和巨大的市场容量,迫切需要智能化的客服产品来突破发展瓶颈。如何构建可商用的智能问答系统是运营商及客服厂家亟需解决的问题。当前智能机器人技术不断发展和成熟,智能机器人被应用于金融、财务、客服工作等领域,其中,智能机器人在客服工作中的应用效果最为显著。它通过自动客服、智能营销、内容导航、智能语音控制等功能提高了企业客服服务水平[3]。智能问答应用在客服工作中有着显而易见的优势。一是提高用户感知,为企业在线客服、新媒体客服等提供统一智能的自助服务支撑,减少了用户问题得到解决的难度和复杂度;二是提升服务效率,缩短咨询处理时限,分流传统人工客服压力,节省服务成本(据统计:智能机器人投入是人工座席成本的10%);三是收集用户诉求和行为数据,支撑产品迭代优化[3]。目前国际上的智能问答技术主要采用检索技术、知识网络、深度学习这三大技术,代表性平台是苹果的Siri、谷歌的GoogleNow和微软的Cortana。国内的智能应答技术发展较晚,这和中文的语法、语义复杂性等多种因素有关,目前主要是以人工模板和智能检索技术为主,典型代表有小i机器人、百度度秘等。为了促进传统客服形态向自动化、智能化、人性化、多渠道的方向演进,更好的支撑电信域的业务发展,推动智能客服在电信领域落地,本项目根据电信业务场景的特性与需求,提出了一种基于自然语言的交互模式,可通过引导式应答或者反问使得问题加以确认,分领域建立领域本体的知识库和问题应答库,采用推理技术进行问题的自动识别与应答,形成基于语义的智能问答机器人IQA(下文简称IQA)。本文介绍了IQA系统的设计思想及架构,并对其中的关键技术进行了分析。IQA已在电信、移动现网多个局点运营和实证,能快速准确识别用户意图,自组答案,大幅提升客服工作效率,在实践中检验OpenAccess屠要峰293了技术路线的成效,并建立了丰富的电信领域语料库。3.智能问答机器人IQA设计思想问答系统的目标是给定一个问题,能够得到简短、精确的答案。IQA是基于自然语言理解技术和知识图谱技术,并配合使用语音识别(ASR)、语音合成(TTS)等智能人机交互技术,通过微信、APP、网页、短信、电话等渠道,以文字、语音等方式提供智能问答交互服务的信息服务系统。图1展示了IQA的设计和架构图,该系统分为应用层、接入层、分析层和数据层。各层之间相对独立,耦合度小,易于扩展。智能应答系统首先要有数据,数据可以来自于互联网爬取,也可以是现有的知识库,或者特定的语料库,这就涉及到数据的来源、获取、挖掘、存储等设计。数据源:大致可以分为三类:1、百度知道等社区问答对;2、电信领域内专业数据及网站语料;3、第三方提供的数据接口,比如天气、笑话等。数据获取:针对以上三类数据源,对应的获取方式可以是垂直爬虫爬取、人工维护录入、数据厂家提供,以及第三方开放平台提供,比如中国气象网等。数据挖掘:数据挖掘就是对所获取的数据进行挖掘成有用的信息或结构化信息,按一定的结构和规则来组织有用的信息和知识,最终形成各种语料库,比如问答对FAQ、聊天对话库、各种分词、领域词等词典,以及通用和行业等知识库,以便于问答直接使用或进一步处理。数据存储:存储方式至少包括四类:1、像各种词库等,可直接文本形式存储,为了管理方便也可以存在数据库中;2、对于问答对、训练数据等可采用关系数据库进行存储;3、对于知识库,可以采Figure1.RobotIQAsystemarchitecture.图1.智能应答机器人IQA系统架构问题处理对话管理在线客服应用层分析层文本复述问题判定语义解析指代消解省略恢复相似度计算语境识别意图识别关键词抽取问题分类文本检索子句拆分自动文摘语义关联关系抽取事件抽取问题复述知识推理答案排序自然语言处理新词发现实体识别词性标注中文分词问题澄清问题追问答案检索知识库构建本体抽取业务咨询资费查询业务办理业务推荐知识检索呼叫中心流量管家语音助手语义搜索手机秘书搜索服务信息查询助理服务生活助理信息服务websitewapappsmsmmsvoicewebservice渠道接入接入层垂直爬虫爬取人工维护录入数据厂家获取第三方开放平台接口格式化数据(关系数据库、NoSQL)非格式化数据(搜索引擎索引库)媒体数据(分布式文件系统)数据层数据源数据获取数据挖掘(语料库)数据存储语义数据库问答对文档语料对话库各种词典通用知识库行业知识库语义库规则库知识库知识图谱规则构建知识分类领域抽取句法分析语义消岐语义角色标注问题归一化语义搜索微信垂直搜索屠要峰294用语义数据库来存储;4、对于大数据量,可以采用分布式文件系统和NoSQL等。有了结构化或者清洗后的数据支持,需要对数据进行分析,这里的分析主要分为两部分,一部分是对用户输入问题的分析,即问题语义理解,一部分是线下数据的分析,如知识库构建等。分析层是智能问答系统IQA的核心引擎,分为自然语言处理(预处理)、对话管理、问题语义理解、答案检索获取,以及知识库构建更新5大部分,在知识数据已具备的情况下,由这5个模块即可以组成一个问答系统。自然语言处理NLP:该模块属于预处理模块,主要对用户输入问题和知识库进行预处理,比如中文分词、词性标注,供后面的关键词提取使用;抽取语料库的实体和新词发现,获取领域词典;通过句法分析和语义角色标注,获取用户问题的主谓宾、施事受事等。对话管理:该模块属于上下文的复杂问题处理:如问题一次输入多个问题,需要进行子句拆分;问句模糊无法理解,需要问题再次澄清;问题缺少必须元素,需要追问达到回答目的;问题涉及上下文语境的,需要语境识别等。问题语义理解:首先对单个问题进行语义理解:如判定用户的是问题还是聊天;问的是哪类业务或类别问题,便于快速定位;识别用户问的意图,究竟是咨询还是购买等;对缺少的问题成分,根据上下文恢复成语义齐全的问题,便于检索答案。深层语义分析主要是理解问题的真正语义并处理复杂问题,将多个问题拆分,根据上下文进行缺省句恢复和意图理解,对于多种问法可以抽取语义规则,进行规则匹配,对检索的结果进行相似度计算,找出最佳答案。答案检索获取:该模块主要为答案获取模块,如知识库为FAQ,则需要对问题进行复述,或将问题归一化到FAQ库标准问题,在没有的情况下,可以直接根据关键词检索,返回的结果进行相似度计算,答案排序,最终返回答案;如为知识库,则需要进行语义检索,并进行一定的推理;如为文档,则需要进行自动文摘,找到答案。知识库构建更新:构建知识库可以更好的组织知识,更快速准备检索答案,和FAQ相结合,使问答系统适用各种语料,而不仅仅局限于FAQ,需要包括本体提取、领域词提取、关系提取、推理规则构建等功能。IQA为了方便用户使用,满足用户不同的使用习惯,需要有多种接入方式,主要包括:语音:为了解放用户双手,支持语音接入交互,使问答更加智能。微信:支持和微信平台接入,成为微信智能客服和问答机器人,便于用户低成本使用。短信:在传统运营商有些业务依然会使用短信来提醒,为此,用户可以直接在此基础上进行回复,而无需记忆传统的短信代码,使用自然语言,提高用户使用体验。App:支持app接入,比如生活助理、吃喝玩乐等app应用中的智能问答。平台:在设计时,需要考虑各个模块、算法和接口的松耦合性,做到可插可拔,黑盒复用,因此中间的分析层可以独立成问答平台,以便开放给第三方调用。应用层
本文标题:基于电信业务场景的智能问答机器人关键技术
链接地址:https://www.777doc.com/doc-5223923 .html