您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 基于知识图谱的智能客服系统研究-电力信息与通信技术
电力信息与通信技术2017年第15卷第7期41电力信息通信ELECTRICPOWERICT........................................基于知识图谱的智能客服系统研究饶竹一,张云翔(深圳供电局有限公司信息部,广东深圳518000)摘要:由于人工客服面临高成本、高负荷的问题,现代企业需要更加高效、准确的智能客户服务系统。文章提出了一种基于知识图谱构建知识库的方法,结合客服知识库与基于图谱的知识检索技术,设计了智能客服系统技术方案。通过分析该系统与传统客服系统的差异,论证了该系统在企业中的应用前景和技术优势。目前该系统已在深圳供电局掌上营业厅实际应用,有效提高了智能客服系统的建设效率与应用效果。关键词:智能客服;知识图谱;自动问答基金项目:中国南方电网深圳供电局有限公司科技项目“基于中间件云的企业智能机器人助手”(SZKJXM20160002)。中图分类号:TP319 文献标志码:B 文章编号:2095-641X(2017)07-0041-05 DOI:10.16543/j.2095-641x.electric.power.ict.2017.07.0080 引言电力企业的传统客户服务方式包括95598热线电话、营业厅人工服务窗口等渠道,这些客服方式存在通讯费、培训费、人力资源等成本,且会受到时间(无法提供24小时服务)、场地(集中的客服办公场所)等条件的制约。随着企业客户量的增长,庞大的咨询需求往往让客服团队不堪重负。因此,在企业现代化、信息化、智能化发展的浪潮下,智能客服系统应运而生。智能客服系统是一种面向行业的基于大规模知识处理的自动问答系统,涉及知识管理、自然语言理解、逻辑推理等技术,可为企业与海量用户之间的沟通提供一种有效的技术手段。通过构建企业知识库,智能客服系统可以在企业热线电话、微信公众号、官方网站、APP等渠道为用户提供及时、准确的客户服务[1],有效分担人工客服的压力[2]。传统的企业客服系统以中文分词和关键词为核心,通过语句相似度计算来实现自动问答[3]。该系统能起到不错的效果,但也存在以下两方面的问题。1)为了达到较高的准确率,企业需要构建一个庞大而精细的知识库,为每条知识设计足够的相似问法,并完成关键词重要性标注,这一过程需要花费大量的人力和物力。2)知识之间没有逻辑联系,随着知识库的扩大,知识之间、关键词之间的近似和冲突将导致知识库的后期维护困难。1 智能客服系统关键技术1.1 构建企业知识库知识库由若干条知识组成。知识的定义为:一个标准问题、一个标准答案和若干个扩展问法的组合。其中扩展问法和标准问题视为相同的意图[4]。构建知识库时需对所有问题及扩展问法进行中文分词,并标注关键词权重。分词及权重标记流程如图1所示。ࠪಕэ᫇ᮤѫជߚڙలѫជᄉੰࡘ᫇กՋࣲѫជፆ౦Ѻᬓ᧗ܬС᪃ជࠪੰࡘ᫇ᮤѫជՠ௦ेѫជፆ౦ಕซС᪃ជా᧗图1分词及权重标记流程Fig.1Wordsegmentationandmarkingprocess电力信息与通信技术2017年第15卷第7期42电力信息通信........................................ELECTRICPOWERICT1.2 自然语言理解自然语言理解用于分析用户输入的语言,确定其含义并匹配相应的答案。该技术主要包括中文分词、语句相似度计算两个模块。1.2.1 中文分词中文分词是指将自然语句切分为一组关键词的操作。具体方式为使用双向最大匹配算法,基于知识库中的关键词数据库[5-7],从自然语句中逐个切分关键词[8-9]。中文分词模块的输出结果为一个字符串数组,如“今天电影院免费”会被切分成{“今天”,“电影院”,“免费”}。1.2.2 语句相似度计算语句相似度计算是完成答案检索的操作[10]。首先对用户输入语句进行中文分词,根据中文分词结果、句法、词频等自然语言特征,将输入语句与知识库中的所有知识进行逐个比较[11],获得相似度最高的若干条知识,并根据规则进行输出[12]。常见的语句相似度计算方法包括向量空间模型、编辑距离[13]、本体和相似图[14]、本体加权[15]等方法[16]。由于本文提出的基于知识图谱的智能客服系统采用不同的技术路线,通过知识图谱结构实现语句搜索,因此上述语句相似度计算算法与本文主要内容无关,在此不再赘述。2 基于知识图谱的智能客服系统本文提出了一种基于知识图谱的智能客服系统,从结构化知识库的构建和基于知识图谱的知识库实现智能问答两个方面进行介绍[17]。2.1 构建基于知识图谱的知识库2.1.1 知识图谱的概念知识图谱是知识的元素组合和逻辑联系结构,每一个知识图谱包括对象、条件、属性、参数4个元素,其中对象与属性可决定一个知识图谱的结构,条件与参数可决定一个知识图谱的实例化[18]。一个知识图谱可以有多个实例化结果,实例化结果与传统知识库中的“知识”概念相似,每个实例化结果对应一个标准答案。知识图谱的4个元素说明如下:1)对象:一条知识的核心名词;2)条件:修饰并实例化对象的定语;3)属性:对象的下级特征(对象的属性可以拥有再下级属性);4)参数:修饰并实例化属性的定语。2.1.2 构建知识图谱根据对象、属性两个元素完成一个知识图谱的构建,步骤如下:1)根据知识领域对原始知识进行分类,如营业厅类、电价类知识等,以部分营业厅类知识为例,包括“营业厅在什么地方?”、“营业厅的电话号码?”、“营业厅办理过户业务要带什么资料?”、“营业厅办理业务能不能预约?”等;2)确定同类问题的对象,如步骤1中问题的对象为“营业厅”;3)确定对象的属性列表,如对象“营业厅”的属性包括“地址”、“电话”、“业务”等;4)检索对象的全部属性,确定所有下级属性,如属性“业务”的下级属性包括“资料”、“预约方式”等;5)重复步骤4直至不存在下级属性。构建知识图谱如图2所示。ᖸˉԉڠڦႂពˉҫᠪᮔጝழयࠪ៵࡚ব̃ጞ࡚ব图2构建知识图谱Fig.2Constructingknowledgemap2.1.3 知识图谱的实例化知识图谱的实例化是指为知识图谱中的对象和属性设置条件、为属性设置参数以及为实例设置标准答案的过程。一个知识图谱可以有多个实例,每个属性实例拥有一个标准答案。实例化过程如下:1)确定待实例化对象,如“营业厅”;2)设置条件,完成对象的实例化,如条件为“罗湖区”,得到对象实例“罗湖区营业厅”;3)确定待实例化属性,如“电话”;4)设置参数,完成属性的实例化,如参数为“移动”,此时对象实例为“罗湖区营业厅”,属性实例为“移动电话”;5)为属性实例设置标准答案,如“88933000”。以上完成了一个对象及其属性的实例化,同一电力信息与通信技术2017年第15卷第7期43电力信息通信ELECTRICPOWERICT........................................个对象可拥有多个属性实例,如对象实例“罗湖区营业厅”的属性实例可包括“移动电话”、“固定电话”等。2.2 基于知识图谱的智能问答基于知识图谱的答案搜索首先需要进行中文分词,根据中文分词结果从知识库中搜索匹配。实例化知识图谱如图3所示。˖ѫជߚڙࠪ៵ᣤѢፆ౦ӛᦠܾ᠋ᆷ߿్͇ࠃΒӐࠪ៵ՠ௦ࠪ៵ᄉᅻខڎ៧଼ጉ࡚ব᳭ᝢԟஜᣤѢಕэኔ̯С᪃ជ˖଼ጉࠪ៵ߚڙ࡚বՠ௦ᆷ߿ԟஜࠃΒӐ࡚বᅻខڎ៧଼ጉвʽጞ࡚ব图3实例化知识图谱Fig.3Instantiationofknowledgemap在图3流程中,系统依次从分词结果中检索对象、条件、属性、参数,确定实例化的属性,并返回实例化属性对应的答案,完成答案搜索。3 系统测试为了验证基于知识图谱的智能客服系统的效果,本文针对该系统的知识库建立的效率和知识搜索的能力,与传统的知识库进行对比测试。3.1 知识搜索能力对比测试深圳供电局微信公众号目前使用传统知识库及语义相似度算法实现智能客服应答系统,可作为对比测试来源。测试中将微信公众号智能客服知识库导出,并根据本文方法图谱化,通过专用测试APP进行对比测试,知识搜索测试如图4所示。测试时选取标准答案相同的知识,由测试人员根据个人习惯使用自然语言设计提问,分别输入到系统中并获取答案,若系统输出答案符合预期则记为匹配正确,否则匹配失败。测试结果统计见表1所列。基于知识图谱的知识库与其知识匹配方式与传统的知识库及算法相比基本相同,但在部分问题中拥有更好的识别结果。图4知识搜索测试Fig.4Knowledgesearchtest表1测试结果统计Tab.1Testresultstatistics方法匹配正确匹配错误成功率传统知识库94694%知识图谱97397%如在知识“110kV线路安全距离是多少?”的测试中,用户设计的提问为“110kV线路要隔多远才不会被电”。传统智能客服系统匹配失败,而基于知识图谱的系统可正确输出结果。这是由于传统智能客服系统中该知识的重要关键词为“110kV”、“线路”、“安全”、“距离”,但用户提问并未涉及到安全距离或其相近词,导致系统匹配失败。而知识图谱由于识别到对象“线路”,并根据条件“110kV”实例化了该对象,通过对象的默认属性检索到了该知识。传统知识库由于需要关键词权重标注,但相同词语在不同知识中的重要性不同,权重高的关键词有时并未被用户提及,从而影响了其准确率。而知识图谱以对象为核心,对知识作了有效区分,可以实现更好的匹配效果。3.2 人工整理时间对比测试测试数据来源为深圳供电局有限公司的原始客服知识库,共有客服知识3000条。选取其中100条作为知识图谱测试样本,分别采用传统知识库方案和基于知识图谱的知识库方案对测试样本进行知识库构建。传统知识库构建知识的流程如下:1)为每一个标准问题添加5~10个近似的说法,即扩展问法;2)使用程序对所有标准问题和扩展问法进行中文分词;电力信息与通信技术2017年第15卷第7期44电力信息通信........................................ELECTRICPOWERICT3)人工对分词结果进行修正;4)人工为每一个关键词标注权重。基于知识图谱的知识库构建知识的流程如下:1)使用程序对所有标准问题进行中文分词;2)根据分词结果对原始知识分类,并确定每一类的对象;3)确定所有对象的下级及再下级属性,直到知识图谱包含所有属性;4)根据原始知识完成知识图谱实例化。利用100条原始知识构建知识库所需时间见表2所列。表2利用100条原始知识构建知识库所需时间Tab.2Timerequiredtobuildknowledgebase方法步骤1耗时/h步骤2耗时/h步骤3耗时/h步骤4耗时/h合计/h传统方法1002.91.414.3知识图谱02.40.61.84.8深圳供电局客服中心2016年已完成了传统知识库的构建,由2名员工历时3个月完成了3000条知识的梳理。以60个工作日、每天4h计算,合计耗时480h。以此计算,利用100条知识构建知识库所需时间为16h,与测试结果基本相符。根据测试结果,传统知识库完成100条知识构建平均需要约14.3h,基于知识图谱的知识库则只需要4.8h,比传统知识库耗时降低约66%。传统知识库步骤1通常需要人工思考5~10个用户可能使用的与标准问题意义相近的问法,耗费大量时间,基于知识图谱的知识库则不需要此步骤,平均可以减少约10h工作时间。在知识库的后续处理中,两种知识库构建方式分别需要4.3h和4.8h,所需时间基本相同。综上可以看出,基于知识图谱的知识库相比传统知识库最大的优点是能够有效利用图谱结构,以对象和属性为核心解析用户意图,避免对大量扩展问法的依赖,从而降低知识库的整理时间,提高工作效率。4 结语本文提出了一种基于知识图谱的智能客服系统,定义了知识图谱的结构化标准,提出了知识图谱的构建方式和基于知识图谱的问答匹配方法,可有效降低知识库整理的人工成本,为供电企业的客服知识库整理效率提升起到良好效果。同时,知识之间通过逻辑隔离,避免知识之间冲突,具备可扩展性,一方面降低了知识库扩大的
本文标题:基于知识图谱的智能客服系统研究-电力信息与通信技术
链接地址:https://www.777doc.com/doc-1715937 .html