您好,欢迎访问三七文档
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号(43)申请公布日(21)申请号201910159666.4(22)申请日2019.03.01(71)申请人安徽省优质采科技发展有限责任公司地址230000安徽省合肥市包河区包河大道与望湖南路交口云辉阁商业综合楼401(72)发明人李宗桓 封军 豆庆仁 李磊 高俊 马武 (74)专利代理机构北京华仁联合知识产权代理有限公司11588代理人张换君(51)Int.Cl.G06Q30/08(2012.01)G06F16/35(2019.01)G06F16/36(2019.01)G06F16/9535(2019.01)(54)发明名称基于知识图谱的招标采购信息推荐系统及推荐方法(57)摘要本发明涉及招标采购信息推荐技术领域,特别涉及一种基于知识图谱的招标采购信息推荐系统及推荐方法,后者S1:对于招标采购行业知识采用人工搜集分类,建立知识库的模式图,定位数据爬虫的搜集方向,并爬取数据;S2:采集的数据进行清洗并规整;S3:建立指示图谱,使用知识图谱对公告进行推理,根据公告蕴含的知识进行学习;S4:使用部署运行的知识图谱,将公告向用户智能推荐推送。本发明采用分布式爬虫爬取领域分类和百科内容等结构化或非结构化数据,开放知识图谱库获得数据;招标信息智能推荐,由项目公告标题和内容,找出相近的项目;由投标人画像获得相似用户,进而获得相似用户感兴趣的项目,为投标人推荐其可能感兴趣的项目。权利要求书3页说明书10页附图1页CN110148043A2019.08.20CN110148043A1.一种基于知识图谱的招标采购信息推荐系统,其特征在于包括数据获取模块、数据清洗模块、知识图谱建立模块和推理推荐机制模块;数据获取模块,采用人工搜集并定义招标行业领域的树形多层次分类,使用网络爬虫框架采集互联网文中的有效数据,并提取有效数据中的百科词条名称、属性-属性值对、词条概况以及词条内容存储在本地数据库,从本地数据库中获取历史发布和采集的公告数据;数据清洗模块,互联网采集数据进行数据清洗,清洗并规整数据,将经过清洗后的数据以一定规则写入图形数据库;知识图谱建立模块,使用图形数据库中的知识图谱对公告数据进行推理,利用公告数据蕴含的知识进行学习并建立行业知识库,企业知识库和项目知识库;推理推荐机制模块,利用部署运行的知识图谱进行公告的智能推荐推送,包括内容推荐上下游机制、用户刻画机制和信息推荐单元,用户刻画机制包括领域分类刻画和知识表示算法刻画,信息推荐单元包括基于内容推荐算法的相似项目公告推荐、基于协同过滤算法的相似项目公告推荐和项目资质条件过滤。2.一种基于知识图谱的招标采购信息推荐方法,其特征在于包括以下步骤:S1:对于招标采购行业知识采用人工搜集分类,建立知识库的模式图,定位数据爬虫的搜集方向,并爬取数据;S2:采集的数据进行清洗并规整,以一定规则写入知识图谱;S3:建立指示图谱,使用知识图谱对公告进行推理,根据公告蕴含的知识进行学习;S4:使用部署运行的知识图谱,将公告向用户智能推荐推送。3.根据权利要求2所述的一种基于知识图谱的招标采购信息推荐方法,其特征在于S2中,对采集数据进行数据清洗,过程如下:S21,对于百科词条获取的脏数据进行清理:利用正则表达式过滤掉词条名称不规整的情况,通过词黑名单、词性黑名单、词义黑名单清洗掉无效词条,其中包括建立类别黑名单词库,通过对词条属性、词条概况和词条内容中进行查询判断词条是否属于不相关领域,并舍弃不相关领域词条;S22,查询百科词条概况和内容中的关键词:通过关键词映射,推测其所属层级分类并进行人工辅助分类;S23,数据格式规整:根据数据的初始格式,按照一定规则将数据规整成相应的格式化数据;S24,数据分析:对文本进行中文分词,初步地分析统计每个词的重要性;S25,将经过清洗后的数据存储在图形数据库中。4.根据权利要求3所述的一种基于知识图谱的招标采购信息推荐方法,其特征在于S3中,知识图谱建立的过程包括:S31,建立行业知识库,包括:S311,知识图谱的数据使用图形数据库neo4j进行存储,知识图谱包括模式图和数据图,模式图是规定的树形层级分类数据,数据图是底层分类所包含的所有词条类数据,清洗后的数据按照层级关系导入到图形数据库neo4j;S312,导入数据的基础内容是:图形数据库中每个节点包含有标签,节点号和属性字权 利 要 求 书1/3页2CN110148043A2典,而不同节点间存在关系;S313,对每个已有层级分类的物资词条搜索其相关词,对搜索到的文本进行命名实体识别,通过一定的置信度阈值的过滤,得到该词条的相关联的物资;S32:建立企业知识库;S321,将所有资质证书作为一类“资质证书”标签其中的每个节点录入到图形数据库中。S322,联合平台注册企业数据和互联网工商信息查询网站信息,获取企业的基本信息、征信信息、资质条件、活跃兴趣度信息。S33:建立项目知识库;S331,项目知识来源于招标公告、采购公告和中标公告,通过设置规则的正则表达式、中文分词和命名实体识别技术提取项目范围、项目资质要求、招标人、代理人、中标人、中标候选人信息;S332,将每个项目都存储在标签为“项目”的节点中,信息都以节点的属性的形式保存。5.根据权利要求4所述的一种基于知识图谱的招标采购信息推荐方法,其特征在于S4中,将公告向用户智能推荐推送的过程,包括:S41,内容推理上下游机制:S411,利用TFIDF方法和词性筛选分析历史公告标题,建立一个针对招标领域的公告标题关键词词库,将标题关键词加入知识图谱的行业知识库,即创建一类标签为”标题关键词”的节点,并且分类;S412,对于每个公告,判断图形数据库neo4j是否存在该项目,若不存在,则新建一个标签为”项目”的节点;S413,对每个公告内容,利用正则表达式剔除其中的无效内容,再与标题进行拼接形成有效内容;S414,对每个公告标题,提取其中的标题关键词,对于每个提取出来的标题关键词,建立标签为”项目”的节点到标签为”标题关键词”节点的关系;S415,周期性从图形数据库的行业知识库中读取全部相关词条,并得到所有相关词条的词条-节点id的映射,拼接编译成全名词正则表达式,利用该正则表达式对每个公告的有效内容全文匹配,并保留匹配结果;S416,利用节点id映射,对所有匹配结果词条在图形数据库中找到节点,利用属性快速得到回溯类别,将回溯的类别作为结果返回的一部分;建立“标题关键词”中匹配的相关词条对应节点的关系,该关系具有属性即频次,代表有多少项目发掘出该标题关键词与该词条建立了关系,以频次进行推荐名词排序;S417,将公告的标题相关词对应的所有名词进行按照关系属性排序,回溯类别并返回结果。S42,用户(投标人)刻画机制:S421,领域分类刻画在知识图谱系统中的行业知识库,每个有效词条都上溯其一级分类、二级分类、三级分类…N级分类,最终以所有的领域分类的分值,对用户描绘出用户画像,描述公式为:ΔIuf=wuwf权 利 要 求 书2/3页3CN110148043A3其中,ΔIuf是某个用于对某个领域的兴趣度增量,wu是用户对某个词条的行为兴趣度,wf是领域具体权重值,每两个用户间的相似度用如下公式刻画:其中,Sab是最终得到两个用户间的相似度,l是领域分类的级别,不同领域分类级别不同,算式中的加权平均的权值wl则不同,越具体的分类wl越大。Nl则是级别l的所有领域分类的个数,i是其中的一个领域分类,Iai和Ibi则是用户a和用户b对分类i兴趣度。Sab越高,两个用户的相似度越大。S422,知识表示算法刻画利用知识表示的Trans系列算法,将知识图谱中行业知识库、企业知识库、项目知识库中所有节点按照其间的关系进行低维向量表示,将企业以低维向量表示作为用户刻画,企业相似度用低维向量的余弦距离来表示;S43,信息推荐单元包含基于内容推荐的推荐算法和基于用户的协同过滤算法;信息推荐过程:S431,相似项目公告推荐对于每个项目公告,包含的项目概况、项目范围部分具有信息量的文本内容,提取出来的标题关键词和内容提取词能反映项目实际相关领域;为了降低后续文本间相似度计算的计算量,对拼接得到的文本进行信息指纹算法。对文本信息指纹进行编辑距离计算;编辑距离结果小于一定阈值的两个公告则认定是相似公告,并依据编辑距离和信息指纹的长度计算两个公告的相似度;公告相似度的计算公式如下:其中,Hab是两个公告的信息指纹的编辑距离,编辑距离越小,则信息指纹越相似,而la和lb是两个信息指纹的长度;当投标人对某个公告感兴趣自动地向其推荐最近一段时间内的该依赖公告的相似公告,推荐的公告列表则按照依赖公告的兴趣度与相似度的积进行递减排序;推荐公告的兴趣度计算公式如下:Ib=waSab其中,Ib是对新公告的兴趣度,wa是用户已有行为公告的行为的兴趣度权重,Sab则是新公告和已有行为公告的相似度;S432,相似项目公告推荐利用用户刻画机制,得到企业的相似用户,最终得到两个用户的相似度Sab;推荐相似用户的感兴趣的公告,按照用户相似度与相似用户对公告兴趣度wb的积进行递减排序;用户对新公告的兴趣度Ia计算公式如下:Ia=Sabwb结合基于内容推荐的推荐算法和基于用户的协同过滤算法进行推荐;S433,项目资质条件过滤利用正则表达式提取公告中的资质条件要求,在向用户推荐展示之前,过滤掉平台内投标人不满足项目资质要求的项目。权 利 要 求 书3/3页4CN110148043A4基于知识图谱的招标采购信息推荐系统及推荐方法技术领域[0001]本发明涉及招标采购信息推荐技术领域,特别涉及一种基于知识图谱的招标采购信息推荐系统及推荐方法。背景技术[0002]目前,招标公告和招标文件,是由招标人或招标代理机构发出,投标人对招标项目的了解主要是通过招标公告和招标文件。其中,公开的招标公告,可以说是招标投标领域的重要信息媒介,它使得投标人在没有深入了解项目之前就可以获得项目的大体信息。然而,招标公告一般是文本或富文本的格式,一般是非结构化数据,除了关键信息之外,包含了很多投标人不是特别关注的非关键的冗余信息。[0003]同时,一些招标项目工程复杂、涵盖相关领域众多,而项目涵盖的领域可能隐藏在公告内容的文本信息中。由于公告数量庞大,并且由于各种招标公告样式不一,投标人很难快速浏览每个项目公告的详细信息,难以发现项目可能需要的上下游相关领域,最终错过一些商机。[0004]此外,对于招标投标领域的综合信息推荐系统,由于需要涵盖各个行业的专业知识。各个行业(如医院、建材、化工等行业)的专有物资名称整体数量繁多、并且缺少物资的分类体系;而单个具体的名称体现出生僻、歧义较多、在文本集中的重现率低的特点。这些客观因素物资与物资之间的近似关系很难被发掘,传统的推荐系统在准确率上效果一般。发明内容[0005]针对上述存在的技术问题,本发明的目的是:提供了一种基于知识图谱的招标采购信息推荐系统及推荐方法,用以解决上述缺陷。[0006]本发明的技术方案之一是通过以下技术措施来实现的:一种基于知识图谱的招标采购信息推荐系统,包括数据获取模块、数据清洗模块、知识图谱建立模块和推理推荐机制模块,[0007]数据获取模块,采用人工搜集并定义招标行业领域的树形多层次分类,使用网络爬虫框架采集互联网文中的有效数据,并提取有效数据中的百科词条名称、属性-属性值对、词条概况以及词条内容存储在本地数据库,从本地数据库中获取历史发布和采集的公告数据;[0008]数据清洗模块,互联网采集数据进行数据清洗,清洗并规整数据,将经过清洗后的数据以一定规则写入图形数据库;[0009]知识图谱建立模块,使用图形数据库中的知识图谱对公告数据进行推理,利用公告数据蕴含的知识进行学习并建立行业知识库,企业知识库和项目知识库;[0010]推理推荐机制模块,利用部署运行的知识图谱进行公告的智能推荐推送,包括内容推荐上下游机制、用户刻画机制和信息推荐单元,用户刻画机制包括领域分类刻画和知识表示算法刻画,信息推荐单元包括基于内
本文标题:【CN110148043A】基于知识图谱的招标采购信息推荐系统及推荐方法【专利】
链接地址:https://www.777doc.com/doc-5569397 .html