您好,欢迎访问三七文档
知心时代——百度知识图谱新进展《青玉案·元夕》百度百度搜索引擎977Billion覆盖中国的网民%每天的搜索量百度每天的搜索query来自全球138个国家百度的产品UserGeneratedContent(UGC)多种垂类产品超过3亿已解答问题来自520万网民贡献的1000万词条超过800万的吧NLPNLP@百度UGC知道…百科贴吧LBSMapNuomi…GroupBuy国际化葡语…阿语泰语搜索网页搜索…移动云…移动搜索百度云语音助手商业产品文库音乐…广告百度NLP百度NLP百度NLP-多元化团队语言学人才百度NLP系统实现人才产品设计人才架构、前端、客户端工程开发人才算法开发人才学术人才百度NLP基本方法基础资源词典语料规则方法统计与机器学习方法网页日志基础架构/平台应用系统智能交互深度问答机器翻译用户理解话语分析自动文摘网页理解文本生成Query理解APP理解专名识别分词、词性形态分析组块分析主干分析依存分析逻辑推理语义计算语义表示文本理解上层技术词法基础分析句法语义用户建模用户行为预测NLP业务应用产品搜索产品LBS产品国际化产品用户消费产品移动产品知识挖掘提纲•百度知心概要介绍•百度知心实体推荐理由•百度知心推荐实体消歧•百度知心推荐实体轮展•知识图谱的其他技术和应用百度的知识中心百度知心:百度的知识图谱•知心的两层含义百度更知用户的心百度知心丰富的应用庞大的知识库强大的处理技术孵化平台“涵盖了数十领域,上亿实体与属性,符合国际化接轨的数据标准体系”“包括清洗、消歧、关联、推理等能力,将无序数据变为知识网络”“对接大搜索、移动、LBS、国际化等公司战略产品,提供诸如:知识聚合、检索、推荐、交互等形态多样的应用”快捷的“已高效完成百亿互联网数据的挖掘,以及数十个创新产品的孵化”知识图谱定位和概况百度知识图谱致力于构建宏大的知识网络,包含世间万物以及它们之间的联系,以图文并茂的方式展现知识的方方面面,让人们更便捷的获取信息、找到所求。百度知心的一路走来2012年底百度知心上线实体基本属性仅针对实体型query相关实体推荐增加用户互动的内容搜索引擎体现社交色彩百度知心:更加精彩的用户体验推荐无处不在推荐技术更加深入百度知心:更加精彩的用户体验百度知心:无处不在的推荐点击后推荐click百度知心:无处不在的推荐上翻后推荐下翻上翻通栏推荐百度知心:无处不在的推荐百度如何知心?百度知心的背后尽可能快的满足用户的当前需求尽可能多的引导用户的延展需求更加深刻的理解用户需求更加丰富的需求满足方式更加深入细致的搜索/推荐/挖掘/NLP/机器学习技术百度知心的不断进化提纲•百度知心概要介绍•百度知心实体推荐理由•百度知心推荐实体消歧•百度知心推荐实体轮展•知识图谱的其他技术和应用什么是推荐理由?推荐理由的两方面作用摘要满足让用户一目了然的了解推荐的实体是什么增加吸引力让用户更有兴趣对推荐的实体一探究竟百度知心推荐理由的分类单实体型推荐理由Q:林丹•对于推荐实体本身的描述•与query无关•覆盖面高实体关系型推荐理由Q:林丹•对两个实体的关系的描述•与给定query相关•覆盖面低单实体推荐理由挖掘百度百科网页库搜索日志实体链指数据掘BootstrappingDistantSupervision推荐理由生成基于规则的生成实体三元组模板集后处理挖推荐理由压缩实体推荐理由知识库推荐理由挖掘基于模板的挖掘单实体推荐理由挖掘—挖掘示例doc文雅丽出生于中国香港,1995年嫁给丹麦腓烈特王储的弟弟约阿希姆王子,成为亚历山德拉王妃[文雅丽]有着1/4中国血统的文雅丽是土生土长的香港女孩,1995年嫁给丹麦女王次子约阿希姆王子,成为欧洲王室史上第一位亚裔王妃,但双方于2005年离婚。主要成就:“北欧的戴安娜王妃”(文雅丽,亚历山德拉王妃)(文雅丽,土生土长的香港女孩)(文雅丽,欧洲王室史上第一位亚裔王妃)(文雅丽,北欧的戴安娜王妃)(文雅丽,亚历山德拉王妃)(文雅丽,土生土长的香港女孩)(文雅丽,史上第一位亚裔王妃)(文雅丽,欧洲王室史上亚裔王妃)(文雅丽,北欧的戴安娜王妃)(文雅丽,亚历山德拉王妃)(文雅丽,土生土长的香港女孩)(文雅丽,史上第一位亚裔王妃)(文雅丽,北欧的戴安娜王妃)(文雅丽,亚历山德拉王妃)(文雅丽,北欧的戴安娜王妃)doc预处理[sentrelatedtoe]抽取TAG[(e,tag),…]压缩TAG[(e,s_tag),…]过滤TAGaccuracy85%+众测••为什么要自动化:pattern-based方法召回低问题定义:PULearning问题–Onlypositiveexampleandunlabeleddata–Twosteps:••MappingStage:findingreliablenegativeinstancesConvergenceStage:classifierbuilding单实体推荐理由挖掘—TagModelYuetal.,2002.PEBL:PositiveExampleBasedLearningforWebPageClassificationUsingSVM.InSIGKDD.doc文雅丽出生于中国香港,1995年嫁给丹麦腓烈特王储的弟弟约阿希姆王子,成为亚历山德拉王妃[文雅丽]有着1/4中国血统的文雅丽是土生土长的香港女孩,1995年嫁给丹麦女王次子约阿希姆王子,成为欧洲王室史上第一位亚裔王妃,但双方于2005年离婚。主要成就:“北欧的戴安娜王妃”(文雅丽,成为亚历山德拉王妃)(文雅丽,土生土长的香港女孩)(文雅丽,嫁给丹麦女王次子)(文雅丽,王室史上第一位亚裔)(文雅丽,成为欧洲王室)(文雅丽,北欧的戴安娜王妃)(文雅丽,土生土长的香港女孩)(文雅丽,北欧的戴安娜王妃)(文雅丽,北欧的戴安娜王妃)doc预处理[sentrelatedtoe]抽取候选[(e,tag),…]分类TAGaccuracy84%众测单实体推荐理由挖掘—TagModel抽取示例实体关系型推荐理由挖掘-1利用结构化信息自动生成关系型推荐理由•使用百科名片数据中的属性知识自动拼接生成实体关系Query颜良RelatedEntity关公推荐理由在大坯山一刀杀死颜良实体关系型推荐理由挖掘-2基于句法分析从自由文本中挖掘实体间关系•对海量网页数据进行句法分析,从实体间的句法路径挖掘实体关系颜良关公杀死一刀大坯山在大坯山下颜良被关公突然袭击快马奔到面前一刀杀死的提纲•百度知心概要介绍•百度知心实体推荐理由•百度知心推荐实体消歧•百度知心推荐实体轮展•知识图谱的其他技术和应用Query端/文本端分别建模知识库中的实体M1M2M3M4M5知识库实体建模文本端Query端Q:李娜青藏高原基于点击日志的query扩展MQNERL-QQuerymention建模MDNERL-D文本mention建模Query端/文本端分别建模Q:为什么需要分别建模?A:同一个mention在query和长文本中的entity分布可能相差很大例如:Query:你不知道的事出现在query中,绝大多数情况是歌曲名文本:……解析老干妈:“逆营销”下,你不知道的事……出现在文本中,大多数情况不是歌曲名上下文建模候选实体抽取:在给定文本中定位mention及其候选entities同义词映射:勒布朗-詹姆斯同义词映射:凯文-乐福同义词映射:克里夫兰骑士队同义词映射:奥兰多魔术队1衰减率𝑑(w,𝑚_𝑐𝑢𝑟)1-5-4-3-2-1012345李娜0名将HEAD在号上下文建模•上下文词汇特征•目标mention左右窗口中的词•上下文实体特征•目标mention左右窗口中出现的实体•文本类别特征•当前文本的所属类别距离衰减因子实体建模•实体文本词汇特征•实体文本中的内容词w与mention在大规模语料中的共现紧密度•实体文本实体特征•实体文本中出现的其他实体•实体文本类别特征•如百科词条的分类标签特定小说、影视、音乐等特定类别的特征裁剪实体链指决策•特征•mention与entity的自身相似度特征、上下文词相似度特征、上下文实体相似度特征、文本类别相似度特征•mention链指到不同entity的先验概率特征•决策步骤-1:排序•从mention的所有候选实体中,基于LTR选出top-1候选•决策步骤-2:分类•基于RF模型对top-1候选进行分类,判断是否应链接•注:知识库中存在实体缺失问题,因此分类的步骤必不可少EL应用于推荐实体消歧Q:小威Q:青藏高原EL应用于推荐实体消歧Q:小威Q:青藏高原解决上下文稀疏问题:在N个推荐实体中,用其他N-1个实体作为当前歧义实体的上下文提纲•百度知心概要介绍•百度知心实体推荐理由•百度知心推荐实体消歧•百度知心推荐实体轮展•知识图谱的其他技术和应用•模型的优化目标–右侧实体推荐的整体reward最大化•如:推荐实体的点击率(click-throughrate:CTR)•主要挑战–推荐实体的动态变化性•右侧推荐实体的候选列表是在动态变化的,且用户的兴趣也会随着时间动态变化–用户反馈数据的不完备性•只有展现出来的实体会得到用户的点击反馈;那些没有展现出来的实体永远没有机会被展现出来基于在线学习(OnlineLearning)的推荐实体轮展CalculatecandidatesGetFeedbacksDisplayRecommendeditemsMulti-ArmedBandits在exploration(新的推荐实体)和exploitation(好的推荐实体)之间取得平衡问题抽象DisplayCard-RankerItem-RerankUser-LogPreprocessingFeedBack&DictionaryGenerationBanditAlgorithmCandidateGeneration推荐实体轮展系统流程提纲•百度知心概要介绍•百度知心实体推荐理由•百度知心推荐实体消歧•百度知心推荐实体轮展•知识图谱的其他技术和应用知识图谱的其他技术和应用:专名挖掘LearningNEsusingUrl-textHybridPatterns•IsitpossibletoextractNEsfromwebpagetitlesonly?–Yes!99%NEscanbefoundinsomewebpagetitles•Url-texthybridpatterns–Urlconstraintsshouldbetakenintoconsideration•Simpletextpatternsareenoughforcredibleurl(website)•Complicatedtextpatternsareneededforlow-qualityurl•Url-texthybridpatternlearning–utp=(up,tp,c,f)–Example:Zhangetal.2013.BootstrappingLarge-scaleNamedEntitiesusingURL-TextHybridPatterns.InIJCNLP.S2LearningNEsusingUrl-textHybridPatternsZhangetal.2013.BootstrappingLarge-scaleNamedEntitiesusingURL-TextHybridPatterns.ToappearinIJCNLP.Inter-classEstimatorInner-classEstimatorscorerOptionPat.seed•OverviewMulticlassCollaborativeLearnerSnMulticlassSeedsS1……Bootstrappi
本文标题:百度知识图谱新进展
链接地址:https://www.777doc.com/doc-3933582 .html