您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据时代的自然语言处理前沿与进展
大数据时代的自然语言处理:前沿与进展1孙茂松清华大学计算机科学与技术系第十四届中国少数民族语言文字信息处理学术研讨会2013年9月14日,兰州目录1.引言2.三个重要前沿及其进展(1)基于深度学习的句子结构预测(2)开放域信息抽取(3)知识图谱3.题外话目录1.引言2.三个重要前沿及其进展(1)基于深度学习的句子结构预测(2)开放域信息抽取(3)知识图谱3.题外话现实世界、网络空间与人类认知•三位一体:有史以来深度和广度最蔚为壮观的虚实结合的空间–“人本传感器”:中国网民规模达5.64亿,微博用户3.09亿(2013年1月)–“人本传感器”信号:仅新浪微博每日发布超过1亿条微博(2012年12月)4现实世界网络空间人类认知时空中的人、物、事社会行为写感知/认知阅读中文大数据人本传感器机器阅读理解互联网5现实世界网络空间人类认知时空中的人、物、事社会行为写感知/认知中文大数据人本传感器•人类“管中窥豹式”阅读难以形成对虚实空间完整准确的认识•机器阅读理解网络空间的中文信息是实现网络洞察力的关键阅读机器阅读理解互联网•人类“管中窥豹式”阅读难以形成对虚实空间完整准确的认识•机器阅读理解网络空间的中文信息是实现网络洞察力的关键6网络空间人本传感器人类认知社会行为感知/认知现实世界时空中的人、物、事中文大数据写机器理解形式化人类认知目录1.引言2.三个重要前沿及其进展(1)基于深度学习的句子结构预测(2)开放域信息抽取(3)知识图谱3.清华最近NLP相关工作自然语言处理的根本任务语言计算的本质是结构预测8输入:输出:结构预测日本臆测中国武力夺取钓鱼岛夺取中国钓鱼岛臆测日本武力句法结构语义结构从例句说起9从例句说起10汉语是世界上最难被计算机理解的语言之一11特点例子复杂名词短语中国北京红十字芦山抢险救援队“五一”节期间工作掠影形式标记和形态变化机器翻译,翻译人员,翻译小说流水句(成分省略)她弯下腰来飞快地割着麦子,一把一把沉甸甸的,今年收成真是不错,心情不由得欢快起来。•汉语具有显著的特点需要性能高、覆盖能力强的汉语句子结构预测模型语言计算模型语言结构模型训练所需语料库可用训练数据规模对互联网的覆盖能力马尔科夫模型表层无标注极大强条件随机场模型深层有标注较小弱?深层无标注&有标注极大&较小强12•目前语言计算主流模型可分为两类,但均存在很大局限性•互联网中文理解亟需建立能处理大规模开放域文本深层结构的语言计算模型可能的策略:深度学习13•深度学习:通过学习出模型的“深层结构”对数据中存在的复杂关系进行建模(本质上是一种数学模型)GeoffreyHinton深度信念网络DBN(2006)英国皇家学会院士JudeaPearl概率图模型(2011年获图灵奖)美国工程院院士14微软语音识别•优良的计算性质:可望突破“表层结构”的限制,适合小规模有标注样本和极大规模无标注样本的融合学习•深度学习在英文语音识别和图像识别中取得突破谷歌虚拟大脑(GoogleBrain)错误率减少30%以上16000多个处理器、10亿个内部连接组成的“虚拟大脑”,从1000万帧YouTube的无标签图片中自主“学会”了猫的概念。深度学习的显著进展一个关于深度学习的基本事实15•强烈反差:针对语言理解的深度学习尚未取得成功–语音图像:基于视觉或音频的“底层认知特征”–语言理解:基于词法、句法和语义等“高层认知特征”•深度学习在中文计算方面尚未见公开报道成果•语言深度学习存在重要的理论创新空间–高层认知特征的表示及其学习–适合于语言计算的大规模人工神经网络模型代表性工作之一:从几乎一无所有开始的自然语言处理16在多项自然语言处理任务中与经典主流方法结果具有可比性代表性工作之二:基于组合向量语法的分析17•SmallsetsofdiscretecategoriessuchasNPandVPdoesnotcapturethefullsyntacticnorsemanticrichnessoflinguisticphrasesLexicalizingphrasesorsplittingcategoriesonlypartlyaddresstheproblematthecostofhugefeaturespacesandsparseness.•CompositionalVectorGrammar(CVG),whichcombinesPCFGswitharecursiveneuralnetworkthatlearnssyntactico-semantic,compositionalvectorrepresentations.•TheCVGimprovesthePCFGoftheStanfordParserby3.8%toobtainanF1scoreof90.4%.Itisfasttotrain,about20%fasterthanthecurrentStanfordfactoredparser.目录1.引言2.三个重要前沿及其进展(1)基于深度学习的句子结构预测(2)开放域信息抽取(3)知识图谱3.题外话华盛顿大学图灵中心:ReVerb19•ReVerb,anopen-sourceextractor,whichextractedover1,000,000,000assertionsfromtheWeb.华盛顿大学图灵中心:ReVerb21华盛顿大学图灵中心:ReVerb22华盛顿大学图灵中心:ReVerb23•MarkovLogicNetworks~pedrod/kbmn.pdf华盛顿大学图灵中心:逻辑推理~pedrod/803/10-803:MarkovLogicNetworksMachineLearningDepartment,CarnegieMellonUniversity卡内基梅隆大学:永不停止的语言学习24卡内基梅隆大学:永不停止的语言学习25TomMitchell目录1.引言2.三个重要前沿及其进展(1)基于深度学习的句子结构预测(2)开放域信息抽取(3)知识图谱3.题外话链接数据(LinkedData)6.7billionfacts链接数据(LinkedData)•现状统计(2011年9月)6.7billionfacts超大规模知识图谱29•互联网中文理解需要大规模、高覆盖率的知识资源•目前的知识资源难以满足中文理解的需求,以Google知识图谱(5亿个实体,35亿个事实)为例:•主要描述实体以及实体之间关系,对于复杂事件的描述甚少•英文知识图谱关于中国的内容很少•中文知识图谱正在构建中,主要挑战之一是infobox信息匮乏•百度知识图谱与搜狗知立方也面临类似的问题Google知识图谱维基百科仅有21%的中文文章有infobox超大规模知识图谱30超大规模知识图谱31•精标注资源与海量无标注、弱标注资源的融合无标注、弱标注资源(互联网)精标注资源(专家)结构化半结构化非结构化DBPedia适合互联网中文理解的知识资源32超大规模知识图谱的建构思路目录1.引言2.三个重要前沿及其进展(1)基于深度学习的句子结构预测(2)开放域信息抽取(3)知识图谱3.题外话不太远的愿景:奇点临近?34Kurzweil“IsetthedatefortheSingularity—representingaprofoundanddisruptivetransformationinhumancapability—as2045”一个难得的学术交流机会35“第十二届全国计算语言学会议(CCL2013)及第一届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2013)“知识图谱”研讨会深度广度兼具的邀请报告!欢迎访问:清华大学自然语言处理与社会人文计算实验室网站::
本文标题:大数据时代的自然语言处理前沿与进展
链接地址:https://www.777doc.com/doc-28267 .html