您好,欢迎访问三七文档
自然语言处理及其应用ApplicationsofNaturalLanguageProcessing自动分词自然语言生成文本分类问答系统自然语言处理CONTENTS词性标注02句法分析03文本分类05问答系统07信息抽取06NLP工具08自动分词01语义角色标注04自动分词WordSegmentation011自动分词歧义切分未登陆词识别中文分词结婚/的/和/尚未/结婚/的/人结婚/的/和尚/未/结婚/的/人新通用词或专业名词专有名词基于词典的方法基于统计的方法基于深度学习的方法基于匹配判断的方法最大匹配法(正向、逆向、双向)全切分路径选择基于序列标注的方法BMS表示法达观数据位是企业大数据服务商BMMESBEBMEBME达观数据/是/企业/大数据/服务商HMM、CRF模型词向量预训练CRF+BiLSTM网络词性标注Part-of-SpeechTagging022词性标注将句子中的各个词汇标注上在该句中的正确词性判定词在一定的上下文环境中所体现的语法范畴的过程它作为自然语言理解能力的初步体现,在其基础上可以为后面更高层次的语言处理提供数据资料010203基于规则的方法基于统计的方法基于无监督学习的方法标注方法2词性标注基于统计的方法HMM隐马尔科夫模型w1t1w2t2witiwntn…………状态序列:词性序列观察序列:词序列(给定)(最佳)求解五元组(S,V,π,A,B)S:状态集合:词性集合S(t1,t2…tn)V:输出集合:词汇集合W(w1,w2…wn)模型参数μ(π,A,B)πi:P(x1=ti)词性ti的初始概率aij:P(tj|ti)从词性ti到词性tj的转移概率bjk:P(wk|tj)从词性tj到词wk的发射概率aijbjk2词性标注基于统计的方法HMM隐马尔科夫模型w1t1w2t2witiwntn…………状态序列:词性序列观察序列:词序列(给定)(最佳)求解11argmaxP,argmaxnBestiiiiiTTWPwtPttaijbjk2词性标注基于统计的方法CRF条件随机场模型t1t2Wtitn…………状态序列:词性序列观察序列:词序列(给定)(最佳)求解qi(ti,w,i)fi(ti+1,ti,w,i)argmax𝑃𝒕𝒘=argmax1𝑍𝑗𝑖=1𝑛−1𝜆𝑗𝑓𝑗𝑡𝑖+1,𝑡𝑖,𝒘,𝑖+𝑘𝑖=1𝑛𝜇𝑘𝑞𝑘𝑡𝑖,𝒘,𝑖转移特征函数f用于刻画相邻标记之间的相互关系以及现观测序列对他们的影响状态函数q用于刻画观测序列对标记变量的影响2词性标注基于统计的方法Viteribi算法11argmaxP,argmaxnBestiiiiiTTWPwtPtt2词性标注基于无监督学习的方法基于概率图模型的探索1基于深度学习模型的探索2“Naturallanguageprocessing(almost)fromscratch”Collobertet.al.2011基本流程输入:迭代次数N,词典D,已分词的生文本T输出:文本T的词性标注结果BEGIN用词典D标注文本T,得到初始标注语料T0For(t=0toN){对语料Tt训练,得到模型Mt通过模型Mt对语料重新标注,得到新的标注语料Tt+1}返回标注语料Tt+1END2词性标注DeepLearning传统词性标注方法的特征抽取过程主要是将固定上下文窗口的词进行人工组合,而深度学习方法能够自动利用非线性激活函数完成这一目标结合循环神经网络,如双向LSTM,则抽取到的信息不再受到固定窗口的约束,而是可以考虑到整个句子词向量作为初始输入,本身已经刻画了词语之间的相似度信息,进一步帮助提升词性标注结果句法分析SyntacticParsing033句法分析将句子从词语的序列形式按照某种语法体系转化为图结构,以刻画句子内部的句法关系用词与词之间的支配与被支配的关系来刻画句子框架结构依存句法基于规则的分析方法基于统计的分析方法基于深度学习的分析方法分析方法3句法分析基于规则的分析方法代表算法:线图算法和左角分析算法两者结合的分析方法先构造句法树的叶节点,然后再逐步向上合并,直到根节点代表算法:CYK、Early、GLR等算法自底向上的分析方法是规则推导的过程,先构建句法树的根节点,再逐步向下扩展,直到叶节点自顶向下的分析方法基本思路:由人工组织语法规则,建立语法知识库,通过条件约束和检查来实现句法结构的歧义消除。3句法分析基于统计的分析方法语法驱动数据驱动基于图的分析方法•由人工或者迭代方式生成语法规则,是将训练数据中观察到各种语言现象分布以统计数据的方式与语法规则一起进行编码,求解最优概率的语法树结构。•常见的算法有PCFG算法,上下文依存概率模型,词汇化概率模型•不需要特意生成语法,分析结果是按照训练集中的标识模式学习得到。目前的主流分析方法。•从完全有向图中寻找最大生成树的问题•一棵依存树的分值由构成依存树的几种子树的分值累加得到•基于图的方法通常采用基于动态规划的解码算法基于转移的分析方法•通过一系列移进、规约等转移动作构建一棵依存句法树,学习的目标是寻找最优动作序列3句法分析DeepLearning以分布式向量表达作为输入➢增强语义表达,改善数据稀疏问题,克服维数灾难Chen,et.al.2014.”AFastandAccurateDependencyParserusingNeuralNetworks”优化设计特征设计与表达➢使用多个LSTM网络组合,无需进行人工特征组合和设计Dyer,et.al.2015.“Transition-BasedDependencyParsingwithStackLongShort-TermMemory”➢使用双向LSTM对词进行表示并作为分析系统的输入,减少核心特征数量Kiperwasser,et.al.2016.”SimpleandAccurateDependencyParsingUsingBidirectionalLSTMFeatureRepresentations”提高单词表达泛化性能➢使用字符序列的双向LSTM对词进行表示,克服低频词等表示不精确问题Ballesteros,et.al.2015.”ImprovedTransition-BasedParsingbyModelingCharactersinsteadofWordswithLSTMs”优化搜索解码算法➢利用柱搜索,考虑全局状态,优化转移动作序列Johansson,et.al.2007.”IncrementalDependencyParsingUsingOnlineLearning”Weiss,et.al.2015.”StructuredTrainingforNeuralNetworkTransition-BasedParsing”➢学习和解码过程一体化,求解完整转移动作序列的最大似然函数Andor,et.al.2016.”GloballyNormalizedTransition-BasedNeuralNetworks”3句法分析基于深度学习的分析方法基于StackLSTM的分类器弹栈操作压栈操作LSTM神经元缓存栈历史行动序列状态栈暂存栈Softmax层输入输出Dyer,et.al.2015.“Transition-BasedDependencyParsingwithStackLongShort-TermMemory”语义角色标注SemanticRoleLabeling044语义角色标注语义角色标注在句法分析的基础上所进行了一种浅层语义理解技术,以句子的谓词为中心,来对句子中各成分与谓词之间的关系进行分析。谓词论元在给定谓词的条件下,对其各个论元进行分类划归其所属的语义角色标签文本分类TextClassification055文本分类根据给定文档的内容或主题,自动分配预先定义的类别标签文本特征表示特征选择和提取特征空间构建特征降维特征转换特征选择:文档频率、信息增益、互信息、χ2检特征抽取:语义LDA主题模型、LSI/PLSI概率潜在语义索引特征表达:Wordembedding分类学习基于规则的分类模型基于神经网络的分类方法决策树、随机森林、RIPPER算法等基于机器学习的分类模型贝叶斯分类器、线性分类器、支持向量机、最大熵分类器、Boosting组合算法等多层感知机、CNN、RNN5文本分类基于机器学习的分类模型Adaboost算法5文本分类基于神经网络的分类模型FastText模型CBOW模型FastText模型标签Huffman树Joulin,et.al.2016.“BagofTricksforEfficientTextClassification”5文本分类基于神经网络的分类模型CNNforTextKim,et.al.2014.“ConvolutionalNeuralNetworksforSentenceClassification”对固定窗口内词向量形式的文本,滑动进行卷积,之后经过池化层和非线性转换层后,得到文本特征向量用于分类学习可以有效保留有用的一定长度的词序信息5文本分类基于神经网络的分类模型RNNforText可以对更长的序列信息建模双向LSTM可以捕获双向序列信息信息抽取InformationExtraction066信息抽取指从非结构化/半结构化文本中提取指定类型的信息,并通过信息归并、冗余消除和冲突消解等手段将非结构化文本转换为结构化信息的一项综合技术实体边界识别实体分类关系检测关系分类事件类型识别事件元素填充命名实体识别关系抽取事件抽取语义获取知识库构建舆情监控语义搜索智能问答知识推理规则编制机器学习6信息抽取基于表示学习的信息抽取命名实体抽取Lample,et.al.2016.“NeuralArchitecturesforNamedEntityRecognition”IOBES表示法➢B代表某一实体的开始单词➢I代表该单词属于实体的一部分,但并非最开始和最后一个➢E代表某一实体的结束单词➢S代表某一单词单独即为实体➢O代表不属于实体的单词6信息抽取基于表示学习的信息抽取实体关系抽取Zeng,et.al.2014.“RelationClassificationviaConvolutionalDeepNeuralNetwork”面向关系抽取任务的神经网络表示框图字典特征句子特征学习6信息抽取基于表示学习的信息抽取事件抽取事件的基本组成要素同词触发多义事件触发词的抽取与识别Feng,et.al.2016.“ALanguage-IndependentNeuralNetworkforEventDetection”6信息抽取基于表示学习的信息抽取事件抽取Feng,et.al.2016.“ALanguage-IndependentNeuralNetworkforEventDetection”事件触发词抽取结构框架图卷积神经网络框图问答系统QuestionAnsweringSystem077问答系统自动问答,是指利用计算机力求以精准的自然语言形式自动回答用户所提出的问题,以满足用户知识需求的任务,是信息服务的一种高级形式。信息抽取信息检索语义分析问答系统逻辑推理语言生成问句理解知识推理文本信息抽取核心任务检索式问答知识语义问答7问答系统基于深度学习的问答生成Attention注意力模型传统编码—解码模型注意力模型7问答系统基于深度学习的问答生成Attention注意力模型RNN-RNN注意力模型注意力分配概率计算SoftAttentionModel:给每个单词都赋予一个单词对齐概率HardAttentionModel:将特定的单词与目标句子单词对齐,其它输入单词对齐概率为07问答系统基于深度学习的问答生成DynamicMemoryNetworkSukhbaatar,et.al.2015.“Endtoendmemorynetworks”DMN模型框架示意图GRU单元N
本文标题:自然语言处理及应用
链接地址:https://www.777doc.com/doc-5349063 .html