您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 《人工智能基础与应用》(樊重俊编著)第9章+自然语言与语音处理
自然语言与语音处理第9章2020年10月第9章自然语言与语音处理引言自然语言处理(NaturalLanguageProcessing,NLP)属于人工智能的一个子领域,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。它对计算机和人类的交互方式有许多重要的影响。语音信号是人类进行交流的主要途径之一。语音处理涉及许多学科,它以心理、语言和声学等为基础,以信息论、控制论和系统论等理论作为指导,通过应用信号处理、统计分析和模式识别等现代技术手段,发展成为新的学科。语音处理不仅在通信、工业、国防和金融等领域有着广阔的应用前景,而且正在逐渐改变人机交互的方式。本章首先介绍了自然语言处理的历史和现状,然后介绍了情感分类的相关知识,同时介绍了自然语言处理中两种典型任务:机器翻译和自然语言人机交互。最后介绍了语音处理中语音识别、语音合成和语音转换三个部分。9.1自然语言处理ONTENTS内容大纲9.2语音处理9.3本章小结第9章自然语言与语音处理9.1自然语言处理ONTENTS内容大纲9.2语音处理9.3本章小结第9章自然语言与语音处理第9章自然语言与语音处理自然语言处理自然语言处理概述认知智能包括语言理解、知识和推理。语言理解包括词汇、句法、语义层面的理解,也包括篇章级别和上下文的理解;知识是人们对客观事物认识的体现以及运用知识解决问题的能力;推理则是根据语言理解和知识,在已知的条件下根据一定规则或者规律推演出某种可能结果的思维过程。自然语言理解处在认知智能最核心的地位,它的进步会引导知识图谱的进步,会引导用户理解能力的增强,也会进一步推动整个推理能力。第9章自然语言与语音处理自然语言处理自然语言处理概述自然语言技术不是一个独立的技术,受云计算、大数据、机器学习、知识图谱的等各个方面的支撑。自然语言处理框架用户画像大数据云计算NLP基础技术NLP核心技术NLP+机器学习领域知识词汇表示和词汇分析短语表示和分析句法语义表示和分析篇章表示和分析机器翻译聊天和对话提问和回答信息检索信息提取知识工程语言生成推荐系统搜索引擎智能客服商业智能语言助手第9章自然语言与语音处理自然语言处理自然语言处理概述自2008年开始,深度学习开始在语音和图像发挥威力。深度学习技术根本地改变了自然语言处理技术,使之进入崭新的发展阶段。神经网络的端对端训练使自然语言处理技术不需要人工进行特征抽取,只要准备好足够的标注数据,利用神经网络就可以得到一个现阶段最好的模型;词嵌入的思想使得词汇、短语、句子乃至篇章的表达可以在大规模语料上进行训练,得到一个在多维语义空间上的表达,使得词汇之间、短语之间、句子之间乃至篇章之间的语义距离可以计算;基于神经网络训练的语言模型可以更加精准地预测下一个词或一个句子的出现概率;循环神经网络可以对一个不定长的句子进行编码,描述句子的信息;编码—解码技术可以实现一个句子到另外一个句子的变换,这个技术是神经机器翻译、对话生成、问答、转述的核心技术;强化学习技术使得自然语言系统可以通过用户或者环境的反馈调整神经网络各级的参数,从而改进系统性能。第9章自然语言与语音处理神经机器翻译神经机器翻译是模拟人脑的翻译过程。神经机器翻译有两个模块:一个是编码模块,把输入的源语言句子变成一个中间的语义表示,用一系列的机器内部状态来代表;另一个模块是解码模块,根据语义分析的结果逐词生成目标语言。神经机器翻译依赖于双语对照的大规模数据集来进行端到端的训练神经网络参数,这涉及很多语言对和很多的垂直领域。而在某些领域并没有那么多的数据,只有少量的双语数据和大量的单语数据,所以如何进行半监督或无监督训练以提升神经机器翻译的性能成为研究焦点。自然语言处理自然语言处理概述第9章自然语言与语音处理智能人机交互智能人机交互是指利用自然语言实现人与机器的自然交流。其中的一个重要概念是“对话即平台”。第一层,通用聊天,需要掌握沟通技巧、通用聊天数据、主题聊天数据,还要知道用户画像,投其所好。第二层,信息服务和问答,需要搜索、问答的能力,还需要对常见问题表进行收集、整理和搜索,从知识图表、文档和图表中找出相应信息并回答问题,可以统称为InfoBot。第三层,面向特定任务的对话能力,如买咖啡、定花、买火车票这些任务是固定的,状态也是固定的,状态转移也是清晰的,那么就可以用Bot一个一个实现。它用到的技术是对用户意图的理解、对话的管理、领域知识、对话图谱等。自然语言处理自然语言处理概述第9章自然语言与语音处理阅读理解一个阅读理解的框架首先要得到每个词的语义表示,再得到每个句子的语义表示,这可以用循环神经网络RNN来实现,然后用特定路径来找出潜在答案,基于这个答案再筛选出最优答案,最后确定这个答案的边界。在做阅读理解时用到了外部知识,可以用大规模的语料来训练外部知识,通过将外部知识训练的RNN模型加入原来端到端的训练结果中,可以大幅度提高阅读理解的能力。自然语言处理自然语言处理概述机器创作创作绝句、律诗、唐诗宋词;电脑写诗、作词、谱曲系统第9章自然语言与语音处理自然语言处理情感分类文本分类概述文本分类是在预定义的分类体系下,根据文本的特征(内容或属性),将给定文本与一个或多个类别相关联的过程。文本分类系统不仅是自然语言处理系统,也是典型的模式识别系统,系统的输入是需要进行分类处理的文本,系统的输出则是与文本关联的类别。根据分类知识获取方法的不同,文本自动分类系统大致可分为两种类型:基于知识工程(KnowledgeEngineering,KE)的分类系统和基于机器学习(MachineLearning,ML)的分类系统。文本分类系统示意图预处理文本表示分类器输入文档类别输出第9章自然语言与语音处理自然语言处理情感分类文本表示一个文本表现为一个由文字和标点符号组成的字符串,由字或字符组成词,由词组成短语,进而形成句、段、节、章、篇的结构。目前文本表示通常采用向量空间模型(VectorSpaceModel,VSM)。VSM涉及的一些基本概念。①文档(document):通常是文章中具有一定规模的片段,如句子、句群、段落、段落组直至整篇文章。②项/特征项(term/featureterm):特征项是VSM中最小的不可分的语言单元,可以是字、词、词组或短语等。一个文档的内容被看成是它含有的特征项所组成的集合,表示为:Document=D(t1,t2,⋯,tn),其中tk是特征项,1≤k≤n。③项的权重(termweight):对于含有n个特征项的文档D(t1,t2,⋯,tn),每一特征项tk都依据一定的原则被赋予一个权重ωk,表示在文档中的重要程度。这样一个文档D可用含有的特征项及其特征项所对应的权重所表示:D=D(t1,ω1;t2,ω2;⋯;tn,ωn),简记为D=D(ω1,ω2,⋯,ωn),其中ωk就是特征项tk的权重,1≤k≤n。第9章自然语言与语音处理自然语言处理情感分类定义9-1(向量空间模型(VSM))给定一个文档D(t1,ω1;t2,ω2;⋯;tn,ωn),D符合以下两条约定:(1)各个特征项tk(1≤k≤n)互异(即没有重复);(2)各个特征项tk无先后顺序关系(即不考虑文档的内部结构)。在以上两个约定下,可以把特征t1,t2,⋯,tn看成一个n维坐标系,而权重ω1,ω2,⋯,ωn为相应的坐标值,因此,一个文本就表示为n维空间中的一个向量。我们称D=D(ω1,ω2,⋯,ωn)为文本D的向量表示或向量空间模型。itjtkt),,,(112111nD),,,(222122nD文档的向量空间模型示意图文本表示第9章自然语言与语音处理自然语言处理情感分类定义9-2(向量的相似性度量(similarity))任意两个文档D1和D2之间的相似系数Sim(D1,D2)指两个文档内容的相关程度(degreeofrelevance)。设文档D1和D2表示VSM中的两个向量:D1=D1(ω11,ω12,⋯,ω1n)D2=D2(ω21,ω22,⋯,ω2n)借助于n维空间中两个向量之间的某种距离来表示文档间的相似系数,常用的方法是使用向量之间的内积来计算:如果考虑向量的归一化,则可使用两个向量夹角的余弦值来表示相似系数:文本表示knkkDDSim21121),(nkknkknkkkDDSim12212112121cos),(第9章自然语言与语音处理自然语言处理情感分类采用向量空间模型进行文本表示时,需要经过以下两个主要步骤:①根据训练样本集生成文本表示所需要的特征项序列D={t1,t2,⋯,tn};②依据文本特征项序列,对训练文本集和测试样本集中的各个文档进行权重赋值、规范化等处理,将其转化为机器学习算法所需的特征向量。用向量空间模型表示文档时,首先要对各个文档进行词汇化处理,在英文、法文等西方语言中这项工作相对简单,但在汉语中主要取决于汉语自动分词技术。由于n元语法具有语言无关性的显著优点,而且对于汉语来说可以简化分词处理,因此,有些学者提出了将n元语法用于文本分类的实现方法,利用n元语法表示文本单元(“词”)。文本表示第9章自然语言与语音处理自然语言处理情感分类情感分类常被当作一个二类分类问题,将给定文本分为正面情感和负面情感。情感分类本质上是一个文本分类问题。传统的文本分类主要是把文档分为不同主题,比如科技或体育类。在这种分类中,主题词是重要的特征。然而在情感分类任务中,指示了正面或负面情感倾向的观点词或情感词更为重要,比如great、excellent、amazing、horrible、bad、worst等。本节我们会提到两类分类方法:(1)基于机器学习算法的情感分类;(2)使用自定义打分函数的情感分类。基于监督的情感分类第9章自然语言与语音处理自然语言处理情感分类情感分类是一个文本分类问题,所以任何监督学习方法都可以直接使用,比如朴素贝叶斯分类或支持向量机(SVM)。朴素贝叶斯分类朴素贝叶斯分类器的基本思想是利用特征项和类别的联合概率来估计给定文档的类别概率。假设文本是基于词的一元模型,即文本中当前词的出现依赖于文本类别,但不依赖于其他词及文本的长度,也就是说,词与词之间是独立的。根据贝叶斯公式,文档Doc属于Ci类的概率为基于机器学习算法的情感分类)()()|()Doc|(DocPCPCDocPCPiii第9章自然语言与语音处理自然语言处理情感分类基于支持向量机的分类器基于支持向量机(supportvectormachine,SVM)的分类方法主要用于解决二元模式分类问题。SVM的基本思想是在向量空间中找到一个决策平面(decisionsurface),这个平面能“最好”地分割两个分类中的数据点。支持向量机分类法就是要在训练集中找到具有最大类间界限(margin)的决策平面。情感分类的关键还是抽取有效的特征,如词和词频,词性,情感词和情感短语,观点的规则,情感转置词,句法依存关系等。基于机器学习算法的情感分类第9章自然语言与语音处理自然语言处理情感分类基于正面和负面评论词,主要包含如下两步:第一步,用下面的等式训练集中的每个词(unigram或n-gram)进行打分:其中,ti是一个词,C是一个类别,C'是它的补集,即非C,Pr(ti|C)是词ti属于类别C的条件概率,通过将出现了ti的C类别文档数除以C类的总评论数计算得到。一个词的得分就是这个词对某个倾向类别相关度的度量,取值范围为-1到1。第二步,将一个新文档di=t1⋯tn所有词的情感倾向性得分加起来,根据得分求得这篇文档的分类:这里,使用自定义打分函数的情感分类)'|Pr()|Pr()'|Pr()|Pr()(CtCtCtCttscoreiiiii其他'0)()(CdevalCdclassiijjitscoredeval)()(第9章自然语言与语音处理自然语言处理情感分类情感词
本文标题:《人工智能基础与应用》(樊重俊编著)第9章+自然语言与语音处理
链接地址:https://www.777doc.com/doc-7182290 .html