您好,欢迎访问三七文档
自然语言处理目录•NLP的概念•NLP发展历程•编程语言与自然语言•NLP实际应用•NLP技术要点•结巴分词•TF-IDF•相似度计算•NLP相关开源API•NLP技术难点总结•方法论之争和前景NLP-自然语言处理什么是自然语言处理NLP,NaturalLanguageProcessing用机器处理人类语言的理论和技术研究在人与人交际中以及人与计算机交际中的语言问题的一门学科。NLP要研制表示语言能力和语言应用的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断完善这样的模型,并根据语言模型设计各种实用系统,以及对这些系统的评测技术。--BillManaris,《从人机交互的角度看自然语言处理》其它名称–自然语言理解(NaturalLanguageUnderstanding)–计算语言学(CL,ComputationalLinguistics)–人类语言技术(HumanLanguageTechnology)NLP-自然语言处理NLP的历史20世纪50年代起步--机器翻译利用计算机自动地将一种自然语言翻译为另外一种自然语言“IlikeBeijingTiananmenSquare”“我爱北京天安门”“我爱北京天安门”“IlikeBeijingTiananmenSquare”NLP-自然语言处理NLP的历史50-70年代—模式匹配例如计算机答疑系统用户输入题库查找答案返回结果缺点:用户输入的信息,题库中没有匹配出来,就没有答案改进:增加同义词、反义词等等缺点:效率低,不灵活NLP-自然语言处理NLP的历史90年代至今—基于统计有一定时代背景,互联网的发展提供海量的自然语言供研究应(社交对话、邮件、文章等等),方便学者和研究人员基于大量语料基础之上构建自然语言处模型又称“经验主义”语言模型,使用大规模真实语料库训练,得出结果,避开一些歧义、语境等导致的技术难题NLP-自然语言处理NLP的历史NLP的发展趋势:基于规则基于统计自然语言中词的多义性很难用规则来描述,而是严重依赖于上下文,语境,甚至是常识,基于统计理论避开了一些技术难题NLP-自然语言处理相同点:表达的都是想法不同点:编程语言基于人构建的一些规则,有语法规则,规则性强比如编程中的ifelse()之类的,必须按照其规定语法来写,机器才能识别,而自然语言很多时候你表达意思,规则性弱编程语言和自然语言NLP-自然语言处理句子一:我们把香蕉给猴子,因为它们饿了句子二:我们把香蕉给猴子,因为它们熟透了在第一句中指的是“猴子”在第二句中指的是“香蕉”。如果不了解猴子和香蕉的属性,无法区分它们指的是谁。NLP实际问题(语义)NLP-自然语言处理Timeflieslikeanarrow怎么翻译?time名词:“时间”动词:“测定、拨准”flies单数第三人称动词“飞”名词复数“苍蝇”like动词“喜欢”介词“像”NLP实际问题(歧义)NLP-自然语言处理基于上述得出的含义分别为:①时间像箭一样飞驰;②测量那些像箭一样的苍蝇;那么该如何理解上述话语到底表达什么意思?NLP实际问题(歧义)NLP-自然语言处理词意句意语义(语境)语义处理相对比较难,需要联系上下文,语境,还有一些情感色彩,这是自然语言处理中的难点NLP实际问题(分析过程)NLP-自然语言处理为什么研究自然语言处理?NLP有难度,那为什么还要研究?从科学研究的角度:探寻人类通过语言来交互信息的奥秘,更好地理解语言本身的内在规律从实际应用的角度:并非每一样语言处理的应用都需要深层理解语义,情感分析,NLP的发展过程中的很多中间技术产物已经广泛应用构建更加有效的人机交互方式NLP-自然语言处理应用场景智能语音、聊天机器人、文本分析、搜索引擎、语音助手、机器翻译、问答系统等等图灵(1950)“人工智能之父”艾伦.图灵NLP-自然语言处理微信接入图灵机器人应用NLP-自然语言处理微信接入图灵机器人应用NLP-自然语言处理二、NLP技术应用1、分词(结巴分词)2、TF-IDF3、余弦相似度4、词语相似度5、句子相似度NLP-自然语言处理二、NLP技术应用-分词分词:中文词与词之间没有明显的分隔符,使得计算机对于词的准确识别变得非常困难。因此,分词就成了中文处理中所要解决的最基本的问题,分词的性能对后续的语言处理如机器翻译、信息检索等有着至关重要的影响。NLP-自然语言处理二、NLP技术应用-分词NLP-自然语言处理中文结巴分词实例对绕口令进行分词NLP-自然语言处理中文结巴分词实例–自定义词典有些词我们需要自己定义构造NLP-自然语言处理结巴分词实例–自定义词典有些词我们需要自己定义构造NLP-自然语言处理2.中文结巴分词实例–自定义词典有些词我们需要自己定义构造NLP-自然语言处理TF-IDF提取文章特征词网上一篇文章《中国的蜜蜂养殖》,怎么提取我们想要的一些关键词汇(特征词)?思路:哪些词的出现频率高?我们认为是关键词?这样提取是否合理?NLP-自然语言处理TF-IDF答案:不合理停用词:不是在的……..这些词频率出现会很高,但是属于文章中普遍存在的词,没有实际意义,所以我们需要先处理掉这些词去掉停用词后:中国、蜜蜂、养殖这三个词的出现次数一样多。这是不是意味着,作为关键词,它们的重要性是一样的?NLP-自然语言处理TF-IDF•答案:重要性不一样,蜜蜂、养殖的权重大于中国•如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词,对应权重就高•权重系数•逆文档频率IDF(InverseDocumentFrequency基于统计):•它的大小与一个词的常见程度成反比。•最小权重:是的在……•较小权重:中国•较大权重:蜜蜂养殖蜂蜜NLP-自然语言处理TF-IDF某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。NLP-自然语言处理TF-IDF文章用TF-IDF计算达到的结果:NLP-自然语言处理TF-IDF结合余弦相似度做相似度分析TF-IDF优点:简单快速,结果比较符合实际情况。缺点:以“词频”“权重”衡量一个词的重要性,仍不够全面可能一话的词的先后顺序也会影响词语句的表达,TF-IDF无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的NLP-自然语言处理TF-IDF结合余弦相似度做相似度分析两个句子•句子A:我喜欢看电视,不喜欢看电影。•句子B:我不喜欢看电视,也不喜欢看电影。分词•句子A:我/喜欢/看/电视,不/喜欢/看/电影。•句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。提取特征词我,喜欢,看,电视,电影,不,也。计算词频•句子A:我1,喜欢2,看2,电视1,电影1,不1,也0。•句子B:我1,喜欢2,看2,电视1,电影1,不2,也1。NLP-自然语言处理TF-IDF结合余弦相似度做相似度分析构造词向量(包含了位置信息)•句子A:[1,2,2,1,1,1,0]•句子B:[1,2,2,1,1,2,1]•向量NLP-自然语言处理TF-IDF结合余弦相似度做相似度分析计算结果:余弦相似度计算结果区间:[-1,1]NLP-自然语言处理TF-IDF结合余弦相似度做相似度分析总结思路:•(1)使用TF-IDF,找出两篇文章的关键词;•(2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,并包含了位置信息,计算每篇文章对于这个集合中的词的词频;(也可以引入权重)•(3)生成两篇文章各自的词频向量;•(4)计算两个向量的余弦相似度,值越大就表示越相似。NLP-自然语言处理百度NLP-词语相似度输入两个词,得到两个词的相似度结果意义:构建词向量时候,为了避免词向量维度过高,可以用相似词语进行代替NLP-自然语言处理通过某种数学变换将原始高维属性空间转变为一个低维子空间。最简单例子:拍照。降维有什么作用呢?1.数据在低维下更容易处理、更容易使用;2.相关特征,特别是重要特征更能在数据中明确的显示出来;3.如果只有两维或者三维的话,更便于可视化展示;4.去除数据噪声5.降低算法开销降维NLP-自然语言处理百度NLP-词语相似度维度:NLP-自然语言处理百度NLP-短文本相似度NLP-自然语言处理百度NLP-情感分析NLP-自然语言处理百度NLP-文章分类针对网络各类媒体文章进行快速的内容理解,根据输入含有标题的文章,输出多个内容标签以及对应的置信度,用于给用户文章推荐、文章分类等场景。iphone手机出现“白苹果”原因及解决办法,用苹果手机的可以看下NLP-自然语言处理NLP-自然语言处理Synonyms词语近义词NLP-自然语言处理Synonyms短句相似度NLP-自然语言处理NLP研究困难总结歧义(ambiguity)病构(ill-formedness)复述(paraphrasing)NLP-自然语言处理NLP研究困难总结[咬死猎人]的狗咬死[猎人的狗]歧义NLP-自然语言处理NLP研究困难总结病构真实文本的语言现象非常复杂,不规范例子:他非常男人。(名词不能受程度副词修饰)NLP-自然语言处理NLP研究困难总结复述在与原句表达相同的语义内容,同一种语言下的原句的替代形式–毛泽东出生于1893年–毛泽东出生在1893年–毛泽东诞生于1893年–毛泽东同志是1893年出生的–毛主席生于1893年–毛泽东生于光绪6年(虚拟的)NLP-自然语言处理NLP方法论之争基于规则VS基于统计基于规则:大量人工操作,人类总结的规则有限,难以对抗复杂语言现象基于统计:对没有见过的语言现象进行估计规则+统计数学理论:概率统计、信息论、线性代数NLP-自然语言处理谢谢观看!
本文标题:自然语言处理课件
链接地址:https://www.777doc.com/doc-7312122 .html