您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 中科院自动化所宗成庆《机器学习方法在少数民族》
E-mail:cqzong@nlpr.ia.ac.cnHomePage::No.95,ZhongGuanCunDongLu,Beijing100190,China机器学习方法在少数民族语言信息处理中的应用宗成庆中国科学院自动化研究所模式识别国家重点实验室2/54内容提要1.引言2.机器学习方法概述3.ML方法在NLP中的应用4.一点建议和思考3/541.引言随着互联网、移动通信技术的快速发展,信息安全与个性化信息服务成为人们关注的焦点云计算、大数据、社会计算、数据挖掘等一批新术语像雨后春笋般地相继涌现这些术语的背后蕴藏着哪些科学问题?解决这些问题的关键技术和手段是什么?少数民族语言信息处理该从何处入手抓住时代的机遇,应对面临的挑战?机器学习(machinelearning)—一门不能不关注的技术4/54内容提要1.引言2.机器学习方法概述3.ML方法在NLP中的应用4.一点建议和思考5/542.机器学习方法概述2.1基本概念目前,机器学习方法的主要理论基础是统计学和信息论,因此,机器学习通常又被称为统计学习(statisticallearning)或者统计机器学习(statisticalmachinetranslation)。“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”-HerbertA.Simon6/542.机器学习方法概述统计学习的主要特点[李航,2012]:以计算机和网络为平台数据驱动对数据进行预测与分析以方法为中心,构建模型是概率论、统计学、信息论、计算理论、最优化理论和计算机科学等多领域的交叉学科对象:语料目的:对语言现象进行预测、分析7/542.机器学习方法概述举例①今天他从北京来到兰州。昨天张老师从上海来到这里。明天赵老师从南京来兰州。十年前她从北京来到兰州。……[Time]+NP/Pron+从+Place1+来(到)+Place2[Time]+NP/Pron+从+Place1+来(到)兰州|概率?他和她从+?+来(到)兰州?8/542.机器学习方法概述举例②微博情感分类+++---++--+-++-++--++++---+++--+-++--正性负性“这有什么不好的!”“神马玩艺儿,坑爹!”9/542.机器学习方法概述2.2基本方法监督学习(supervisedlearning)非监督学习(unsupervisedlearning)半监督学习(semi-supervisedlearning)强化学习(reinforcementlearning)10/542.机器学习方法概述监督学习(supervisedlearning)给定有限的、人工标注好的大量数据,假设这些数据是独立同分布产生的(训练集,trainingdata)假设要学习的模型属于某个函数的集合,即假设空间(hypothesisspace)应用某(些)个评价准则(evaluationcriterion),从假设空间中选取最优的模型,使其对已知的训练数据和未知的测试数据(testdata)在给定的评价准则下有最优的预测11/542.机器学习方法概述一般步骤:①获得一个有限的训练数据集合②确定包含所有可能的模型的假设空间,即学习模型的集合③确定模型选择的准则,即学习的策略④通过学习方法选择最优模型⑤利用学习到的最优模型对新数据进行预测或分析语料收集和标注12/542.机器学习方法概述问题的形式化:学习系统模型(x1,y1),(x2,y2),…,(xN,yN)ˆ()ˆ(|)YfXPYX预测系统xN+1yN+1给定一个训练数据集:T={(x1,y1),(x2,y2),…,(xN,yN)}其中,(xi,yi),i=1,2,…,N,称为样本。xi是输入的观测值,也称输入或实例;yi是输出的观测值,也称输出。13/542.机器学习方法概述在监督学习中,假设训练样本与测试数据是依据联合概率分布独立同分布的。在学习的过程中,学习系统利用给定的训练样本,通过学习(或训练)得到一个模型,表示为条件概率分布:或决策函数:,描述输入与输出随机变量之间的映射关系。ˆ()YfXˆ(|)PYX在预测的过程中,预测系统对于给定的测试样本集中的输入xN+1,由模型或给出相应的输出yN+1。1111ˆargmax(|)NNyNNyPyx11ˆ()NNyfx14/542.机器学习方法概述2.3常用方法感知机(perceptron):二类分类k-近邻法(k-nearestneighbor,k-NN):多类分类问题朴素贝叶斯法(naïveBayes):多类分类问题决策树(decisiontree):多类分类问题最大熵(maximumentropy):多类分类问题支持向量机(supportvectormachine,SVM):二类分类条件随机场(conditionalrandomfield,CRF):序列标注隐马尔可夫模型(hiddenMarkovmodel,HMM):标注15/542.机器学习方法概述概率图模型的演变[SuttonandMcCallum,2007]点线图ME16/542.机器学习方法概述2.4开源工具条件随机场:CRF++(C++版):CRFSuite(C语言版):MALLET(Java版,通用的NLP工具包,包括分类、序列标注等机器学习算法):NLTK(Python版,通用的NLP工具包,很多工具是从MALLET中包装转成的Python接口):贝叶斯分类器:支持向量机(LibSVM):~cjlin/libsvm隐马尔可夫模型:最大熵:OpenNLP:Malouf:Tsujii:~tsuruoka/maxent/张乐:林德康:~lindek/downloads.htm2.机器学习方法概述19/54内容提要1.引言2.机器学习方法概述3.ML方法在NLP中的应用4.一点建议和思考20/543.1由字构词(基于字标注)的分词方法(Character-basedtagging)第一篇由字构词的汉语分词方法的论文[Xue,2002]发表在2002年第一届国际计算语言学学会(ACL)汉语特别兴趣小组SIGHAN()组织的汉语分词评测(Bakeoff)研讨会上。该方法在2005年和2006年的两次Bakeoff评测中取得好成绩。3.ML方法在NLP中的应用21/54基本思想:将分词过程看作是字的分类问题。该方法认为,每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位)。假定每个字只有4个词位:词首(B)、词中(M)、词尾(E)和单独成词(S),那么,每个字归属一特定的词位。这里所说的“字”不仅限于汉字,也可以指标点符号、外文字母、注音符号和阿拉伯数字等任何可能出现在汉语文本中的文字符号,所有这些字符都是由字构词的基本单元。3.ML方法在NLP中的应用22/54例如:(1)上海/计划/到/本/世纪/末/实现/人均/国内/生产/总值/五千美元/。/(2)上/B海/E计/B划/E到/S本/S世/B纪/E末/S实/B现/E人/B均/E国/B内/E生/B产/E总/B值/E五/B千/M美/M元/E。/S3.ML方法在NLP中的应用23/54在字标注过程中,对所有的字根据预定义的特征进行词位特征学习,获得一个概率模型,然后在待切分字串上,根据字与字之间的结合紧密程度,得到一个词位的分类结果,最后根据词位定义直接获得最终的分词结果。工具:支持向量机(SVM)条件随机场(CRF)3.ML方法在NLP中的应用24/54基于条件随机场(CRF)的识别方法:序列标注y1y2y3…yn-1yn…W=w1w2…wn……wi-1wiwi+1yi-1yiyi+1……3.ML方法在NLP中的应用25/543.ML方法在NLP中的应用1(|,)exp((,))()jjpYXFYXZXλZ(X)为归一化因:()exp((,))jjYZXFYX11(,)(,,,)njjiiiFYXfyyXi特征函数:三个基本问题:特征的选取、参数训练和解码。26/54上/B海/E计/B划/E到本世纪……3.ML方法在NLP中的应用B,E,M,S?当前字的前后n个字(如n=±2)当前字左边字的标记当前字在词中的位置……27/54评价:该方法的重要优势在于,它能够平衡地看待词表词和未登录词的识别问题,文本中的词表词和未登录词都是用统一的字标注过程来实现的。在学习构架上,既可以不必专门强调词表词信息,也不用专门设计特定的未登录词识别模块,因此,大大地简化了分词系统的设计。3.ML方法在NLP中的应用28/543.2基于CRF的藏语分词方法主要针对的问题是:紧缩词识别已有的方法多数是基于规则的HuidanLiuetal.(2011)实现了基于音节标注的藏语分词方法,该方法把分词和紧缩词识别融和到一个统一的标注体系中史晓东等(2011)将基于HMM的汉语分词系统Segtag移植到了藏语中3.ML方法在NLP中的应用29/54李亚超等(2013)分析了紧缩词的出现频率3.ML方法在NLP中的应用语料频度整体S1S2S3S4S5S6词典次数38354266771270148662351111比例0.49100.34150.16260.06230.00300.00010.0001文本次数29877719262356618462426771946671比例0.34880.22490.06610.05400.00080.00230.0008S1~S6分别代表6个紧缩词:“ས་”、“ར་”、“འི་”、“འོ་”、“འང་”、“འམ་”30/54通过分析,我们可以把紧缩词识别问题看成分类问题,将这6个紧缩词按照功能划分成两大类:一类是作为格助词,另外一类是非格助词(包括基字和后加字)。这样就可以把紧缩词识别转化为序列标注问题,进而可以采用当前成熟的序列标注模型(如CRF)来进行识别。如句子:ཆབ་སིད་ཀི་ཁ་ཕོགས་དང་རྩ་བའི་རྩ་དོན་切分为音节序列后:ཆབ་/སིད་/ཀི་/ཁ་/ཕོགས་/དང་/རྩ་/བའི་/རྩ་/དོན་/序列标记后:ཆབ་/Nསིད་/Nཀི་/Nཁ་/Nཕོག/Nས་/Yདང་/Nརྩ་/Nབ/Nའི་/Nརྩ་/Nདོན་/N还原出分词的基本单位:ཆབ་/སིད་/ཀི་/ཁ་/ཕོགས་/དང་/རྩ་/བ/འི་/རྩ་/དོན་/3.ML方法在NLP中的应用31/54参照汉语基于字的分词方法,选用“BMES”标记集,根据每个藏文音节在词中出现的位置,给予不同的标签。3.ML方法在NLP中的应用音节数藏语词汇标记示例1ང་(我,nga)ང་/S2
本文标题:中科院自动化所宗成庆《机器学习方法在少数民族》
链接地址:https://www.777doc.com/doc-26257 .html