您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 自然语言理解-句法分析算法(1)..
句法分析算法上海交通大学陈玉泉内容提要概述带回溯的LR分析法CYKEarleyChartParsing概述程序设计语言分析算法递归下降LLLR特点高效排歧策略简单First集Follow集算符优先级自然语言文法的特点歧义歧义最大数量:真歧义和伪歧义咬死猎人的狗(vn的n)建设公路的需要(vn的n)他和我的爸爸(r和r的n)他和他的爸爸(r和r的n)算法应该……容纳歧义允许二义文法任何可能结果都应计算到高效在多项式时间内得到结果具备排序机制,启发式搜索策略一些算法自顶向下自底向上带回溯的LR分析法CYKEarleyChartParsing使用的例子输入:一/m张/q火车/n票/n文法:NPNPNP(1)NPMPNP(2)NPn(3)MPmq(4)期望分析结果Top-down自顶向下的方法又称为基于预测的方法。这种方法是先产生对后面将要出现的成分的预期,然后再通过逐步吃进待分析的字符串来验证预期。如果预期得到了证明,就说明待分析的字符串可以被分析为所预期的句法结构。如果某一个环节上预期出了差错,那就要用另外的预期来替换(即回溯)。如果所有环节上所有可能的预期都被吃进的待分析字符串所“反驳”,那就说明待分析的字符串不可能是一个合法的句子,分析失败。Top-downNPMPNPNPMPNP(2)Top-downNPNPNPNPMPNP(s)MPmq(4)mq一张Top-downNPNPNPNPMPNP(s)MPmq(4)mq一张NPNPNPNPNP(1)Top-downNPNPNPNPMPNP(s)MPmq(4)mq一张NPNPNPNPNP(1)nn火车票Bottom-up自底向上的方法也叫基于归约的方法。这种方法是先逐步吃进待分析字符串,把它们从局部到整体层层归约为可能的成分。如果整个待分析字符串被归约为开始符号S,那么分析成功。如果在某个局部证明不可能有任何从这里把整个待分析字符串归约为句子的方案,那么就需要回溯。如果经过回溯始终无法将待分析字符串归约为S,那么分析失败。Bottom-up一张火车票mqnnBottom-up一张火车票mqnnMPBottom-up一张火车票mqnnMPNPBottom-up一张火车票mqnnMPNPNPBottom-up一张火车票mqnnMPNPNPNPBottom-up一张火车票mqnnMPNPNPNPNP带回溯的LR组成部分Shift-Reduce-Goto表分析栈输入队列引入备份状态,解决移进规约冲突LR分析表的构造0S’.NPNP.NPNPNP.nNP.MPNPMP.mq4S’NP.NPNP.NPNP.NPNPNP.nNP.MPNPMP.mq3NPMP.NPNP.NPNPNP.nNP.MPNPMP.mq5NPMPNP.NPNP.NPNP.NPNPNP.nNP.MPNPMP.mq6NPNPNP.NPNP.NPNP.NPNPNP.nNP.MPNPMP.mq1MPm.q2MPmq.7NPn.过程TheShift-reduceTableandtheparsingprocessstatusmqn$NPMP0s1s7431s22r4r4r4r43s1s7534s1s7acc635s1r2r2s7r2r2636s1r1r1s7r1r1637r3r3r3r3StackInputQueueBackupStatus$0mqnn$$0m1qnn$$0m1q2nn$$0MP3nn$$0MP3n7n$$0MP3NP5n$$0MP3NP5n7$($0NP4)(n$)$0MP3NP5NP6$($0NP4)(n$)$0MP3NP5$($0NP4)(n$)$0NP4$($0NP4)(n$)$0acc$($0NP4)(n$)$0NP4n$$0NP4n7$$0NP4NP6$$0NP4$$0acc$(1)NPNPNP(2)NPMPNP(3)NPn(4)MPmq过程(cont.)$0mqnn$$0m1qnn$$0m1q2nn$$0MP3nn$$0MP3n7n$$0MP3NP5n$$0MP3NP5n7$$0MP3NP5NP6$$0MP3NP5$$0NP4$$0acc$$0NP4n$$0NP4n7$$0NP4NP6$$0NP4$$0acc$算法分析类似深度优先搜索如果改变备份栈顺序,可以实现其它搜索策略。(agenda)自底向上复杂度为指数思考:有没有办法变成多项式?(GLR)CYK组成部分一张二维表,存储中间结果从小的成分,逐渐计算到大的成分前提条件文法符合chomsky范式文法只有两种形式:ABC其中,A,B,C都为非终结符Aa其中,a为终结符算法数据结构一个二维矩阵:{M(i,j)}每一个元素M(i,j)对应于输入句子中某一个跨度(Span)上所有可能形成的短语的非终结符的集合横坐标i:该跨度左侧第一个词的位置纵坐标j:该跨度包含的词数算法描述初始化Forinti=0ton-1ifW(i,i+1)==a&&exitAaAddAtoM(i,i+1)计算Forintl=2tonforintk=0ton-lforintj=1tol-1foreachABCif(BinM(k,k+j)andCinM(k+j,k+l))addAtoM(k,k+l)结果M(0,n)isthesetofallresults;CYKExamplem(1)q(2)N(5),NP(6)n(3),NP(4)一张火车票MP(7=1+2)NP(8=4+6)NP(9=7+4)NP(10=9+6),NP(11=7+8)算法分析文法必须二元化广度优先搜索自底向上O(n3),动态规划思想Earley算法描述规则中加入“.”表示当前分析程度一张二维表引入预测机制这个算法可以认为是三个步骤的不断循环:预测(predict)扫描(scan)完成(complete)基本概念一个状态由四部分组成:1.上下文无关文法规则2.圆点·(圆点左边的部分是已分析的,右边是待分析的)3.整数i:状态起点(已分析子串的起点)4.整数j:状态终点(已分析子串的终点)i≤j比如:SNP·VP0,4基本操作预测(Predicator):如果圆点右方是一个非终结符,那么以该非终结符为左部的规则都有匹配的希望,也就是说分析器可以预测这些规则都可以建立相应的项目。扫描(Scanner):如果圆点右方是一个终结符,就将圆点向右方扫描一个字符间隔,把匹配完的字符“让”到左方。归约(Completer):如果圆点右方没有符号(即圆点已经在状态的结束位置),那么表示当前状态所做的预测已经实现,因而可以将当前状态(Si)与已有的包含当前状态的状态(Sj)进行归约(合并),从而扩大Sj覆盖的子串范围EarleyExample一张火车票5)m7)q14)n23)n1)NP。NPNP2)NP。MPNP3)NP。n4)MP。mq6)=4+5MPm。q8)=6+7MPmq。9)=2+8NPMP。NP10)NP。NPNP11)NP。MPNP12)NP。n13)MP。mq15)=12+14NPn。16)=9+15NPMPNP。17)=1+16NPNP。NP18)=10+15NPNP。NP19)NP。NPNP20)NP。MPNP21)NP。n22)MP。mq24)=21+23NPn。25)=17+24NPNPNP。26)=18+24NPNPNP。27)=9+26NPMPNP。PredictionScanningCompletionResults分析自顶向下和自底向上的结合,以自顶向下为主引入了预测机制,在一般情况下改进了效率最坏情况下复杂度为O(n3)图算法基本数据结构图(二维表)节点:词与词之间的间隙弧:产生式在两个节点间的应用,分为活动弧和完成弧mqMP.mq.MP.m.q012基本数据结构(cont.)Agenda:可以按某种顺序排列的队列(stack,queue,…),存放还没有处理过的弧。弧的处理(旧弧产生新弧):扩展:活动弧+完成弧触发:完成弧mqMP.mq.MP.m.q算法描述1。将所有单词作为完成弧放入agenda,按某种排序策略排序,把结果表清空。2。如果agenda为空,转入63。从agenda中取出一条弧,如果是覆盖整个句子完成弧且规则右部是可接受文法符号,那么将弧放入结果表4。如果不是,则进行弧的扩展与触发,将产生的新弧放入agenda,放入时满足agenda的排序规则5。转入26。如果结果表空,则分析失败,否则返回结果表中的内容最左触发,向右扩展,后进先出的图算法mqnn一张火车票MP.m.qMP.mq.NP.MP.NPNP.n.NP.NP.NPNP.MPNP.NP.NP.NPNP.n.NP.NPNP.NP.MPNP.NP.NPNP.01423Grammar:•NPNPNP•NPn•NPMPNP•MPmq•••(0,1)m•(1,2)q•(2,3)n•(3,4)nagenda:ExtendedarcsTriggeredarcs••••(1,2)q•(2,3)n•(3,4)n•••(0,1)MP.m.q•(1,2)q•(2,3)n•(3,4)n••••(1,2)q•(2,3)n•(3,4)n•••••(2,3)n•(3,4)n••••(0,2)MP.mq.•(2,3)n•(3,4)n•••••(2,3)n•(3,4)n••••(0,2)NP.MP.NP•(2,3)n•(3,4)n•••••(2,3)n•(3,4)n••••••(3,4)n•••••(2,3)NP.n.•(3,4)n••••••(3,4)n••••(0,3)NP.MPNP.•(2,3)NP.NP.NP•(3,4)n•••••(2,3)NP.NP.NP•(3,4)n••••(0,3)NP.NP.NP•(2,3)NP.NP.NP•(3,4)n•••••(2,3)NP.NP.NP•(3,4)n••••••(3,4)n••••••••••••(3,4)NP.n.•••••••••••(2,4)NP.NPNP.•(0,4)NP.NPNP.••••••(0,4)NP.NPNP.•••••(0,4)NP.MPNP.•(0,4)NP.NPNP.••••••(0,4)NP.NPNP.••••••Agenda的作用实现多种搜索策略:后进先出,深度优先先进先出,广度优先启发式搜索算法分析灵活自底向上O(n3)Thankyou!
本文标题:自然语言理解-句法分析算法(1)..
链接地址:https://www.777doc.com/doc-3199446 .html