您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 藏文文本自动校对方法及系统设计
西南交通大学西藏大学藏文文本自动校对方法及系统设计作者:珠杰,李天瑞二0一三年十一月十八日目录引言藏文文本自动校对系统藏文文本自动校对方法测试结论一、引言例子:ས་སྐྱ་པཎྜི་ཏ་ཀུན་དགའ་རྒྱལ་མཚན་གྜི་གསུང་རྩོམ།།拼写错误梵音转写藏文错误接续关系错误词语错误一、引言•定义1:藏文音节拼写错误是指不符合藏文字性组织规则的无效藏文音节。•例1:“གཅྜིག་”写成“གཆྜིག”,“སྩོང་”写成“སྩོང་”等。这些错误可能是由于人为的输入错误,或者正字法知识的缺陷,造成的拼写错误。•定义5:语法语义错误是指不符合藏文语法结构规律或客观事理的句子错误,包含了语法错误和逻辑错误。例5:“ཆུ་སྩོལ་ཤྜིག”写成“ཆུ་བསྩོལ་ཤྜིག”时态错误等。•定义2:梵音转写藏文错误是指由音节点隔开的藏文字符串不符合梵音转写藏文文法规则的无效梵音转写藏文。例2:“ཀརྨ་བཀའ་བརྒྱུད”写成了“ཀསྨ་བཀའ་བརྒྱུད་”等。•定义3:接续关系错误是指不符合藏文格助词、不自由虚词接续关系文法的连接错误。例3:“བྩོ་བཟང་གྜིས་བཅད་”写成“བྩོ་བཟང་གྜིས་བཅད་”。•定义4:词语搭配错误是指几个正确的藏文音节搭配成词语时,该词语不在藏文词典集合中的无效藏文词语。•例4:“ང་ན་ཚ་མེད།གཡག་རྔ་དཀར་ཤྜི་སྩོང་།”写成“ང་ན་ཚྭ་མེད།གཡག་ལྔ་ཀ་ཤྜི་སྩོང་།”等。二、藏文文本自动校对系统——系统框架变精度粗糙集模型优势粗糙集模型经典粗糙集模型模糊粗糙集模型邻域粗糙集模型•藏文语法和语义检查•藏文词语校对•梵音转写藏文校对•藏文接续关系检查•藏文音节拼写检查二、藏文文本自动校对系统——拼写检查AB二、藏文文本自动校对系统——自动校对算法藏文文本自动校对算法:输入:藏文文本内容输出:校对结果文本1.藏文音节拼写检查,若拼写正确,转到3,否则,转到2;2.梵音转写藏文错误检查,若正确,转到5;否则做标记错误,并转到5;3.藏文的接续关系检查,若接续关系正确转到4,否则做标记错误,并转到5;4.藏文分词,匹配词典,若匹配成功转到5,否则标记错误标记,并转到5;5.输出校对结果二、藏文文本自动校对系统——自动校对算法输入藏文文本藏文音节拼写是否正确?虚词接续关系是否正确?梵音转写藏文是否正确?标记错误标记错误标记错误藏文词语是否正确?输出校对结果文本•N•Y•Y•N•N•Y•N•Y二、藏文文本自动校对系统——自动校对算法+main():void+spellCheker():Boolean+Devanagant():Boolean+SegmentAndWord():Boolean+syllable:String-com1:Boolean-com1:BooleanCheker+Compare()+compare1():Boolean+compare2():Boolean-subOfStr:String-indexof:intCompare+JointCheker()+Joint():Boolean-srt:String-dic:String-index:intJointCheker+Devanagant()+MatchingDev():Boolean-strErrorStr:String-strOfDic:StringDevanagant+SegmentAndWordCheker()+SyllepsesChecker():Boolean+JointChecker():Boolean+WordChecker():Boolean-strOf4Syllable:String-index:intSegmentAndWordCheker+SpellCheker():Boolean+Compare():Boolean-strSyllable:StringSpellCheker+WordCheker()+MatchingWord():String-srt:String-dic:String-index:intWordCheker+SyllepsesCheker()+MatchingSyll():Boolean-srt:String-dic:String-index:intSyllepsesCheker三、藏文文本自动校对方法——各个环节的校对方法(1)藏文音节拼写检查:利用藏文音节规则模型进行拼写检查,参考“TSRM的藏文拼写检查算法”(2)梵音转写藏文拼写检查方法:采用词典匹配方法,13765个梵音转写藏文字典为依据,进行检查。三、藏文文本自动校对方法——藏文音节拼写检查•藏文音节模型-1藏文音节模型-2藏文音节模型-3三、藏文文本自动校对方法——各个环节的校对方法(3)藏文接续关系检查算法首先需要识别集合P中后缀的不同类型和具体后缀字符;其次需要识别集合X中格助词和不自由虚词;最后判断是否满足接续关系函数xij=f(pi)。三、藏文文本自动校对方法——各个环节的校对方法表1藏文接续关系表Table1AtableofTibetanconnectiverelation后缀(P)属格助词作格助词位格助词饰集词待述词离合词终结词时态助词[ྜིང་]等虚词(X)གགྜི་གྜིས་་ང་སེ་གམ་གྩོ་གྜིན་ཅྜིང་ཅེས་ཅེའྩོ་ཅེ་ན་ཅྜིག་ངགྜི་གྜིས་་ཡང་སེ་ངམ་ངྩོ་གྜིན་ྜིང་ེས་ེའྩོ་ེ་ན་ྜིག་དྜི་ྜིས་་ང་དེ་དམ་དྩོ་ྜིནཅྜིང་ཅེས་ཅེའྩོ་ཅེ་ན་ཅྜིག་ནགྜི་གྜིས་་ཡང་ཏེ་ནམ་ནྩོ་གྜིན་ྜིང་ེས་ེའྩོ་ེ་ན་ྜིག་བྜིྜིས་་ང་སེ་བམ་བྩོ་ྜིནཅྜིང་ཅེས་ཅེའྩོ་ཅེ་ན་ཅྜིག་མགྜི་གྜིས་་ཡང་སེ་མམ་མྩོ་གྜིན་ྜིང་ེས་ེའྩོ་ེ་ན་ྜིག་འའྜི་འྜིས་ར་འང་སེ་འམ་འྩོ་ཡྜིན་ྜིང་ེས་ེའྩོ་ེ་ན་ྜིག་འཡྜི་ཡྜིས་་ཡང་རྩོ་གྜིན་ྜིང་ེས་ེའྩོ་ེ་ན་ྜིག་རགྜི་གྜིས་་ཡང་ཏེ་རམ་རྩོ་གྜིན་ྜིང་ེས་ེའྩོ་ེ་ན་ྜིག་ལགྜིགྜིས་་ཡང་ཏེ་ལམ་ལྩོ་གྜིན་ྜིང་ེས་ེའྩོ་ེ་ན་ྜིག་སྜི་ྜིས་སུ་ང་ཏེ་སམ་སྩོ་ྜིནཤྜིང་ཤེས་/ེས་ཤེའྩོ་ཤེ་ན་ཤྜིག་无འྜི་འྜིས་ར་འང་སེ་འམ་འྩོ་ཡྜིན་ྜིང་ེས་ེའྩོ་ེ་ན་ྜིག་ཡྜི་ཡྜིས་་ཡང་གྜིན་ནད་ཏེ་ཏམ་ཏྩོ་ཅྜིང་ཅེས་ཅེའྩོ་ཅེ་ན་ཅྜིག་རད་ཏེ་ཏམ་ཏྩོ་ཅྜིང་ཅེས་ཅེའྩོ་ཅེ་ན་ཅྜིག་ལད་ཏེ་ཏམ་ཏྩོ་ཅྜིང་ཅེས་ཅེའྩོ་ཅེ་ན་ཅྜིག་三、藏文文本自动校对方法——各个环节的校对方法输入str、indexstr中提取substrxij=f(pi)?是否匹配虚词?substr是否匹配虚词兼类?truefalse结束YNNYNY三、藏文文本自动校对方法——各个环节的校对方法(4)藏文词语错误检查方法采用词典匹配,分词方法是用了正向最大匹配算法;采用了197个虚词词典,2311个虚词兼类词典,133227个藏文词典。四、测试语料:“青海藏语广播网”的留言板中收集语料评测方法:召回率、查准率、误判率接续关系测试系统测试语料:“青海藏语广播网”的留言板中收集语料评测方法:召回率、查准率、误判率四、测试00.20.40.60.811.2123456召回率查准率判错率接续关系测试:四、测试接续关系测试:例子1:紧缩词的识别问题。格助词和不自由虚词中“འྜི་འང་འམ་འྩོ་ས་ར་”紧缩词识别和还原,不仅存在识别的难度,还存在还原的难度,更存在接续关系判断的难度,也是算法召回率和查准率降低的主要原因。例如:“ངའྜི་མེ་ཏྩོག་”等。为了解决此问题,本文紧缩词的接续关系检查纳入到拼写检查模块中,然后进行接续关系检查,但仍然存在“ས་ར་”的识别问题。表3的数据是改进后的测试结果。例子2:无后加字的识别问题。音节中由于没有后加字而算法直接去寻找基字或元音,如果音节中存在元音或者是纵向叠加情况,在后加字的判断上不会存在问题;如果既无元音,又无叠加情况,基字又兼后加字的时候,算法会在无后加字的判断上存在歧义。例如:“ང་ཡྜིས་གླུ་གཏང་།”中“ང་”后加字还是基字会出现判断失误。例子3:2个后缀字符的识别问题。在两个后缀字符的识别上,例如“བསནད་ང་”、“ནད་ང་”中,“ནད་ང་”按2个后缀字符来对待处理时,算法对此类语言现象的处理也是存在歧义的。四、测试00.10.20.30.40.50.60.70.80.91123456召回率查准率判错率系统测试:分词错误、接续关系中后缀字符识别错误,拼写检查错误、各模块交叉错误等。五、结论(1)基于规则的藏文文本校对方法(2)研究:基于统计的方法和统计和规则相结合的方法(3)研究:纠错方法致谢
本文标题:藏文文本自动校对方法及系统设计
链接地址:https://www.777doc.com/doc-3437891 .html