您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 周国栋2010_自然语言理解基础研究
自然语言理解基础研究周国栋自然语言处理实验室苏州大学计算机科学与技术学院2010年12月27日•实验室:800平方米实验室简介•核心研究人员(欢迎加盟=》2010-2012:3-5人)–教授:周国栋–副教授:钱龙华、李寿山、孔芳–博士:王红玲、洪宇–博士生:李军辉、贾政斌、贡正仙、李艳翠、孙静、许兰、徐丹•其他–朱巧明教授:苏州大学科技与产业部常务副部长,主管全校科研–钱培德教授:苏州大学原校长,主管NLP应用研究–李培锋副教授:NLP应用研究–姚建民副教授:苏州市科技情报所常务副所长实验室简介•纵向项目–2006:NSFC(1)+863(1)–2008:NSFC(1)–2009:NSFC(4)–2010:NSFC(4)•横向项目–每年200万元实验室简介•2007论文(3)–会议长文•ACL(1,Oral)、EMNLP(1,Oral)–SCI杂志•InformationProcessingandManagement(1)实验室简介•2008论文(6)–会议长文•IJCNLP(2,Oral)、COLING(1,Oral)–SCI杂志•InformationProcessingandManagement(2)•IEEETransactiononASLP(1)实验室简介•2009论文(7)–会议长文•ACL(1,Oral)、EMNLP(4)–SCI杂志•ComputerSpeechandLanguage(1)•InformationSciences(1)实验室简介•2010论文(10+4)–会议长文•ACL(2,Oral)、EMNLP(3)、COLING(3,Oral)–SCI杂志•InformationSciences(1)•InformationProcessingandManagement(1)•JournalofComputerScienceandTechnology(3,major/minorrevision)–软件学报(1)实验室简介•用计算机处理自然语言自然语言处理简介计算机自然语言自然语言自然语言理解自然语言产生自然语言处理简介•自然语言处理是人工智能的一个重要分支自然语言处理逻辑推理机器学习搜索算法自然语言处理简介•主要研究内容:基础技术–字处理方面–词处理方面–语句处理方面–篇章处理方面–跨文本处理方面自然语言处理简介•主要研究内容:基础技术–字处理方面:输入ziranyuyanchuli自然语言处理自然语言处理简介•主要研究内容:基础技术–词处理方面•词态分析–“gone”是“go”的过去分词–中文自动分词•词性标注–The/DTdog/NNlaughs/VBS.•词义消岐–Ihavenointerest.(money/others?)自然语言处理简介•主要研究内容:基础技术–语句处理方面•语法分析自然语言处理简介•主要研究内容:基础技术–语句处理方面•语法分析•语义分析–语义作用标注–rob(“theburglar”,“thedepartment”)•语用分析–你好!自然语言处理简介•主要研究内容:基础技术–篇章处理方面•指代消解MicrosoftCorp.announceditsnewCEOyesterday.Microsoftsaid…自然语言处理简介•主要研究内容:基础技术–跨文本处理方面•跨文本指代消解新加坡周国栋博士来语言与信息研究中心讲学|-武汉大学文学院在讲学期间,周国栋博士分别在文学院和计算机学院进行了三次有关自然语言处理的学术...同时,周国栋博士还多次与语言与信息研究中心的师生进行了专题讨论,针对中心...周国栋教授简介周国栋教授,江西新余人,1933年1月出生。1957年毕业于西北大学数学系并留校任教。1986—1987年在美国圣托玛斯学院做访问学者。曾兼任中国人工智能学会常务理事、陕西...2006江西省第一届中小学优秀校长评选周国栋同志1981年井冈山师院毕业便分配到泰和中学工作至今。...吃苦在前,享受在后,一心为公”这是泰和中学师生对校长周国栋的一致好评,泰中人为有这样一位好校长而...自然语言处理简介•主要研究内容:应用技术–机器翻译–信息抽取–信息检索–问题回答–自动文摘–自然语言产生自然语言理解基础研究思路句子级基础研究:命名实体识别与浅层句法分析●○○•MutualInformationIndependenceModel(MIIM)和互信息依存模型(MutualInformationDependenceModel(MIDM)–由状态转移函数和可区分式状态函数组成–MIIM和MIDM两模型都结合了隐式马尔科夫模型(HiddenMarkovModel,HMM)和可区分式模型的长处•训练和解码速度快,•可区分式状态函数允许集成观察序列中各种非独立性特征,也不存在严重的数据稀疏问题。–MIIMvs.MIDM•MIDM是一种基于条件概率的可区分式马尔科夫模型(DiscriminativeMarkovModel,DMM),它克服了MIIM的缺点,允许状态转移可以基于观察序列中非独立性特征,•这使得MIDM可以根据训练语料规模,选择不同大小的非独立性特征,对它的状态转移函数进行调整,使得MIDM可以更好地刻画状态之间的转移规律,具有较好的可扩展性。•短语组块分析–CoNLL(2000年)基本短语组块识别国际比赛中获得单系统组第一名。–代表性论文•ZhouGuoDong.2005.DirectmodelingofoutputcontextdependenceindiscriminativeHiddenMarkovModel,PatternRecognitionLetters.26(5):545-553.[SCI影响因子1.56]•ZhouGuoDong.2004.DiscriminativehiddenMarkovmodelingwithlongstatedependenceusingakNNensemble,COLING’2004:22-28.•ZHOUGuoDongandSUJian.2000.Error-drivenHMM-basedChunkTaggerwithContext-dependentLexicon,EMNLP-VLC’2000:71-79.【GoogleScholar统计论文被引用次数36】•ZhouGuoDong,SuJianandTeyTongGuan.2000.HybridTextChunking.CoNLL'2000:163-165.【GoogleScholar统计论文被引用次数35】–中文自动分词•ZhouGuoDong.2005.AchunkingstrategytowardsunknownworddetectioninChinesewordsegmentation,IJCNLP’2005(LNAI3651):530-541.句子级基础研究:命名实体识别与浅层句法分析●○○•命名实体识别–有效集成各种实体内部和外部特征。–代表性论文•ZhouGuoDongandSuJian.2006.MachineLearning-basedNamedEntityRecognitionviaEffectiveIntegrationofVariousEvidences,NaturalLanguageEngineering.11(2):189-206.CambridgePress.[EI]•ZhouGuoDongandSuJian.2002.NamedEntityRecognitionUsingaHMM-basedChunkTagger,ACL’2002:473-480.【GoogleScholar统计论文被引用次数218】句子级基础研究:命名实体识别与浅层句法分析●○○•生物医学名识别–深入研究生物医学领域的生物医学名命名特点。–BioCreative’2004蛋白质与基因名识别比赛和JNLPBA’2004生物医学名识别比赛第一名,击败了包括美国史坦福大学和欧洲生物信息学中心在内的数十支团队。–代表性论文:•ZhouGuoDong.2006.RecognizingnamesinbiomedicaltextsusingMutualInformationIndependenceModelandSVMplusSigmoid.InternationalJournalofMedicalInformatics.75(6):456-467.[SCI影响因子2.75]•ZhouGuoDong,ShenDan,ZhangJie,SuJianandTanSoonHeng.2005.RecognitionofproteinandgenenamerecognitionfromTextusinganEnsembleofClassifiersandEffectiveAbbreviationResolution,BMCBioinformatics,6(supp1):S7.[SCI影响因子3.49]【GoogleScholar统计论文被引用次数45】•ZhouGuoDong,ZhangJie,SuJian,ShenDanandTanChewLim.2004.RecognizingNamesinBiomedicalTexts:aMachineLearningApproach.Bioinformatics.20(7):1178-1190.[SCI影响因子4.33]【GoogleScholar统计论文被引用次数131】•ZhangJie,ShenDan,ZhouGuoDong,SuJianandTanChewLim.2004.EnhancingHMM-basedBiomedicalNamedEntityRecognitionbyStudyingSpecialPhenomena,JournalofBiomedicalInformatics.37(6):411-422.[SCI影响因子2.01]【GoogleScholar统计论文被引用次数19】•ZhouGuoDongandSuJian,Exploringdeepknowledgeresourcesinbiomedicalnamerecognition.COLING‘2004Workshop:JNLPBA’2004sharedtask【GoogleScholar统计论文被引用次数82】•ShenDan,ZhangJie,ZhouGuoDong,SuJianandTanChewLim,EffectiveAdaptationofaHiddenMarkovModel-basedNamedEntityRecognizerforBiomedicalDomain,ACL’2003Workshop:BioNLP’2003:49-56.【GoogleScholar统计论文被引用次数55】句子级基础研究:命名实体识别与浅层句法分析●○○•弱指导命名实体识别–减少指导性学习方法对大规模标注语料的依赖。•探索了基于多准则(信息量、代表性和区分度)的主动学习方法,通过主动选择信息量大、代表性好、区分度大的实例进行标注,提高标注实例的质量,并将之成功应用于命名实体识别,大大减少了为达到某一性能而需要手工标注的语料规模。•探索了协同训练中协同能力的评价指标问题。–代表性论文:•ShenDan,ZhangJie,SuJian,ZhouGuoDongandTanChewLim.2004.Multi-criteria-basedactivelearningfornamedentityrecognition.ACL’2004:589-596.【GoogleScholar统计论文被引用次数71】•ShenDan,ZhangJie,SuJian,ZhouGuoDongandTanChewLim,2004.ACollaborativeAbilityMeasurementforCo-Training,IJCNLP’2004(LNAI3248)
本文标题:周国栋2010_自然语言理解基础研究
链接地址:https://www.777doc.com/doc-3991293 .html