您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 基于大规模自然标注Web资源 的自然语言处理: 一种可能 …
基于大规模自然标注Web资源的自然语言处理:一种可能的新的研究范式MaosongSun(孙茂松)DepartmentofComputerScience&TechnologyTsinghuaUniversityRound-tableConferenceonLinguisticCorpusandCorpusLinguistics,HongKong,May6-8,2011Outline1.Web辅助语言研究(Web-aidedlinguisticstudy,inthecontextofChinese,inparticular)2.基于Web的流行语句自动发现3.基于Wikipedia的词语关联分析4.一种新的研究范式—基于大规模自然标注Web资源的自然语言处理(Naturallanguageprocessingbasedonlarge-scalenaturallyannotatedWebresources)Outline1.Web辅助语言研究(Web-aidedlinguisticstudy,inthecontextofChinese,inparticular)2.基于Web的流行语句自动发现3.基于Wikipedia的词语关联分析4.一种新的研究范式—基于大规模自然标注Web资源的自然语言处理(Naturallanguageprocessingbasedonlarge-scalenaturallyannotatedWebresources)汉语语义构词法?以“猪肉”为例=语义类+语义类BK10+BI06(同义词词林)BK+BI(同义词词林)鸭肉、马肉、驴肉、鸟肉……猪皮、猪蹄、猪心、猪肝……鸭皮、马心、鸭肝、鸟蹄……从词法谈开去……斑羚尸体125白羊肚子46白鼠皮肤40白羊神经39白马全身27白鼠心肌26白马脖子25爱犬皮肤25白马浑身24白马尸体23白羊心里20白鲸皮肤19斑马上身19白羊脑子18白鼠表皮15白马屁股15斑马尸体15斑马身体14白羊血液13白羊眼里13斑马脊梁13贝类肌肉12白马额头12白马一身12白羊绒毛12白羊睾丸12爱犬鸡肉11斑马芳心11斑马耳朵11斑马屁股111、海量数据产生智能1、海量数据产生智能1、海量数据产生智能1、海量数据产生智能1、海量数据产生智能1、海量数据产生智能Outline1.Web辅助语言研究(Web-aidedlinguisticstudy,inthecontextofChinese,inparticular)2.基于Web的流行语句自动发现3.基于Wikipedia的词语关联分析4.一种新的研究范式—基于大规模自然标注Web资源的自然语言处理(Naturallanguageprocessingbasedonlarge-scalenaturallyannotatedWebresources)城市,让生活更美好1140000你知道我是谁吗?我是局长!41700忻州限价房成公务员小区31200记者证在此无用2750姑娘,别闹了,闵行长是有背景的1780财产公示会引起混乱637记者证在我们这里没用的607折射社会热点问题……Outline1.Web辅助语言研究(Web-aidedlinguisticstudy,inthecontextofChinese,inparticular)2.基于Web的流行语句自动发现3.基于Wikipedia的词语关联分析4.一种新的研究范式—基于大规模自然标注Web资源的自然语言处理(Naturallanguageprocessingbasedonlarge-scalenaturallyannotatedWebresources)从Wikipedia词条中提取的汉语词约有70多万,通过链接提取的词有170万左右。由此及彼:词与词之间的关系Outline1.Web辅助语言研究(Web-aidedlinguisticstudy,inthecontextofChinese,inparticular)2.基于Web的流行语句自动发现3.基于Wikipedia的词语关联分析4.一种新的研究范式—基于大规模自然标注Web资源的自然语言处理(Naturallanguageprocessingbasedonlarge-scalenaturallyannotatedWebresources)自然标注的Web资源“…”Wikipedia人类智能+机器智能大规模资源+简单分析(+抗干扰)上述工作的若干共同点显式标注:标点符号,如句子结束符,“”,()等;空格(1)自然标注资源的基本类型隐式标注:例“是一种”苹果是一种水果苹果是一种广泛使用的天然美容水果苹果是一种营养丰富的水果苹果是一种维生素含量极高的水果苹果是一种手机乔布斯本人宣称iPad是一种全新种类的产品iPad是一种娱乐加办公的时尚潮流产品ipad是一种简易的手持设备iPad是一种更浸入式的设备iPad是一种混合设备iPad是一种全新类型的电脑iPad是一种触摸屏平板电脑(1)自然标注资源的基本类型隐式标注:例“一…就”海带怎样一煮就烂?超可怕!5种食物一吃就胖五笔打字一学就会一看就懂的中医入门如何让你的机子一打就着期银上调保证金泡沫一挤就破为什么一上网就死机如何解决Word2003一保存就崩溃问题一见面就会吵架的星座情侣组合一着凉就感冒?一感冒就吃阿莫西林很可能会吃错药(1)自然标注资源的基本类型(2)简单分析:串匹配Parse(ROOT(IP(NP(LCP(NP(NP(NN挑))(QP(CD一些))(NP(NN例子)))(LC来))(NP(NN测试)))(VP(ADVP(AD一下))(VP(NP(DNP(NP(PN你))(DEG的))(NP(NN系统)))))))简单分析策略(3)大规模资源(+抗干扰)动词宾语语法书V+O把字句把字句加“了”折腾你能用把字句22700002450000747,000割阑尾能用把字句842003860022,900盖房子能用把字句1060000042800001,010,000砍树能用把字句73300001040000346,000写文章能用把字句5870000030400001,060,000回北京不能用把字句15000000531000在车间不能用把字句6490000172000有经验不能用把字句1670000001920000热爱祖国不能用把字句281000031知道答案不能用把字句1730000011把车间在一定时期内发生的生产费用进行归集、分配结论(1)基于大规模自然标注Web资源的自然语言处理(Naturallanguageprocessingbasedonlarge-scalenaturallyannotatedWebresources)也许是一个有趣的研究方向(2)基本理念:钱钟书先生“能够帮助人的电脑,需要人的更多帮助”“能够帮助人的电脑和Web,需要人的更多帮助”(3)技术挑战:NAR-NLP的最大能力?34andQ&A
本文标题:基于大规模自然标注Web资源 的自然语言处理: 一种可能 …
链接地址:https://www.777doc.com/doc-6446433 .html