您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 酒店餐饮 > wordnet使用教程
Wordnet是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,一个sense中的多个消除了多义性的词语叫做lemma。例如,“publish”是一个word,它可能有多个sense:1.(39)print,publish--(putintoprint;Thenewspaperpublishedthenewsoftheroyalcouple'sdivorce;Thesenewsshouldnotbeprinted)2.(14)publish,bringout,putout,issue,release--(prepareandissueforpublicdistributionorsale;publishamagazineornewspaper)3.(4)publish,write--(have(one'swrittenwork)issuedforpublication;HowmanybooksdidGeorgesSimenonwrite?;Shepublished25booksduringherlongcareer)在第一个sense中,print和publish都是lemma。Sense1括号内的数字39表示publish以sense1在某外部语料中出现的次数。显然,publish大多数时候以sense1出现,很少以sense3出现。WordNet的具体用法NLTK是python的一个自然语言处理工具,其中提供了访问wordnet各种功能的函数。下面简单列举一些常用功能:得到wordnet本身:fromnltk.corpusimportwordnet获得一个词的所有sense,包括词语的各种变形的sense(语义):wordnet.synsets('published')[Synset('print.v.01'),Synset('publish.v.02'),Synset('publish.v.03'),Synset('published.a.01'),Synset('promulgated.s.01')]得到synset的词性:related.pos's'得到一个sense的所有lemma:wordnet.synsets('publish')[0].lemmas[Lemma('print.v.01.print'),Lemma('print.v.01.publish')]得到Lemma出现的次数:wordnet.synsets('publish')[0].lemmas[1].count()39在wordnet中,名词和动词被组织成了完整的层次式分类体系,因此可以通过计算两个sense在分类树中的距离,这个距离反应了它们的语义相似度:x=wordnet.synsets('recommended')[-1]y=wordnet.synsets('suggested')[-1]x.shortest_path_distance(y)0形容词和副词的相似度计算方法:形容词和副词没有被组织成分类体系,所以不能用path_distance。a=wordnet.synsets('beautiful')[0]b=wordnet.synsets('good')[0]a.shortest_path_distance(b)-1形容词和副词最有用的关系是similarto。a=wordnet.synsets('glorious')[0]a.similar_tos()[Synset('incandescent.s.02'),Synset('divine.s.06'),……]WordNet是面向语义的英语词典,类似于传统字典。它是NLTK语料库的一部分,可以被这样调用:更简洁的写法:1.单词dog英[dɒg]美[dɔɡ]n.狗;丑女人;卑鄙的人;(俚)朋友vt.跟踪;尾随查看一个单词的同义词集用synsets();它有一个参数pos,可以指定查找的词性。这里得到的同义词集是同义词集的集合,即里面不是单纯的词,是同义词的集合.注:一个synset(同义词集:指意义相同的词条的集合)被一个三元组描述:(单词.词性.序号)。这里的’dog.n.01’指:dog的第一个名词意思;’chase.v.01’指:chase的第一个动词意思pos可为:NOUN、VERB、ADJ、ADV…2.同义词集注:一些关系的获得只能通过Lemmas,比如反义词:3.Similaritysynset1.path_similarity(synset2):是基于上位词层次结构中相互连接的概念之间的最短路径在0-1范围的打分(两者之间没有路径就返回-1)。同义词集与自身比较将返回1
本文标题:wordnet使用教程
链接地址:https://www.777doc.com/doc-2856866 .html