您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 自然语言理解-词典素材
词典词典与词典编纂的研究词典学lexicologyTheoryanddescriptionoflexicalinformation计算词典学computationallexicologyformalmodelingoflexicalinformation词典编纂学lexicographyConstructionofdictionaries(databases,handbooks)计算词典编纂学computationallexicographyconstructionandproductionofdictionariesusingelectronicpublishing机读词典与人读词典人读词典(HumanReadableDictionary)格式不规范数据完整性和一致性不好非结构化机读词典(MachineReadableDictionary)格式规范数据完整性和一致性较好结构化人读词典(demo)金山词霸story中古英语storie古法语estoire拉丁语historian-ries(1)故事,小说;传闻;轶事Pleasereadusastory!请给我们读个故事!(2)谎话,假话(3)(书籍、电影、戏剧等的)情节(4)(报刊、杂志文章的)素材,题材机读词典的分类按信息类型分类语法词典语义词典(包括同义词典)双语词典…….按领域分类通用词典专业词典(术语词典)专名词典……汉语语法信息词典开发单位:北京大学计算语言学研究所参考文献:俞士汶等(1998)《现代汉语语法信息词典详解》,清华大学出版社、广西科学技术出版社1998年版。规模:7万多词条总库词性库名词时间词处所词方位词数词量词区别词代词动词形容词状态词副词介词连词助词语气词前接成分后接成分成语简称略语习用语语素标点符号词性分库动词代词汉语语法信息词典·总库汉语语法信息词典·动词库汉语语法信息词典·谓宾动词分库新华社词语数据库全库分为中文和外文两个大类,主要包括中文新闻库、经济信息库、证券库、人物库、组织机构库、专题资料库等中文数据库,还包括XinhuaNewsBulletin、Who’sWhoinChina等英文数据库。共有28个库100多个子库,数据量达80多亿汉字,并以日均150万汉字的速度增长。新华社词语数据库·国际组织“2000年问题”联合委员会/jointyear2000council/International“4·19”运动/movementapril19/Colombia“阿尔法66”/alpha66/Cuba“俄罗斯地区”社会联盟/regionsofrussiagroup/Russia“法中-2000年”协会/france-chinaassociationfortheyear2000/France“繁荣”党/prosperity/Russia“光明的日本”国会议员联盟/parliamentaryunionforabrightjapan/Japan“基地”组织/alqaeda/SaudiArabia《财富》杂志/fortune/USA《朝日新闻》/asahishimbun/Japan国际献血组织联合会/internationalfederationofblooddonororganizations/International国际宪法学协会/internationalassociationofconstitutionallaw/International国际香料集团/internationalspicegroup/International经济和外贸部/ministryofeconomyandexternaltradeofsyria/Syria经济和外贸部/ministryofeconomyandforeigntradeofegypt/Egypt新华社词语数据库·人名知网(Hownet)作者:董振东董强网站:概念描述举例NO.=017144W_C=打G_C=VE_C=~网球,~牌,~秋千,~太极,球~得很棒W_E=playG_E=VE_E=DEF=exercise|锻练,sport|体育其中DEF是核心,采用特定的“知识描述语言”知网(Hownet)2打017144exercise|锻练,sport|体育男人059349human|人,family|家,male|男高兴029542aValue|属性值,circumstances|境况,happy|福,desired|良生日072280time|时间,day|日,@ComeToWorld|问世,$congratulate|祝贺写信089834write|写,ContentProduct=letter|信件北京003815place|地方,capital|国都,ProperName|专,(China|中国)爱好者000363human|人,*FondOf|喜欢,#WhileAway|消闲必须004932{modality|语气}串015204NounUnit|名量,&(grape|葡萄),&(key|钥匙)从良016251cease|停做,content=(prostitution|卖淫)打对折017317subtract|削减,patient=price|价格,commercial|商,(range|幅度=50%)儿童基金会024083part|部件,%institution|机构,politics|政,#young|幼,#fund|资金,(institution|机构=UN|联合国)知网(Hownet)3义原总数:1500多个义原分类:共8类基本义原事件、实体、次要特征属性、属性值、数量、数量值语法义原:描述语法特征,如POS语法关系义原:描述意义关系,类似于格关系动态角色动态属性知网(Hownet)4义原的上下位关系构成树结构-entity|实体├thing|万物…├physical|物质…├animate|生物…├AnimalHuman|动物…├human|人│└humanized|拟人└animal|兽├beast|走兽…知网(Hownet)5知网中的关系同义词词林1梅家驹等,1983,上海辞书出版社为克服写作和翻译时的词穷现象而编写目前广泛应用于自然语言处理中收词近7万(按义项统计)按义项编排12大类94中类1428小类3925词群词群内部的词是同义词大类、中类、小类之间不一定是上下位关系(有些是领域)同义词词林2大类:A中类:g小类:10词群:01最小同义词集:01,02,03catewordAa010101人Aa010101士Aa010101人物Aa010101人士Aa010101人氏Aa010101人选Aa010102人类Aa010102噍类Aa010102生人Aa010102横目Aa010102圆颅方趾Aa010102方趾圆颅Aa010103人手Aa010103人员Aa010103人口Aa010103人丁Aa010103口Aa010103丁口Aa010103食指Aa010104劳力Aa010104劳动力Aa010105匹夫Aa010105个人WordNet1网址:~wn/开发单位:普林斯顿大学心理语言学实验室初衷是作为研究人类词汇记忆的心理语言学成果在自然语言处理中得到广泛的应用免费的在线词汇数据库世界很多语种都开发了相应的版本各种欧洲语言:EuroNet汉语:CCD(ChineseConceptDictioanry)WordNet2同义词集Synset用一组同义词的集合Synset来表示一个概念每一个概念有一段描述性的说明关系上下位关系(hyponymy,troponymy)同义反义关系(synonymy,antonymy)部分整体关系(entailment,meronymy)……Wordnet3规模名词:80,000words,60,000synsets形容词:16,000synsets动词:11,500synsets还在不断发展之中WordNet4名词概念的组织:WordNet5形容词概念的组织:WordNet6WordNet7词典检索算法1词典检索算法的性能评价时间复杂度空间复杂度检索方式直接用词语检索检索句子中某个位置开始的所有词检索句子中某个位置开始的最长词模糊检索……增量式索引词典检索算法2两个问题索引结构查找算法一种索引结构可以对应不同的查找算法词典顺序索引索引结构简单,占用空间小不能实现增量式索引:每增加一个词需重新排序词典顺序索引的查找算法整词二分查找时间复杂度O(log2N)无法按前缀查找改进的整词二分查找时间复杂度O(log2N)可以实现按前缀查找词典散列索引索引结构简单,占用空间小(比顺序索引稍大)可以实现增量式索引词典散列索引的检索算法利用散列(hash)函数直接定位效率高:常数不能按前缀查找冲突的解决使用冲突队列使用再散列散列函数(hash)的选择算法改进:逐词散列,可以实现按前缀查找词典分级索引将词语分成若干部分,为每一部分分别建立索引在分级索引中,每一级索引都可以采用各种不同的索引和查找算法对于汉语而言,第一级索引一般使用词语的首字,所以又常称为首字索引。汉语的首字数量有限,可以使用直接定位法,效率最高,空间也不大汉语词典按首字顺序索引首字二分检索2时间复杂度:O(log2N)空间复杂度:O(N)可以按前缀查找不能增量式索引:每次要重新排序汉语词典TRIE树索引AC算法1问题假设词典中有两个词:aba,abcd考虑输入串:bababcdab如何迅速找出输入串中词典词的所有出现?简单解决办法逐字查词典:效率太低AC算法将词典构造成一个自动机,一次扫描完成AC算法2AC算法3AC算法4AC算法5AC算法5AC算法6AC算法7AC算法8AC算法9汉语新词语随着经济、社会的飞速发展和对外交流的日渐频繁,自然语言中新词的不断涌现在汉语这种词与词之间没有明显界限的语言中,新词的识别问题尤为严重。除了命名实体和字母词因为有明显的构成特征而相对比较容易被识别外,其他新词很难识别。汉语新词语分类新词语的种类命名实体:包括人名、地名、音译名、商品名、公司字号、机构名等;缩略语:如“非典”、“计生委”等;方言词:如“靓”、“买单”等;–新造词:如“伊妹儿”、“美眉”等;专业术语:如“非典型肺炎”、“蓝光光盘”等;音译词:如“酷”、“秀”、“克隆”等;外来字母词:如WTO、APEC、SARS等。以上划分方式大多是按语言学的标准进行的,在计算机处理时难以找到明显的规律(命名实体和字母词除外)汉语新词语的出现规律虽然从词语的构成规律上看不出新词的规律,但是从一个整体的角度看,新词具有下述的两个特征:.新词语在文本中重复出现.新词语出现的时间有规律随着Internet的蓬勃发展以及网页采集技术的成熟,已经可以轻易的从网上采集大规模的网页,同时目前概率词法分析器也达到了比较成熟的阶段,因此这两个条件给我们利用新词语的这两个特征做好了准备。基于重复子串的新词语识别从互联网上定点收集大量文本语料对这些文本语料进行词语切分从切分的结果中识别出所有的词典中没有出现的重复串选择某个时间点以后出现的重复串作为候选新词采用人机互助的方法从候选新词中找出真正的新词重复子串识别目标:识别出文本中所有出现两次以上的子串据香港《文汇报》报道,北京的台湾问题专家李家泉受访时指出,台北、高雄两市市长选举,尽管蓝、绿两政治势力进行了激烈的斗争,但“北蓝
本文标题:自然语言理解-词典素材
链接地址:https://www.777doc.com/doc-3199458 .html