您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 中文分词-ppt课件
13.4中文分词原理2【目录】什么是中文分词查询处理分词技术分析应用举证分词技术概述12345为什么要分词英文Knowledgeispower单词之间有空格,很容易进行词语的匹配。中文的语义与字词的搭配相关和服务必于三日之后裁制完毕王府饭店的设施和服务是一流的杭州市长春药店杭州市长春药店中文的语义与字词的搭配相关后人又有人写:1、下雨天留客,天留,我不留。2、下雨天留客,天留我不留。3、下雨天,留客,天留,我不留。4、下雨天,留客,天留我,不留。5、下雨天留客,天留我不?留!6、下雨天,留客天,留我不留?7、下雨天,留客天,留我?不留!8、下雨天留客,天!留我不?留!9、下雨天,留客!天!留我不留?唐朝时,一个穷人到他朋友家去玩,这个穷人非常的聪明。又一天,下起了雨,这个朋友想让他快点回去,不好意思说,于是,写了一封信,但没加标点。这个朋友的意思是:下雨天留客,天留人不留。没想到,这位聪明的穷人在信中夹了标点,意思全变了:下雨天,留客天,留人不?留。6什么是中文分词中文分词定义上海/武警/总队/医院/地址分词就是将一句话切分成一个个单词的过程.分词的目的是更加有效、准确的关键词索引。中文分词概述什么是分词?比如句子“内塔尼亚胡说的确实在理”中文分词概述(Cont.)分词作用互联网绝大多数应用都需要分词,典型应用实例汉字处理:拼音输入法、手写识别、简繁转换…信息检索:Google、Baidu…内容分析:机器翻译、广告推荐、内容监控…语音处理:语音识别、语音合成……基于关键词的口碑分析客户:某知名全国连锁餐饮品牌需求:自身及竞争对手在互联网上的口碑变化2020/8/222020/8/221111Part2【接受用户查询后做了哪些事情】『查询处理』12用户提交字符串小于3个字符用户提交字符串多于3个字符提交的中文查询包含英文单词查询处理用户查询方式13查询处理小于等于3个字符串皮肤病用户查询方式皮肤病14查询处理用户查询方式小于等于3个中文汉字,将直接调取数据库中索引的词汇注15查询处理用户提交了不止一个查询串多于3个字串符上海皮肤病医院用户查询方式上海/皮肤病/医院上海皮肤病/医院上海/皮肤病医院上海皮肤病医院16查询处理用户查询方式大于等于4个中文汉字,搜索引擎会默认将所有字符串按词分隔开,分成若干子查询串注17查询处理提交的中文查询包含英文单词用户查询方式Iphone手机Iphone/手机Iphone手机18查询处理用户查询方式当提交的中文查询包含英文单词时,查询结果会将英文单词优先完整展现,即使查询的单词不存在,也会当做一个字符处理,不会进行拆分注中文分词概述(Cont.)分词难点歧义无处不在交叉歧义(多种切分交织在一起)内塔内亚胡说的/确实/在理组合歧义(不同情况下切分不同)这个人/手上有痣我们公司人手真歧义(几种切分都可以)乒乓球拍/卖/完了乒乓球/拍卖/完了中文分词概述(Cont.)分词难点新词层出不穷人名、地名、机构名奥巴马表哥房叔网名你是我的谁旺仔小馒头公司名、产品名摩托罗拉谷歌爱国者腾讯网易新浪诺基亚C5尼康D700中文分词概述(Cont.)分词难点普通词与新词互用高明表演真好(演员)/他的表演很高明汪洋到深圳检查工作/洞庭湖一片汪洋普通词与新词交织在一起克林顿对内塔尼亚胡说胡锦涛听取龚学平等同志的汇报中文分词概述(Cont.)分词难点(需要重新处理)需求多种多样切分速度:搜索引擎VS单机版语音合成结果呈现:切分粒度要求不同:机器翻译VS搜索引擎分词重点要求不同:语音合成VS搜索引擎唯一结果VS多结果:语音合成VS搜索引擎新词敏感度不同:语音合成VS搜索引擎处理对象:书面文本(规范/非规范)VS口语文本硬件平台:嵌入式VS单机版VS服务器版2323Part3【都有哪些分词技术】『分词技术概述』2424Part3分词技术概述『目录』〖基于字典的分词方法〗〖基于统计的分词方法〗〖基于词义分词方法〗2525Part3基于字典的分词方法按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功概念2626Part3基于字典的分词方法第一页最后一页27正向最大匹配法反向最大匹配法最短路径分词法基于字典的分词方法常用方法28正向最大匹配法中医治白癜风中医/治/白癜风基于字典的分词方法正向最大匹配法29反向最大匹配法中医治白癜风中/医治/白癜风基于字典的分词方法反向最大匹配法30最短路径分词法中医治白癜风中医/治白癜风基于字典的分词方法最短路径分词法31基于字典的分词方法常用方法采用最短路径分词方法,因词典中没有“治白癜风”这个词组,所以从用户体验考虑,调取了字典中意思相近、用户搜索量大的词“治疗白癜风”、“治愈白癜风”注32基于统计的分词方法相邻的字同时出现的次数越多,就越有可能构成一个词优点用于系统自动识别新词缺点对常用词的识别精度差例如:你的、我的、许多的、最好的、之一常用方法统计分词生成式统计分词判别式统计分词生成式分词原理首先建立学习样本的生成模型,再利用模型对预测结果进行间接推理两个假设前提马尔可夫假设•当前状态出现的概率仅同过去有限的历史状态有关,而与其他状态无关。具体到分词任务,就是文本中第i个词出现的概率仅仅依赖于它前面的i-1个词,而与其他词无关。输出独立性假设•当前状态的输出仅仅取决于当前状态本身,而与其他状态无关。生成式分词(Cont.)学习素材句子切分结果分词知识库产生式学习算法产生式切分算法分词词典生成式分词(Cont.)分词过程实例第一步:全切分生成式分词(Cont.)第二步:Viterbi动态规划,找到贯穿句子的路径并计算每条路径的概率P1=P(说|他)*P(的|说)*P(确实|的)*P(在理|确实)*P($End|在理)P2=P(说|他)*P(的确|说)*P(实在|的确)*P(理|实在)*P($End|理)第三步:选择概率最大的路径为切分结果生成式分词(Cont.)优点在训练语料规模足够大和覆盖领域足够多的情况下,可以获得较高的切分正确率(=95%)•不足需要很大的训练语料新词识别能力弱解码速度相对较慢统计分词生成式统计分词判别式统计分词判别式分词原理在有限样本条件下建立对于预测结果的判别函数,直接对预测结果进行判别,建模无需任何假设。由字构词的分词理念,将分词问题转化为判别式分类问题典型算法MaxentSVMCRFPerceptron优势能充分利用各种来源的知识需要较少的训练语料解码速度更快新词识别性能好判别式分词(Cont.)由字构词把分词问题转化为确定句中每个字在词中位置问题每个字在词中可能的位置可以分为以下三种词首B(日本占领了东三省)词中M(游泳比赛菲尔普斯独占鳌头)词尾E(中国队抢占了风头)分词结果形式化分词结果:毛/B新/M年/E2/B0/M0/M0/M年/E毕/B业/E/于/B东/B北/M大/M学/E还原:毛新年/2000年/毕业/于/东北大学判别式分词(Cont.)学习素材句子切分结果分词知识库判别式学习算法判别式学习算法判别式分词(Cont.)特征所涉及的语言学知识列表字的上下文知识形态词知识:处理重叠词、离合词、前后缀仿词知识:2000年成语/惯用语知识普通词词典知识歧义知识新词知识/用户词典新词的全局化知识判别式分词(Cont.)优点理论基础扎实解码速度快分词精度高新词识别能力强所需学习素材少弱点训练速度慢需要高配置的机器训练我们即将以昂扬的斗志迎来新的一年。2020/8/22依存句法分析标注关系(共15种)及含义2020/8/22在家禽摊位中,有一个摊位专卖乌骨鸡。2020/8/2249概念尚不成熟,试验阶段通过让计算机模拟人对句子的理解,达到识别词的效果基于理解的分词方法常用方法5050Part4【实例举证】『分词技术分析』51分词技术分析百度匹配结果:皮肤/医院52分词技术分析正向最大匹配:解小东/北京/华/烟云反向最大匹配:解/小/东北/京华烟云百度实际匹配结果:解小东/北/京华烟云解小东/北京53分词技术分析正向最大匹配:相同/仁/医院/墙正向最大匹配:反向最大匹配:相/同仁/医/院墙百度实际匹配结果:相/同仁医院/墙54结论分词技术分析百度分词采取了至少两个词典,一个是普通词典,一个是专用词典(人名、书名、地名、影视剧名等)。而且是专用词典先切分,然后将剩余的片断交由普通词典来切分。古巴比伦常正向最大匹配:古巴比伦/常反向最大匹配:古巴/比/伦常百度输出结果:古巴比伦/常如果正向和反向结果不一致百度采取最短路径方法55分词技术分析首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果。如果不一致,则输出最短路径的那个结果,如果最短路径长度相同,则选择单字词少的那一组切分结果。如果单字也相同,则选择正向分词结果56分词技术分析用专用词典切出专有名词剩下部分进行双向分词如果单字也相同取正向匹配结果如果最短路径相同取单字词少的那一组切分结果如果不同,取最短路径结果如果相同,说明没有歧义输出结果5757Part5【常见切词效果】『应用举证』5858应用举证【常见切词效果】白癜风上海白癜风治疗中心治疗白癜风最好的医院-上海武警总队医院A、白癜风B、上海白癜风C、上海白癜风治疗D、上海白癜风治疗中心E、治疗白癜风最好的医院F、上海治疗白癜风最好的医院G、上海白癜风治疗医院H、上海白癜风医院5959上海皮肤病医院_长宁区白癜风_闵行牛皮癣_皮肤科医院武夷路_闸北保德路黄埔徐汇静安奉贤宝山嘉定杨浦虹口松江金山普陀浦东新区青浦区最好的皮肤病专科医院A、上海皮肤病医院B、上海皮肤科医院C、上海皮肤病医院武夷路D、上海皮肤病专科医院E、上海皮肤病医院保德路F、长宁区白癜风医院G、长宁区皮肤科医院H、………………………….应用举证【常见切词效果】6060网页的Title长度根据关键词匹配的数量和热度而定,好比一个页面只做两三个竞争度强的词,那么Title就应该尽量控制在30字以内,因为关键词拆分得越多,就意味着需要匹配得越多,而匹配的越多,对排名值的贡献会减弱。而第二个例子中,之所以Title标题会高于70字,也是根据情况而定,因为70字中所匹配的关键词除了第一个出现的完全匹配的关键词“上海皮肤病医院”词以外,其他词相对而言竞争度都非常小,所以切词匹配后能排名的几率仍然非常高为什么要完全匹配?应用举证【常见切词效果】6161网站首页Title根据网站定位可以参考此类写法,但文章内页一般一篇文章只做1-2个长尾词,所以切不可将标题写的和例2中一样太过于冗长而影响用户体验,同时网站内页也没有如此高的权重能带起那么多长尾词的排名。文章内页Title一般一句话能匹配出2个长尾词就足够了,常见的是一句话匹配一个词注:应用举证【常见切词效果】6262注:脸上长白斑怎么办小腿有白点搜索词:应用举证【常见切词效果】63标题中的关键词不一定非得完全匹配,但关键词汇一定要在标题中有关联的出现应用举证64完全匹配包含主要关键词“皮肤”、“过敏”的相关匹配同样能展现应用举证65主要关键词要放在标题和描述的最前面,关键词越靠前切词时获得的权重越高,排名越好应用举证66通过梯形图很容易看出,关键词出现位置越靠前排名越好应用举证67关键词出现的频率同样是排名的关键,关键词出现密度高的网页将会获得好的排名应用举证68A网站比B网站关键词出现密度显然要高,所以略占优势完全匹配AB提示:如果是在完全匹配的情况下,关键词密度应该要严格控制。标题中关键词精确匹配一次,短语匹配一次为佳,描述中关键词精确匹配和短语匹配可以和标题一样穿插使用出现1-3次。如果完全匹配的关键词如果放到标题或内容的最后面,其排名未必见得会高于那些短语匹配出现密度高的关键词的排名应用举证69总结为
本文标题:中文分词-ppt课件
链接地址:https://www.777doc.com/doc-6836866 .html