深度学习之word2vec

深度学习之word2vec学习、分享与交流报告人：黄宇鹏目录•基本概念•模型与方法•实战与应用词向量•自然语言中的词语在机器学习中表示符号–One-hotRepresentation例如：•“话筒”表示为[0001000000000000...]•“麦克”表示为[0000000010000000...]•实现时就可以用0,1,2,3,...来表示词语进行计算，这样“话筒”就为3，“麦克”为8.–存在两个问题•维度比较大,尤其是用于DeepLearning的一些算法时•词汇鸿沟：任意两个词之间都是孤立的，不能体现词和词之间的关系词向量•DistributionalRepresentation–词表示为：•[0.792,−0.177,−0.107,0.109,0.542,...]，常见维度50或者100–解决“词汇鸿沟”问题•可以通过计算向量之间的距离（欧式距离、余弦距离等）来体现词与词的相似性•如何训练这样的词向量–没有直接的模型可训练得到–可通过训练语言模型的同时，得到词向量语言模型•判断一句话是不是正常人说出来的，用数学符号描述为–给定一个字符串w1,w2,...,wt,计算它是自然语言的概率，一个很简单的推论是–例如，有个句子大家,喜欢,吃,苹果•P(大家，喜欢，吃，苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)–简单表示为•计算问题),...,,(21t),...,,|(...),|()|()(),...,,(12121312121tttTiiiTContextwp)|(),...,,()()|(iiContextwp语言模型•现有模型–N-gram模型–N-pos模型–...–Bengio的NNLM–C&W的SENNA–M&H的HLBL–Mikolov的RNNLM–Huang的语义强化–...word2vec原理•两种模型，两种方法模型CBOWSkip-Gram方法HierarchicalSoftmaxNegativeSamplingHierarchicalSoftmaxNegativeSamplingCBOW模型+HierarchicalSoftmax方法•CBOW模型–INPUT:输入层–PROJECTION:投影层–OUTPUT:输出层–w(t):当前词语（向量）–w(t-2),w(t-1),w(t+1),w(t+2):当前词语的上下文–SUM:上下文的累加和CBOW模型+HierarchicalSoftmax方法（续）CBOW模型+HierarchicalSoftmax方法（续）为什么建哈夫曼树？非叶子结点为LR分类器叶子结点对应词典中的一个词目标：)|(iiContextwpCBOW模型+HierarchicalSoftmax方法（续）•句子：我,喜欢,观看,巴西,足球,世界杯•w=足球）0或1编码（:wjd非叶子节点向量:wj二分类正类）:0负类，:1正负类（:wjd类别向量:wjCBOW模型+HierarchicalSoftmax方法（续）•正类概率:•负类概率:•足球叶子节点经过4次二分类，每次分类结果对应的概率为•由Context(足球)预测足球出现的概率CBOW模型+HierarchicalSoftmax方法（续）wljwjwwjXdpwContextwp21),|())(|(•对于词典中的每个词w有，结点个数•其中，•或者表示为•对于由S个句子组成的语料库C有•取对数似然函数.1),(1;0),(),|(111wjwjTxwjwjTxwjwwjdXdXXdpwjwjdwjTwdwjTwwjwwjXXXdp)](1[)]([),|(1111CsswljwjwwjCsswwXdpwContextwpXL21),|())(|(),(]))(1log()(log)1[(),|(log),(log21121CsswljwjTwwjwjTwwjCsswljwjwwjwwXdXdXdpXLwl参数1参数2CBOW模型+HierarchicalSoftmax方法（续）))(1log()(log)1(),(11wjTwwjwjTwwjXdXdjwfwj1•梯度下降法进行求解–令–f(w,j)关于和的梯度分别为–更新公式wXwwjTwwjwjXXdjwf)](1[),(11wjwjTwwjwXdXjwf11)](1[),(wjwjwjjwf111),(:wljwwContextwXjwfwVwV2)(~,),()~(:)~(word2vec实战（一）•训练数据集：经过分词后的新闻数据，大小184MB–查看中国，钓鱼岛，旅游，苹果几个词语的相似词语如下所示word2vec实战（一）•向量加减法–中国+北京-日本，中国+北京-法国，家庭+孩子-学校word2vec应用（一）•机器翻译–语言词语的关系集合被表征为向量集合–向量空间内，不同语言享有许多共性–实现一个向量空间到另一个向量空间的映射和转换–图为英语和西班语的五个词在向量空间中的位置（已经过降维）–对英语和西班语之间的翻译准确率高达90%word2vec应用（三）•给广告主推荐用户–T媒体网站用户浏览网页的记录–pageH是匹克体育用品公司在T上的官网–page2,page3,page5和pageH是比较相似的页面–可给匹克体育用品公司推荐经常浏览page2,3,5这个几个页面的用户进行广告投放page2page3page5pageHUser1User2UserN匹克体育用品公司......pageH广告投放用户浏览相似页面User1page1page2pageI…User2page1page3pageJ…UserNpage2page5pageK…...word2vec应用（三）•相似的页面计算过程User1page1page2pageI…User2page1page3pageJ…UserNpage2page5pageK…...p1,p2,pi,...p1,p3,pj,...p2,p5,pk,......P1(0.1,0.4,0.2)...P2(-0.3,0.7,0.8)pH(0.3,-0.5,0.1)...word2vec余弦距离欧式距离...pageHPage2Page3page5word2vec应用（三）续•对ctr预估模型的帮助–新广告上线存在冷启动问题–通过比较相似的广告的点击率来预估这个广告的点击率–由上个例子可得到每个页面的向量，然后通过Kmeans进行聚类，得到比较相似页面的簇？•向页面向量添加其它的特征，例如广告主所属的行业和地域等•假设页面p1的向量是(0.3,-0.5,0.1），加入行业和地域信息后为(0.3,-0.5,0.1,1,0)，1和0分别表示行业和地域的特征值•这样得到的聚类效果相对更好参考文献•[1]深度学习word2vec笔记之算法篇•[2]中的数学原理详解（四）基于HierarchicalSoftmax的模型•[3]@杨超在知乎上的问答《Word2Vec的一些理解》•[4]=156hisen博客的博文•[5]深度学习word2vec笔记之应用篇•[6]=915DeepLearning实战之word2vec，网易有道的pdf•[7]源码解析之word2vec.c•[8]Hierarchicalprobabilisticneuralnetworklanguagemodel.FredericMorinandYoshuaBengio.•[9]DistributedRepresentationsofWordsandPhrasesandtheirCompositionalityT.Mikolov,I.Sutskever,K.Chen,G.Corrado,andJ.Dean.•[10]AneuralprobabilisticlanguagemodelY.Bengio,R.Ducharme,P.Vincent.•[11]LinguisticRegularitiesinContinuousSpaceWordRepresentations.TomasMikolov,Wen-tauYih,GeoffreyZweig.•[12]EfficientEstimationofWordRepresentationsinVectorSpace.TomasMikolov,KaiChen,GregCorrado,JeffreyDean.•[13]（一）词向量和语言模型thankyou!Q&A

深度学习之word2vec

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

智能制造体系

发明者电子设计宝典（美国）舍茨（1-2）

物业公司公共能耗费管理操作指引

机电安装施工组织设计方案

转体梁专项施工方案

关于印发辽宁省道路运输经营信誉监督考核办法的通知

精致农业健康卓越方案

中国生物医学文献数据

氢化丁腈橡胶的研究进展

显微镜的使用和细胞形态的观察(1)

相关文档

相关搜索