您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 领域重要文献和作者发现
领域重要文献和作者发现组员:唐建,刘国俊,章彦星,封盛,燕飞指导老师:张铭目录方法总体介绍文献、作者质量评价文献、作者与领域相关度领域重要文献和作者发现2方法总体介绍我们把领域重要文献和作者发现问题分解为两个子问题:文献、作者本身的质量;文献、作者与领域的相关度。对于文献、作者质量评价的问题,我们综合考虑了文献,作者,会议之间的关系,我们认为如果一篇文献的作者有很高的知名度,并且这篇文献发表在重要的会议上,那么文献本身的质量很高;对于作者,会议也有类似的假设。总之,这三者是一种相互促进的关系(mutualreinforcement)。我们采用了图上的RandomWalk模型来评价文献、作者的质量问题。3方法总体介绍对于文献、作者与领域的相关度问题,我们认为如果一篇文献与某个领域相关,那么它的作者也与该领域相关;同样,如果如果一个作者与某个领域相关,那么他发表的文献也与该领域相关。我们采用了一个类似于HITS的算法求解该子问题。4文献、作者质量评价采用了在图上多种类型节点之间的RandomWalk模型求解,具体算法包括以下几个步骤构建学术网络图学术网络上的随机游走邻接子矩阵定义文献网络图上的随机游走5构建学术网络图有向图G=(V,E)顶点集V=VA∪VD∪VCVA:作者VD:文献VC:期刊/会议定义在V上的二元关系E顶点i到j有边当且仅当i,j∈E关系类型文献→文献:引用文献↔期刊/会议:发表作者↔文献:著作6VAVDVC学术网络图上的随机游走图上的随机游走给定一个图和一个出发点,随机地移动到一个邻居结点上,然后把当前结点作为出发点,重复以上过程稳态情况下(足够长时间后),每个点会有一个被访问的概率,它可以作为点的重要程度的度量定义W(G)为图G的带权邻接矩阵7VjijiwGW,)),(()(WddWdaWdcWadWcdDocumentAuthorConferenceDocumentAuthorConference邻接子矩阵定义8引用的文献集合表示文献的发表时间表示文献iiDiDjidjddd)(dΓt(d)otherwise)(dΓd)(dΓd)t(dd|t(d)(i,j)Wd01}{otherwisecatpublishedd(i,j)Wjidc01作者的第是文献作者发表文献集合表示作者idaidafa)(aΓotherwise)(aΓddaf)(aΓd)t(dd|t(d)(i,j)Wiiaiajjiiajad,)1log(1),(0),(1}{otherwisecatpublisheddbeforeheldctimesofnumberthejiWijicd01)(),(i)(jWjiWadda,),(WddWdaWdcWadWcdDocumentAuthorConferenceDocumentAuthorConference最近发表的文献影响更大排名靠前的作者影响更大文献网络图上的随机游走子矩阵标准化顶点度对角阵标准化子矩阵转移概率矩阵随机游走9otherwisejikiw(i,j)Dnk0),(1WDP11)),(()(,dcdaddcdaddcdcdadaddddVjiPPPPPjipGP其中为图中结点向量其中直到收敛,重复πππ11PNPP~)1(~T文献、作者与领域相关度采用了一个类似于HITS的算法来计算文献、作者与领域的相关度,具体包括以下几个步骤:构造作者、文献发表的二部图利用LanguageModel计算文献与领域的初始相关度利用类似于HITS算法计算文献、作者与领域的相关度10作者、文献发表二部图构造根据作者与论文的发表情况构造带权二部图G=V,E,W。V中的顶点包括两种,一种代表作者,另外一种代表文献,其中边的定义为,如果是的作者;权的定义为,如果,否则为0.1112{,,,}mAaaa12{,,,}mDddd,ijeEiajd,1ijW,ijeE计算文献与领域的初始相关度首先抽取文献的标题、摘要、关键词,把这些信息当作文献的内容。然后利用LanguageModel(LM)计算查询领域关键词与文献的初始相关度。假设查询领域为q,根据LM它与文献d的初始相关度定义为:其中tf(w,d)为词w在文献d的频率,tf(w,D)为词w在整个文献集D的平率,分别代表文献d,文献集D总词数。12(|)(|)wqPqdpwd(,)(,)(|)(1)dddddDNNtfwdtfwDPwdNNNN,dDNN计算作者、文献与领域相关度经过上一步计算得到了文献d与查询词q的初始相关度,假设记为(1)如果作者发表的文献与领域相关,那么作者也与该领域相关(2)如果作者与领域相关,那么他发表的文献也与该领域相关重复(1)(2),直到收敛。13(0)(,)=(|)dScoredqPqd(1)ad(k)ddw(,)(,)=kaddScoredqaScoreaqw(1)ad(k)(0)aaw(,)(,)=dScore(d,q)(1)kadaScoreaqdScoreaqw领域重要文献和作者发现假设通过求解第一个子问题计算得到作者a、文献d的重要程度分别为aImportanceScore(a),dImportanceScore(d);求解第二该子问题得到作者a,文献d与查询领域q的相关度为aScore(a,q),dScore(d,q).其中aImportanceScore(a),dImportanceScore(d),aScore(a,q),dScore(d,q)最终作者a,文献d与查询领域q的aFinalScore(a,q),dFinalScore(d,q)可通过如下两种方式计算14[0,1]领域重要文献和作者发现方案1:aFinalScore(a,q)=aImportanceScore(a)xaScore(a,q)dFinalScore(d,q)=dImportanceScore(d)xdScore(d,q)方案2:aFinalScore(a,q)=aImportanceScore(a)^2xaScore(a,q)dFinalScore(d,q)=dImportanceScore(d)^2xdScore(d,q)其中采用方案2的理由是由于aImportanceScore(a),dImportanceScore(d)都是(0,1)之间的数,通过此方法可以惩罚那些相关度较低,但重要程度很高的文献和作者。因为我们的查询结果首先是要保证与查询领域相关的前提下进行的。15
本文标题:领域重要文献和作者发现
链接地址:https://www.777doc.com/doc-5530988 .html