您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 社会标注语义研究开题报告及综述
本科生毕业论文(设计)开题报告课题名称社会标注系统中基于语义的信息检索研究院系名称信息管理学院专业名称信息管理与信息系统学生姓名指导教师(内容包括:课题的意义,国内外研究动态,本课题的研究内容、研究方法、研究手段和研究步骤以及参考书目等)。一、课题意义随着web2.0的诞生,信息网络技术飞速发展,网络用户可以方便的实时的进行上传,浏览,下载,推荐,共享,收藏,标记各类信息,同时也可以对自己觉得有价值的信息和数据加标签或者发表评论(paul,2007)。由于现今众多大众传播媒体网站支持网络用户的这种操作,用户摆脱了原来被动接受的角色变成积极主动的参与者(陈洁,2008)。信息交流真正实现了全网民参与。社会标签在网络中的应用越来越广泛,它为信息资源的标引、组织索引提供了一种全新的摸式。社会标注系统中基于语义的信息检索研究主要意义在于规范化社会化标注的表达,去除标签噪声及垃圾,使标签序化层级化。最终使检索更方便快捷,提高信息的检准率,降低信息的管理成本。本课题致力于基于现有社会标注系统的信息检索的方式和方法,分析存在的问题及不足,提出基于语义的社会标注系统检索优化模型。二、国内外研究动态1.国内研究现状:社会化标注系统中标签的语义模糊性和形式不规范使得资源管理与共事越来困难,为准确定位标签语义,提高社会标注系统中基于语义的信息检索效能。本领域学者宣云干[1]从扩展标签语义与涌现标签语义两个方面,分析了社会化标注系统中标签语义检索的研究不足,并总结得出可计算性高、可操作性强、能智能获取标签的语义关系是社会化标注系统标签语义检索的未来研究方向。在分析社会化标注系统基于语义检索研究现状基础上,针对传统方法可计算性不高、完备性不够、无法分辨自然语言的语义模糊性等不足,提出基于潜在语义分析的社会化标注系统语义检索模型,改进标签-资源矩阵权重计算算法,完善社会化标注系统的语义标注方法.并以delicious系统为例抓取数据进行验证分析,通过对比,证明提出的模型和改进的算法能显著提高社会标注系统基于语义的检索效率.社会标注系统中基于语义的信息检索研究对企业和社会对于巨额信息的管理有着极其重要的意义[2],国内学者余春[3]在该领域的研究中指出基于社会标注的系统语义检索方式将与传统的以受控词表为基础的检索方式并存,各自适用于不同的信息环境:非正式和正式的。何继媛[4]还建立了社会标注系统中基于语义的信息检索模型。模型主要包含7个子模块:资源标注模块、标签推荐模块、提问处理模块、语义检索模块、结果处理模块、用户反馈处理模块以及本体构建和管理模块,并详细地阐述了检索过程和模型中各个模块的功能和实现方法。2.国外研究现状:Mcdonncll[5]等人探讨了在网络搜索中社会标注这一“集体智慧”的价值与力量,提出了“社会化搜索”的新概念及其分类体系。Morrison通过研究发现用社会标注体系标签进行检索的效果令人惊讶,如果能更好运用可以提高它的检索性能。社会标注是用户对信息资源内容、形式等的描述、概括,带有很强的语义性,用户可以从社会标注中挖掘出语义信息,利用它理解内容的语义,实现更高效的检索。(二)基本研究思路A研究目的和意义基于现有社会标注系统的信息检索的方式和方法,分析存在的问题及不足,提出基于语义的社会标注系统检索优化模型。其意义在于为提高社会标注系统中的信息检索效率提供新途径,有利于改善用户体验,使更多的网络用户参与到网络信息资源的创建与组织工作中,充分实现信息资源的传播与共享,最大限度地发挥信息资源的价值。B主要研究内容(1)现有社会标注系统的检索方法分析及特点分析考察有代表性的社会标签网站(中文的如豆瓣、豆丁,英文的如Delicous、CiteUlke等)这些网站都提供什么样的检索方式,是基于关键词匹配的简单检索、可以限定检索字段的高级检索,有没有同义扩展、上下位扩展和基于关联关系等的智能化检索功能。如果有,是基于什么样的词表或原理实现扩展的?检索效率如何(利用检索全率和检准率来分析检验检索效率)通过上述分析总结社会标注系统中的检索具有什么优点(因为有优点,才吸引网络用户参与到网络信息资源的生产、组织与共享中,愿意通过标签实现对网络信息资源的标注),存在哪些不足(不足之处的存在,正我们需要改进的地方)。(2)社会标注系统中基于标签语义的检索方法设计针对现有社会标注系统中存在的不足,提出改善用户体验、提高检索效率,让用户的资源让更多其它用户发现和利用。具体包括:①针对用户对资源标注的问题,可采用以下几个方面对标签的质量进行控制:a)对用户标注标签的规范化(采用系统引导和简单审核机制,避免用户输入拼写错误和一些无意义的、不规范的标签)b)基于系统中的已有标签,通过标签的频率、标签之间的关联等特征向用户推荐适合的标签。②针对基于标签的检索问题,可以采用的优化措施包括:a)利用现有的受控词表来实现对标签词(检索词)的语义扩展。以Mesh词表为例。(参见PUBMED系统的主题检索功能)b)对于标注系统的标签云词汇,通过构建标签的层次空间,克服标签的平面性特点,建立标签之间的层次关系,形成具有层次的标签云图。具体方法是:构建整个数据库的标签-资源矩阵,采用SPSS19.0或Ucinet6软件工具计算标签向量之间的余弦相似度,并结合标签概念之间的距离(基于标签共现频率计算)确定标签间的层次空间。数据库的标签层次空间中根结点下的第一层标签作为资源的主题结点,它们是对数据库资源内容的粗粒度表示。主题结点的下位标签则是对该主题的进一步描述。由此,可将数据库中的资源用分层的标签向量来揭示,自动构成信息空间的基于用户标签的主题导航。③针对基于标签的网络信息资源组织问题采用基于标签共现矩阵的方式对系统中的资源、标签分别进行聚类分析,形成标签聚类和资源聚类。由此可揭示这出标签之间的语义关联和资源之间的相似性。利用标签之间的语义关联和资源之间的相似性,可让使用户检索出更多有用的和相关的信息资源。(3)实证研究选一个医学检索课题,提取课题关键词作为检索标识在pubmed系统进行关键词字段检索,得到一批命中文献,下载其题录信息存储为本地数据库。以命中文献的标题作为标索标识,在多个学术资源社会标注网站中查找命中文献的标注信息,获取包括标注资源本身,标注用户,标签,时间等信息。对获取到的信息进行整理之后按一定格式存储,形成实验数据库。对实验数据库中的标签词与Mesh词表建立映射。用户进行聚类分析,按照前述处理方法进行处理存贮的标签数据做聚类分析,聚类中的标签词词间距离代表词之间关联程度。根据关联程度在可向用户推荐标签;对资源做聚类分析,聚类中的资源之间相似性较大,可在用检索时进行资源推荐。C主要研究方法(1)文献调研法通过研究现有关于社会标注系统中信息检索的研究文献,了解该领域的研究现状、热点及发展趋势。分析、总结当前社会标注系统在信息检索方面存在的问题和不足,提出本课题拟解决的关键问题。(2)统计分析法对系统中用户标注的资源和对资源添加的标签,采用统计学方法对资源及标签进行聚类,目的在于当用户使用标签词时行检索时,系统可向用户同时提供相关标签标注过的资源和命中资源的相关资源。(3)实证分析法通过实证研究验证本课题提出的基于语义的信息检索方法的可行性,评价检索效率。四、研究步骤1.2013年10月16日,师生面谈,探索选题方向及思路;2.2013年10月16日至2013年11月20日,收集资料,阅读文献,在不断修正中形成较为具体的研究方法,形成开题报告初稿;3.2014年2月20日至2014年3月4日,在导师的指导下,进行材料收集和整理,修改开题报告初稿,最终形成开题报告;4.2014年3月3日至2014年4月2日,收集资料和整理,确定检索系统设计方案形成写作思路,撰写初稿;5.2014年4月4日至5月2日,分析数据撰写初稿;6.2014年5月3日至5月23日,初稿修改并撰写论文第二稿;7.2014年5月3日至5月23日,第二稿修改并撰写第三稿;8.2014年6月3日,最后定稿,完成论文。五、参考文献[1]宣云干,朱庆华,鞠秀芳等.社会化标注系统的标签语义检索研究综述[J].现代情报,2011,31[2]余春.国外基于社会标注的信息标引与检索研究进展2012.4.20[3]何继媛基于LSA的社会化标注系统标签语义检索研究2011.6.11[4]申欣.基于语义网的信息检索研究;山东理工大学2011.4.10[5]McDonnellM,ShiriA.SocialSeaech:aTaxonomyof,andaUserCentredApproach.社会标注系统中基于语义的信息检索研究文献综述课题名称社会标注系统中基于语义的信息检索研究课题名称社会标注系统中基于语义的信息检索研究院系名称信息管理学院专业名称信息管理学院学生姓名王盛益指导教师邰杨芳摘要:由于现今众多大众传播媒体网站支持网络用户的这种操作,用户摆脱了原来被动接受的角色变成积极主动的参与者(陈洁,2008)。信息交流真正实现了全网民参与,社会标注获得了越来越多的关注。使得社会标注系统中用户和标签数目的不断增加,由于标签的多样性和模糊性及不规范等特点。本文主要对近年来社会标注系统中基于语义的信息检索研究成果进行了综述,分析了社会化标注系统中标签语义检索的研究动态和不足。并得出算法更趋完美,可控性更强,可自动升级,能促进该领域内自动化标准化进程,是社会化标注系统语义检索的未来研究方向。关键词:社会标注folksonomy(分众分类法)语义检索信息检索1引言:标注是阅读者对文档内容的一种理解和概括,主要是起到标示作用,可提高查找的便利性,具有一定的标引功能。通常意义上的标注是个体行为[1]在Web2.0中,网络用户自由选择标签形成了社会标注。2研究成果:Mcdonncll[2]等人探讨了在网络搜索中社会标注这一“集体智慧”的价值与力量,提出了“社会化搜索”的新概念及其分类体系。Morrison通过研究发现用社会标注体系标签进行检索的效果令人惊讶,如果能更好运用可以提高它的检索性能。社会标注是用户对信息资源内容、形式等的描述、概括,带有很强的语义性[3],用户可以从社会标注中挖掘出语义信息,利用它理解内容的语义,实现更高效的检索。总结得出可计算性高、可操作性强、能智能获取标签的语义关系是社会化标注系统标签语义检索的未来研究方向[4].在分析社会化标注系统基于语义检索研究现状基础上,针对传统方法可计算性不高、完备性不够、无法分辨自然语言的语义模糊性等不足,提出基于潜在语义分析的社会化标注系统语义检索模型,改进标签-资源矩阵权重计算算法,完善社会化标注系统的语义标注方法[5].并以delicious系统为例,抓取数据进行验证分析,通过对比,证明提出的模型和改进的算法能显著提高社会标注系统基于语义的检索效率[6].社会标注系统中基于语义的信息检索研究对企业和社会对于巨额信息的管理有着极其重要的意义,国内学者余春[7]在该领域的研究中指出基于社会标注的系统语义检索方式将与传统的以受控词表为基础的检索方式并存,各自适用于不同的信息环境:非正式和正式的。本领域学者还建立了社会标注系统中基于语义的信息检索模型。模型主要包含7个子模块:资源标注模块、标签推荐模块、提问处理模块、语义检索模块、结果处理模块、用户反馈处理模块以及本体构建和管理模块,并详细地阐述了检索过程和模型中各个模块的功能和实现方法[8]。3存在问题和研究方向目前对于社会标注系统基于语义的检索研究还存在很多问题:(1)社会标注缺乏统一规范导致基于它的语义检索研究标准化难度更大a.社会标注由用户随意标注,通常比较随意不规范,尽管可以被理解但从信息检索这个角度来看还是不能被充分利,有学者提出可以从社会标注的使用和社会标注的层次进行标准化[9]。(2)社会标注系统中垃圾标签对基于它的检索的影响a.目前,在提供社会标注的系统中,存在大量垃圾标签,这些标签不利于网络信息的共享检索。(3)社会标注系统基于语义的检索研究还存在的空白a.关于其用户检索界面的标示,语义信息的挖掘和可视化
本文标题:社会标注语义研究开题报告及综述
链接地址:https://www.777doc.com/doc-2146574 .html