您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 基于微博活动的文本分析
基于微博活动的文本分析摘要如今,伴随着新闻信息流越来越多的用户由服务如Twitter提供实时微博活动。在这些场所,信息是通过在其中一个跟随器接收所有的微博客从他/她的一个追随者/followees社会网络结构共享。在了解微博作为一种新的通信和新闻传播媒介的形式的同时最近研究工作已经确定了这些系统的三个不同类别的用户:信息源,信息搜寻者和朋友。随着社交网络在注册用户数上的增长,找到相关和可靠的用户能够接收感兴趣的信息就显得至关重要了。在本文中,我们提出了一种基于微博客的内容分析和检测用户的利益在网络的拓扑结构的探索,以寻找候选人为用户推荐一个followee推荐系统。实验得出,在确定的基础上,微博客的文本分析以及几个因素,它允许作为良好的信息源用户的标识不同仿形策略的影响进行的。我们发现,用户生成内容的网络中可用的信息是丰富的,对于供用户分析并找到志同道合的人。关键词:微博;文本挖掘;推荐系统1.引言微博是一种新的交流形式,每天都获得追随者。这项服务允许用户发布短消息,通常只包含文本。这些更新会显示在用户的个人资料页面,并且也立即发送到谁选择接受他们的选择的其他用户。Twitter是微博客系统的公认领导者。这个网上社交网站已经吸引了用户的注意力传播新闻和信息的手段。不像许多其他在线社交网络如Facebook,将hi5,Orkut或MySpace的用户在其中建立主要是基于“友谊”关系他/她的社会关系,它已经证明,只有22.1%的Twitter的关系的往复运动[1]。事实上,Twitter的连接,77.9%是单向的,除了一个事实,即不遵守他们的任何followees的是,这些用户很可能使用Twitter作为一个信息源,而不是作为一个社交网站的明确指标用户的67.6%。虽然Twitter的鸣叫或岗位都不允许有140个字符的限制内的任何文字内容,很多用户只能发布有关特定主题的信息,如体育,电影,音乐或特定的摇滚乐队。这些用户可以被认为是信息源或广播。与此相反,许多人使用Twitter来获取有关特定主题的信息,如RSS阅读器的一种形式,登记自己为自己喜欢的艺术家,名人,博客,或电视节目的追随者。对于用户找到优质可靠的信息源在不断增加Twitter社区的这最后一种类型变成一个具有挑战性的问题。上述事实,除了在注册用户在Twitter上数的大爆炸,1、让我们相信,信息搜索的用户将受益于一个推荐系统能显示的信息来源,他们可能会对以下。在本文中,我们研究从Twitter的用户建模的角度。我们的目标是提供建议,信息搜索者关于发布鸣叫,可能是他们感兴趣的用户。Twitter的本身已经包括了“谁遵循”系统,2、但还提供了有关使用提出建议的信息是,“建议是基于几个因素,包括你跟随的人,他们关注的人”的唯一信息。3、不同于其他作品,专注于用户排名按照其在整个网络中的影响,该算法探讨从目标用户的关系达到一定的级别开始,让更多的个性化因素被认为是网络在人选推荐的选择。举例来说,后面跟着别人后面一些相同的人比我的其他用户,可以认为是有趣的人跟随。不同于传统的推荐系统,我们没有提供有关对他/她喜欢的项目或不喜欢评级的形式了用户的利益的明确信息。对于分析一个Twitter用户,我们需要采取可以从用户交互,内容流和网络的拓扑结构导出上下文的优势。也有关于一个用户,例如他/她自己的生物信息的其他来源,但它已经表明,许多用户要么不提供生物或它们具有生物不提供任何局部信息。初步的研究也认为Twitter上列出的元数据来推导出一个Twitter用户感兴趣的课题。在这项工作中,我们使用的追随者/followees网络的结构和发表在这个网络中,建议人们,与用户共享相同的内容相关的利益,谁将会收到建议的手段的鸣叫。几个分析策略进行了分析和评估建模基于两种常用的方法在Twitter上用户的利益。第一种方法模型,通过分析他/她自己的微博内容,而第二个方法代表用户通过他们的followees的推特用户。在第二种方法中,三种不同类型的访问被认为是:由设置他/她的followees的访问的建模的目标用户,由他/她的followees型材的聚合或由一组可通过以下发现类根据自己的推特内容聚类他/她的followees。这项工作的其余部分组织如下。第2节讨论涉及到我们工作的其他研究工作。第3节介绍了基于内容的方法来followee建议,问题,帮助信息搜索用户在Twitter的。在第4节的实验进行了验证使用Twitter的数据集的方式报告。最后,第5节讨论所取得的成果,并提出我们的结论和未来的工作。2相关工作2.1.在在线社交网络的链接预测帮助用户查找和与人上线连接到带他们的朋友的关系的优势,问题已经在研究社交网络的上下文中。例如,声纳建议在企业通过聚合约关系的信息体现在一个组织内不同的来源,比如组织结构图的关系,共同作者的论文,专利,项目和其他上下文相关的人。立本-诺埃尔等。[7]提出了基于节点的街区和所有路径的集合不同的方法进行链接预测。使用从论文的作者名单在物理电子打印arXiv.4作者五段获得的合着网络发现,的确有包含在单独的网络拓扑结构的有用信息,这些方法进行了评价。Chen等人。相比制作人的建议,发现第一的是在发现已知的接触,而所述第二的是发现新的朋友更强更好的关系为基础,基于内容的算法。加权最小消息比(WMR)[9]是基于图的算法,它产生在一个根据成员之间观察到的相互作用建立社交网络的好友个性化列表。这些不同的算法,聚集的社交网络从结构化数据封闭域(如相互作用,共同作者的关系,等等),我们面临着采取从大量的,非结构化的,动态的和固有的嘈杂用户生成内容的优势问题Twitter的建议。2.2测量用户的影响其他方面的研究一直致力于衡量用户在Twitter上的影响力。它表明,通过跟随者的数量和通过其网页排名的排名的用户给出了类似的结果。然而,重新鸣叫数排名的用户表示影响力之间的差距从追随者的数量推断,并从用户的tweets的普及。在后来的研究,通过信息的时间顺序也被认为是检测鸣叫的有效读者。在这项研究的作者得出的结论是对应于新闻媒体的Twitter账户在传播信息,以有效读者显著影响。巧合的是,在之间的度重新鸣叫和比较,提到作为影响力指标表示,首先是更相关的用户普及。分析产卵重新鸣叫,并提到,人们发现,最有影响力的用户持有显著影响力的各种主题,但这种影响只有通过集中精力(例如限制推文到一个单一的主题)获得。TwitterRank,PageRank算法的一个扩展,试图通过考虑到用户以及链接结构之间的局部相似性找到有影响力的Twitter用户。Romero等人。通过网络计算鸣叫的传播时,也认为是一个用户的被动。Garcia等人提出了一种方法来衡量的知名度和链接活动排名用户。网友的推荐,但是,不能完全依据一般的影响力排名,因为人们获得连接多种原因。PAL和计数提出了一组功能表征社交媒体作家和应用聚类方法相比,此功能空间,以检测权威来源。这些功能包括拓扑(例如,的追随者和朋友啁啾对一个给定的主题数)和含量指标(数量鸣叫由用户撰写的,重新鸣叫其他的鸣叫号等)。然后,基于高斯混合模型的排序算法应用来选择最有代表性的作家三种不同的主题(iPhone,漏油,和世界杯)。赛斯-Trumper等人。从这个意义上区分潮流,潮流不一定受欢迎,著名的有影响力的用户,而是一个其思想之前,这些理念传播在网络上成功地成为流行。作者提出了一种新的排名算法,TS(为潮流达人),结合节点和网络的边缘与一个基于PageRank算法的时空属性来寻找潮流达人对于给定的话题。Ghosh等人。鉴定组通过提取来自Twitter的名单“元数据(名称和描述)的名词和形容词,并与上市相关联的用户这些术语相关的主题专家。这种方法是基于直觉,根据某一话题被许多其他用户列出的用户很可能要在这方面的专家。2.3.用户生成的内容分析用户虽然上述重点分析微博的使用提到的研究,其他作品尝试利用用户生成的内容的大量作为一种新型的偏好和分析信息的建议来源。Chen等人提出了建议从信息来有趣URL的方式流,例如根据目标用户和社会的表决机制两个议题的兴趣模型的鸣叫。对于每个用户两种模式的使用,建立与用户的tweets的话,并结合用户followees的自配置文件建立了一个Followee瞩目的一个自我形象。因此,一套由发布用户followees和followees的followees候选人页面,根据这些模型被过滤。在社会方案的过滤是基于内followee-OF-followees用户附近的一个投票系统,使组内最流行的URL建议。蜂鸣器指标鸣叫和最近的新闻出现在用户指定的饲料,这被认为是用户首选项的例子,来进行匹配的鸣叫从公共时间轴,或从用户的Twitter好友的故事,排名和建议。埃斯帕扎等。针对使用过类似Twitter的简短文字评论对建议表示电影迷的实时意见的问题。这项工作假设鸣叫进行,可以在基于内容和协同过滤推荐使用偏好样的信息。意见挖掘并应用到微博情感分析也开始考虑,取代传统的推荐技术需要明确的评级。2.4.鸣叫的语义增强有没有关于鸣叫的内容进行系统的分析,很多相关工作。佩雷斯-特列斯等提出了一种文本富集技术,称为自长期扩张方法(S-TEM),旨在提高语料库的质量相对于聚类博客任务。他们认为博客是“短文本”,因为它们的趋势,表现出条款的低频,短词汇量和某些领域的词汇重叠。这种方法的主要优点是,它不依赖于外部的语言资源,但它使用的语料进行集群本身来执行长期扩张。在S-TEM方法包括一个双重过程:自术语扩展技术,它是具有一组共同相关的术语替换方面的处理,并与识别相关的功能的作用,一个词条的选择技术。类似的方法在应用到分类包含公司名称的鸣叫,进入相对应的部分指的是公司和那些没有两个集群。除了S-TEM,其他三项技术被应用:长期扩张方法论-维基(TEM-维基),从而提高S-TEM考虑从维基百科中提取更多的信息,长期扩张方法与实证的例子-维基(TEM-正-维基),其中TEM-维基方法用于丰富,真正是指公司只鸣叫,和足月扩展方法(TEM-满),其中模棱两可的话与所有那些在同一类的共同出现与它的话扩大语料库。Hu等人还研究了如何的短文本聚类的性能可以通过利用从原来的文本,并从世界的知识外部概念的内部语义得到改善。作者采用分层三级结构,以解决原来的短文本的数据稀疏性问题,并与维基百科和WORDNET整合语义知识库重建相应的特征空间。2.5.鸣叫分类与情感分析在鸣叫分类,乃缦等人的方向区分“线人”的用户,它的鸣叫主要含有非个人信息,从“meformers”的用户,对自己主要是谁后statuse更新。拉马吉等使用映射鸣叫的内容转换成对应于物质的不同维度部分监督学习模型去向前迈进了一步,风格,地位和职位的社会特征。“物质”的鸣叫包含有关事件,想法,事物或人的信息;“社会”的鸣叫涉及到一些社会交际结束;“身份”的鸣叫是指个人的更新;最后的“风格”的鸣叫是那些反映语言使用的更广泛的趋势。根据表达他们的情绪等方面的研究集中在鸣叫的分类。传统方法测量纯粹基于内容的信息消息的相似性。Hu等人提出了一种数学优化配方,结合了情绪一致性和情绪感染理论到监督学习过程中情感分类。作者结合鸣叫与用户之间的社会关系的内容,假设连接可能包含有用的语义线索,不提供纯粹的基于文本的方法。我们的研究还结合了拓扑的选择与短信内容的分析,但具有不同的目的(用户建议)候选人的建议。2.6.建议用户遵循与此相反,解决从微博客服务,这表明潜在的相关内容的问题,以往的作品中,我们专注于推荐有趣的人跟随。在这个方向上,Sun等提出了一种基于扩散的微博推荐框架,确定了少数用户玩新闻记者的作用,并在紧急事件他们建议信息搜索者。最近的工作是算法用于推荐在Twitter的followees评价和比较了使用用户的子集。怎么按用户的代表在以内容为基础的方法(通过自己的微博,由他们followees的鸣叫,通过他们的追随者的鸣叫,通过三者的组合),一个协同过滤方法(多谱策略被认为是通过followees,通过他们的追随者的身份识别
本文标题:基于微博活动的文本分析
链接地址:https://www.777doc.com/doc-2575064 .html