您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 利用大数据舆情分析和文本挖掘来分析《大秦帝国之崛起》
利用大数据舆情分析和文本挖掘来看《大秦帝国之崛起》在进行全网舆情分析的时候,首先普及一下概念,什么是舆情和网络舆情。舆情顾名思义指的就是针对于社会生活中各个方面的问题尤其是针对于热点问题的公开意见或者情绪问题。而网络舆情,从字面上的理解就是通过互联网渠道来反映社会态度和观念等。详细了解大数据舆情分析可以在一定程度上辅助我们决策,提高工作效率。而我们本文将以《大秦帝国之崛起》作为分析对象,来详细阐述在大数据时代数据分析会涉及到的全网舆情分析、微博传播分析以及文本挖掘。今年开年,因饰演白起的演员王学兵吸毒而拖延上映的《大秦帝国之崛起》(以下简称为“崛起”),终于在剧迷的千呼万唤中播出。这部根据孙皓晖同名小说改编的电视剧是“大秦帝国”系列的第三部,首部《大秦帝国之裂变》,第二部《大秦帝国之纵横》分别于2009年、2013年播出,均获得不错的口碑,第三部《大秦帝国之崛起》因为上面的原因而补拍,直到今年年初才在央视开播。本文将以该剧作为分析对象,来详细阐述在大数据时代数据分析会涉及到的三个“子课题”:全网的舆情分析:基于全网媒体或网民关于该剧的探讨,进行“SocialListening(社会化聆听)”,了解该剧整体口碑概况微博传播分析:基于新浪微博某条对于该剧具有重大影响力的微博的传播情况,了解该条微博的传播规律,互动粉丝的画像,以及水军的辨识文本挖掘:通过对该剧相关非结构化文本数据的分析,了解其获得观众较高认可的原因在接下来的分析中,笔者将结合分析工具(新浪舆情通、头条媒体实验室、Python、Gephi等)、分析思路(分析角度和分析流程)、业务知识(对该剧的了解和原著小说的认知),来谈谈一个完整的数据分析case如何完成,上面所涉及的3个子课题是本文分析的重点。下图是本文的主要内容和文章结构:1“崛起”的全网舆情分析1.1全网关注情况(1)“崛起”的全网关注度走势因为该剧播出的时间段是2017-2-9~2017-3-6,故笔者选取了在该剧播出前后略有延展的时间区间,以便观察这段时间内关于该剧的全网信息量走势。大秦帝国之崛起全网关注度走势图(2-1~3-13)从全网总体的关注度来看,在电视剧播出前的关注量较少,而在电视剧播出期间的关注度(有关该剧的网络信息量)陡然上升,在播出的第一天(2017-2-9)关注度就出现了明显在上升。在该剧在播出结束后(2017-3-6),信息量逐渐减少,呈下降趋势。(2)“崛起”的全网关注度来源从各信息发布渠道的表现来看,该剧在微博(新浪微博和腾讯微博)上的信息量占据主导地位,“二次崛起”后的微博仍是娱乐影视的主阵地,是粉丝与主创团队进行互动的首选。下图是“崛起”的全网信息量来源构成。除去微博的信息之后,则可以看到除微博(新浪微博和腾讯微博)以外哪些信息渠道关于该剧的讨论量较多。由此可以看出,新浪博客、百度贴吧这样的泛娱乐化社区关于该剧的讨论也颇多,前者滥觞于明星入驻,是全国最主流,人气颇高的博客频道之一;而百度贴吧是全球最大的中文社区,是“粉丝文化”的催化剂。百度贴吧的迅速走红,是与“粉丝”及“粉丝文化”的流行紧密相关的,而在“粉丝文化”的发展过程中,百度贴吧也起到了重要作用。1.2全网关于“崛起”的关注点(1)“崛起”的全网信息形成的关键词云以下是全网关于“崛起”的文本信息的关键词提取,总计有60个,这些关键词来自于媒体报道,抑或用户UGC评论,从中我们可以发现网路上关于该剧的讨论集中在哪些关键点上。从上图中可以看出,除了本剧的片名—“大秦帝国”以外,还有一些比较反映该剧特征的词汇,根据笔者对该剧的了解,特挑出其中主要的两类词汇:剧集相关:“收视”和“收视率”(在无大规模宣传的情况下,收视率一路走高)、“拍戏”、“张博”(饰演秦昭襄王嬴稷的演员)、“导演”、“剧本”、“创作”、“花絮”、“创作者”该剧的意义:“文化”、“历史”、“陕西”、“国家”、“文明”、“秦国”、“正剧”、“大秦”,(这类词汇能在一定程度上代表该剧想要表达的价值观—居今之世,志古之道,所以自镜,拒绝戏说,尊史重实)(2)与“崛起”相关的关联词分析全网事件的热度信息关联词分析,它是通过系统自动运算找出事件核心词、并计算出与核心词同时出现关联度最高的高频词,也就是与核心词共现频率最高的词汇(关于“共现”的原理介绍,请看《如何用数据分析,搞定新媒体运营的定位和内容初始化?》的第三部分)。假若读者看过该剧,从上面的关联词即可看出,该剧的“正剧”属性确凿无疑,是一部独具匠心的佳剧!(3)与“崛起”相关的热门文章这里的关于“热门”文章的定义主要是通过三个维度综合得出,即阅读量、转发量和评论量的综合评价。上面有7篇个热门文章,它们在全网信息中的综合得分(阅读量、转发量和评论量)最高。从这几篇文章的标题可以看出,它们主要以预告即将播出的剧集的剧情为主,关于剧中主要人物的出场及情节预告居多,由此可见该剧的关注度较高。1.3关注网民的人群画像以下数据来源于选自“头条媒体实验室”,基于今日头条7亿累计激活用户,7800万日活用户(截至2016年12月底)的海量行为数据及文章数据。鉴于今日头条庞大的用户数量,对其相关人群进行分析可以起到“管中窥豹”、“一叶知秋”的效用。如果该用户点击并阅读跟“大秦帝国之崛起”影视相关的文章,则判定该用户对该剧感兴趣。(1)关注网民的性别渗透率及年龄渗透率此处,用渗透率(度)来表示用户对特定事件关注度的比例,而非绝对值。有可能出现的情况是:一个人口稀少的地区有一百个人的人关注了某事件,相比一个人口大省有一万人关注该话题,计算得到的渗透率(度)可能更高。以下是这两类渗透率的计算公式:性别渗透率:某性别用户对关键词的关注度/全网该性别用户总关注度年龄渗透率:某年龄段用户关键词的关注度/全网该年龄段用户总关注度从上图可以看出,“崛起”的男观众要多于女观众,当然这也在预料之中。年龄方面,青年群体(18-30)对该剧的热衷程度要比想象中的高,说明在当今这样一个盛行“宫斗撕逼玛丽苏”、“手撕鬼子裤腰藏雷”和“玄幻科幻架空历史”的戏说历史、全民娱乐时代,大家还是蛮希望有良心、有匠心、不浮躁的优秀剧集出现,并不是“劣币驱逐良币”或者是一味的迎合大众口味的“糙剧”。(2)关注网民的地域分布意料之外,情理之中,这部主创团队(原著小说作者、导演、制片人)全部是“秦人”(陕西人)的影视剧,陕西地区的受众关注度(阅读量、转发量、评论量等)最高。“大秦帝国”系列电视剧,展现了一幅波澜壮阔的图景:在一个热血的时代,一个积贫积弱的偏蛮小国由几代秦国人奋发图强,秉承着“赳赳老秦,共赴国难,血流不干,誓不休战”的大无畏精神,历经磨难终于实现大国梦。出于对祖先的崇敬和身为秦人后裔的自豪,陕西地区的网民对于该剧的关注度高不足为奇。(3)关注网民的兴趣图谱该部分度量了关注“崛起”的受众的整体兴趣情况,同样是根据他们阅读文章的类别(如“科技”、“历史”等)来进行判断的,以此为指标对各兴趣类别在关注该话题的人群中从高到低进行排序。“用户兴趣”的计算公式:某兴趣类别的用户对关键词的关注度/某兴趣类别用户总关注度在这里,兴趣图谱分为3层,越往下分则越细致。结合上面的年龄、性别和地域因素,从这些兴趣图谱中,我们能得到关于受众人群更为深层的洞察。通过上面对受众兴趣图谱层层递进的“钻取”,我们可以看到,他们主要的兴趣有“国际足球”、“中国古代史”、“电影”、“中国足球”、“NBA”、“购房”和“法律”。结合先前的2个人群画像维度,可以判断出喜爱《大秦帝国之崛起》的人群是一些酷爱历史(尤其是中国古代史)、和运动,且具有一定经济实力的中青年群体,他们具有较高的文化素养。2“崛起”的热门微博传播分析在前面的全网舆情分析中笔者有提到,该剧(其实大部分影视剧皆是如此)在微博上的声量极高,所以笔者在这一部分着重描述下它在微博上的声量表现。其实,造成微博上声量较大的原因,绝大部分是因为用户参与转发或是评论了某条微博,每一条转发和评论都被视为一个用户UGC。而微博文本每天13万的日发博量和短视频每天的32万日发布数量,这两方面每天形成的内容体量是相当庞大的。(新浪微博2016年年终数据)又因为,微博上“注意力资源”分配极不均匀,少数大V博主拥有庞大的粉丝资源,他们发布的内容往往能引起微博上广大民众的讨论,能造成极大的影响力。鉴于此,笔者选择了微博上一个关于影视娱乐的自媒体大v—“low君热剧”,该账号曾传播过一条跟“崛起”相关的微博,用户互动较为活跃,权当“解剖麻雀”之用。笔者选取了一条带视频的微博,下面的播放量、转发量、评论量和点赞量都较为可观。可以作为微博传播分析的一个例子。以下关于该条微博的传播分析,数据来源及相关可视化呈现皆来自于新浪舆情通的微博传播分析(微分析)功能模块。2.1传播概况截至分析时间03-1811:50,@low君热剧的微博共收获转发数13,393次(其中有效转发10,576次)、评论数2,209条,点赞数29,646个。此外,该条微博的覆盖人次为20,260,770,包括原创者(也就是“low君热剧”)和转发者的粉丝数的叠加,当然也免不了重复计算,但整体的传播效果是惊人的。注意,这是没有排除水军的数据。内容敏感度为0.27%,也就是说,关于该条微博的用户评论中仅有0.27%的评论是呈负面的,这个量很小。值得注意的是,原创者“low君热剧”自身是此条微博的关键传播用户,这个看起来有点费解,笔者会在下面有详述。2.2转发评论趋势一条微博的传播是有生命周期的。能够十分清晰的观察到该微博转发、评论的发展趋势,微博的互动及散播活跃与否,以及处于生命周期的哪个阶段(引发期、酝酿期、发生期、发展期、高潮期、处理期、平息期和反馈期),对于及时、准确研判事件及舆情走向起到至关重要的作用。从上图可以看出,该微博于03-1712:05发布后,于03-1712:30、03-1723:30达到转发、评论高峰,转发峰值516条、评论峰值34条,此后微博传播速度逐渐降低。同时,意见领袖也是在该条微博的传播高峰期进行活跃的,图中深黄色的圆圈即代表它们引起的转发量。2.3传播层级转发层级可以看出某个微博传播渗透力的强弱,层级越多,代表话题的渗透性和传播性越强,微博粉丝的参与度也就越高。本条微博的传播层级为5级,在传播深度上一般,渗透力不足,说明本话题以及该剧属于小众圈子。值得注意的是,在剔除掉水军及僵尸粉之类的用户后,该条微博的覆盖人次变更为18,070,952,跟初始覆盖人次相差了100多万的人次数。在这里,原创者“low君热剧”有重复出现多次,这是为什么呢?请接着往下看。2.4传播路径微博传播路径分析是微博传播分析中的重中之重,分析微博传播路径图能发现其中的关键传播枢纽节点(意见领袖)和识别传播质量。下图是传播路径图中常见的三种传播节点类型。联系MalcolmGladwell在《引爆点”(TheTippingPoint)》中提出的观点,原创节点、传播节点和长尾节点非常接近其表述的、在某类流行事件中的三种主要角色:联系员:就是那种“认识了很多人的人”,这类人把朋友当作邮票一样地搜集,随时与人保持联系,这个角色可以把信息快速的散布出去。内行:就是那种“什么都懂的人”,他对某一种知识可以说是“达人”,不厌其烦地把相关的知识与朋友分享,但是却没有很好的说服力。这个角色对某件事情的狂热,使他所发掘出来的事情成为有价值的。推销员:就是那种“什么人都能够说服的人”这种人没有很深的知识,但是有特殊的能力让见到面的人在短暂的时间就交付信任。这个角色能够把内行发现的东西与人们以简易的语言沟通。稍有差异的是,处在长尾节点位置的粉丝,多半是被动的接收者,传播层级到他们这里基本戛然而止,但如果长期接收某一类事物信息,他们也会变成该事物的忠实拥簇,会转变为联系人或者内行。从微博传播分析系统上获取传播节点相关的数据之后,笔者利用复杂网络分析工具Gephi,基于FruchtermanReingold的力导向算法和ModularityClass的谱聚类算法,得到了如下能反映该条微博传播路径及传播社群
本文标题:利用大数据舆情分析和文本挖掘来分析《大秦帝国之崛起》
链接地址:https://www.777doc.com/doc-24820 .html