您好,欢迎访问三七文档
当前位置:首页 > 学术论文 > 其它学术论文 > 网络舆情研判技术的研究进展
·······························综综综综综综综综综综综综综综综综综综综综综综综综综综综综综综综述述述述述述述述述述述述述述述述述述述述述述述述述述述述述述述·······························情报科学网络舆情研判技术的研究进展郝晓玲(上海财经大学信息管理与工程学院,上海200433)摘要:本文从网络舆情研判的基本流程出发,从舆情研判所涉及的关键技术:主题特征抽取技术、情感分析技术、热点发现算法、舆情研判模型、舆情演化分析技术等方面对已有研究文献进行归纳,旨在发现该领域中有待解决的技术难点,以期为未来深入研究奠定基础。关键词:网络舆情研判;用户兴趣模型;热点发现;情感分析;主题特征抽取中图分类号:G250.2文献标识码:A文章编号:1007-7634(2012)12-1901-06StudyofKeyTechnologiesinJudgeofOnlinePeople’sOpinionsHAOXiao-ling(SchoolofInformationManagementandEngineering,ShanghaiUniversityofFinanceandEconomics,Shanghai200433,China)Abstract:Thispaperbeginsfrombasisprocessofonlinepublicopinion,andsummarizesandreviewsex⁃istingliteratureinthefollowingaspects:interestmodelofuser,extractionandstructureofthemeproper⁃ties,sentimentanalysis,algorithmsofhotspotdetection,andjudgemodelofpublicopinion,andpointsoutthekeyissuesneedtoberesolved,withanaimtolayafoundationforfuturestudies.Keywords:judgeonpublicopinion;interestmodelofusers;hotspotdetection;sentimentanalysis;extrac⁃tionofthemeproperties收稿日期:2011-11-01基金项目:教育部人文社科项目(10YJC860010);上海财经大学“211三期”项目资助作者简介:郝晓玲(1975-),女,山东人,副教授,主要从事IT治理、网络舆情研究.1引言随着网络论坛数量的日益增多,网络社区技术的飞速发展,以及形式多样的网络交流工具的广泛应用,互联网成为舆情传播的重要渠道,而互联网“裂变式”快速传播的特性也使得个人情绪和意见被迅速放大。互联网已成为各阶层利益表达、情感宣泄、思想碰撞的舆论渠道。通过新闻跟帖、论坛、博客、即时通讯工具、搜索引擎等途径表现出的网络舆情的热点成为聚焦网民情绪、意见和行为形象的窗口,也成为折射现实社会舆论和民情的镜像。网络舆情是社会舆情在互联网空间的映射,也成为政府治国理政、了解社情民意,以及公共危机事件的信息收集、分析和预警的重要研究领域,通过舆情研判可以有效地对事件做出回归分析和前景预测,从而提升处理能力和应对能力。因此,舆情研判相关研究已经引起政府部门以及学术领域的高度关注。2网络舆情研判的关键技术随着网络信息量的不断增大,以及目前危机事件管理等的需求不断增加,网络舆情研究日益得到关注。网络舆情研判是较为复杂的一项系统工程,第30卷第12期2012年12月Vol.30,No.12December,2012涉及到多种信息渠道和多个信息采集与分析环节,以及多种技术和方法,同时也有赖于舆情应用人员的经验判断。目前,多数应用于政府舆情监管部门的系统仍然不能满足用户需求。本文通过将在国内外期刊和会议上发表的文献和资料进行集中归纳和总结,旨在发现该领域中有待解决的技术难点,以期为未来深入研究奠定基础。网络舆情研判是对网络媒体上的舆情进行价值和趋向判断的过程,其基本流程是:首先是根据舆情的工作需求对网络媒体上的信息进行采集,并对主要话题进行主题的识别与抽取,然后在对主题进行语义、情感和统计分析的基础上生成相关的热点,再聚焦于热点话题基于用户的评价准则进行研判,最后对事件做出判定并进行前景预测。因此,在舆情研判整个环节中所涉及的关键技术主要包括:主题特征抽取和结构化技术;情感分析技术;热点发现技术;舆情研判技术以及演化分析技术,如图1所示。图1舆情研判的基本流程与核心技术2.1主题抽取技术研究(1)基于词频的方法。康恺等【1】依主题领域划分为多个类,然后为文本提取各个词类的词频特征,以完成对文本的分类。该方法只能反映词语出现频率,不能真实反映词语在文本中出现的重要程度。谭胜等【2】针对抽取任务引入主题描述模型用于网页内容的主题相关性判断,计算模型中的关键词基于标记信息的加权频率,将网页内容进行量化表示,然后分析关键词加权频率关于任务主题描述模型的变化来判断网页内容的主题相关性。(2)基于语义的方法。龚静,周经野等【3】等基于语义,对词汇在文本中的出现概率及语义特点进行分析,并通过多重加权方法确定权值。裘江南等【4】进行词汇语义相关度的计算,构建了一个基于词汇链算法且符合人的主观感受的主题抽取模型。章成志等【5】提出基于Citation-KNN的语义隐含主题词自动抽取方法。(3)基于聚类的方法。P.Domingos,和G.Hulten【7】提出基于文本的聚类,即文本的关键词作为文本的特征。陈炯,张永奎【4】提出基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分析,建立词之间语义关联,并生成代表某一主题概念的用种子词表示的词类。李建锋等【8】提出基于聚类-遗传算法相结合的文摘提取方法,通过聚类算法计算文本各种聚类的可能性,利用遗传算法全局寻优的特点对聚类结果进行计算、组合得到最优的文本主题。苏喻等【9】结合基于划分的聚类算法和基于密度的聚类算法的优点,提出了基于密度的聚类算法DBCKNN。算法利用了k近邻和离群度等概念,能够迅速确定数据集中每类的中心及其类半径,在保证聚类效果的基础上提高了聚类效率。(4)基于向量空间模型的方法。文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程,向量空间模型采用特征向量表示文本特征,选择名词、动词、形容词、数量等进行标记。黄萱菁等【10】提出基于向量空间模型的文本过滤系统,包括训练和过滤两个阶段。训练阶段的目的是根据给定的训练数据生成初始的过滤模板,并决定初始的阈值。在自适应过滤阶段,系统判断文本流中的每篇文本是否和过滤模板相关,再根据用户的反馈信息,自动调整过滤模板和阈值,以获得最佳的过滤性能。杨建武等【11】提出一种基于时间片衰减和网页原始权重相结合的方法来计算话题的综合权重,从而确定话题的重要性。(5)基于结构框架的方法。欧健文【12】提出模板化网页主题信息的提取方法。时达明【13】提出基于网页框架和规则的网页噪音去除方法。王舒[14]提出基于特征符号的网页主题信息抽取方法,对网页生成树模型进行了改进,找到网页结构的通用规则,结合相关度对网页主题内容进行提取。任玉等【15】提出基于分块的网页主题文本抽取,以网页文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块。2.2情感分析技术研究网络舆情中使用情感分析主要是针对网民对某物或某事的观点持褒义、贬义和中性的态度。情感倾向分析的研究大致可以分成词语情感倾向性分析、句子情感倾向性分析、篇章情感倾向性研究、海量信息的整体倾向性预测四个研究层次。从技术上大概划分成以下两类。(1)基于词汇和语义特征评分的方法。主要从1902情报科学30卷文档中抽取出若干针对特定主题的情感词,首先关注评论频率较高的特征,围绕这些特征找到相关情感词,再通过一个剖析器识别其情感趋向,判断其极性是“赞同”还是“反对”等,从而达到对相关评论进行有效分析的目的。Turney【16】用评论中出现的词语的倾向的平均值来代表整篇评论的倾向;Dave等【17】用词的倾向代表文章的倾向,考虑了词的倾向强度。这种方法过分依赖情感词进行判断,容易对双重否定句式进行误判。(2)基于机器学习的方法。Pang.B【18】等人在情感分析领域引入了机器学习的方法,利用NaïveBayes、MaxEntropy、SVM等分类,在文档级别上对文档进行自动的情感分类;并提出通过机器学习和图中最小分割的方法对文档中的句子进行主观性判断。赵妍妍等【19】对从情感信息抽取、情感信息分类以及情感信息的检索与归纳等方面对文本情感分析的研究现状与进展进行了总结,指出:依靠情感分析技术自动地对舆情信息进行监控,这也是情感分析技术一个有价值的应用点。2.3热点分析技术研究热点分析技术的效果主要体现在两方面:准确性和效率。热点分析的准确性直接关系到得出的结论是否有效,而热点分析的效率直接关系到热点分析的实效性。热点发现技术大致归纳为以下几类:(1)基于词频统计的热点分析技术。词频统计技术是传统的中文信息处理领域中常用的技术,主要利用中文分词技术、多维向量空间对文章主题进行估计。曾依灵,许洪波【20】等设计网络热点信息发现算法,基于多级滤噪进行切分词拼接,利用特定噪声库与多级滤噪策略严格控制拼接过程,挑选合理收录策略,提取能够准确反映海量网络数据中热门事件的热点信息串,从而挖掘海量网络数据中的热点信息。郑魁【21】等根据公共安全网络舆情研究的需求,将中文分词技术应用于突发事件应急管理中,提出基于ICTCLAS分词技术的网络舆情热点信息的自动发现方法。(2)基于相似度的热度排序方法。邱立坤等【22】用类的核心文档代表一个类中的多篇文档,选择平均连通策略用于计算类间距离,采用类的平均相似度进行事件的热度排序。骆卫华等【23】利用了相似度计算公式,不但考虑事件文档的内容相关性,还考虑了时间因素。罗亚平【24】等在进行热点话题发现时,既考虑了话题的媒体关注度,也综合了话题的用户关注度。杨梅【25】重点实现了针对服务的热点分析和监控功能,建立基于话题数量和讨论的热烈程度的话题活性模型,通过测量的全部话题活性,根据时间坐标快速寻找热点话题,提高了热点话题发现的效率,降低了热点话题发现的时间复杂度。(3)基于数据挖掘的方法。周亚东【26】等采用基于高密度链接区域的密度聚类方法得到热点词语簇,结合热点词簇相关的网页标题和网站地址信息,得出网站热点话题的属性描述。萧国政等【27】通过对语料做增量聚类得到每月的临时事件,再将各个月临时事件列表里文档数大于一定阈值的事件,做单连通聚类,从而得到一年的事件列表。刘星星【28】针对网络新闻语料具有数据规模大和时间特征明显两个特性,将语料按时间(天)分组,对每天的语料采用凝聚聚类得到微类,选取某段时间内的所有微类,再做Single-pass聚类得到事件列表,利用事件热度计算公式,把候选事件按热度进行排序。李若鹏【29】把基于密度的聚类思想引入传统K—Means算法,提出了基于密度与K—Means相结合的聚类算法一Dl算法,克服了传统算法依赖初始聚类数和初始聚类中心点的缺陷,重点对互联网媒体发布信息进行主动热点发现研究。王伟,许鑫【30】采用二次聚类方法,对样本特征进行提取,构建向量空间模型,使用OPTICS算法获得网络热点簇,根据热点簇特征向量对网页进行二次聚类,获得关于舆情的时间演变模式,提供决策支持。王猛等【31】提出了基于频繁模式挖掘的网络舆情热点发现技术,设计了高效的数据流频繁模式挖掘算法ILC,该算法使用差量窗口裁剪策略将每个数据项的处理时间降到了常数级别。(4)基于社会网络分析的技术。王林,戴冠中【32】通过构造基于兴趣的论坛用户网络,将社区结构发现的理论与方法应用于论坛热点主题的自动发现,思路是从这些海量的帖子中挑选出少量的具有代表性的帖子,使得通过对于这些代表性帖子进行文本聚类不至于丢失
本文标题:网络舆情研判技术的研究进展
链接地址:https://www.777doc.com/doc-8694051 .html