您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 基于共现链的微博情感分析技术的研究与实现
国防科学技术大学硕士学位论文基于共现链的微博情感分析技术的研究与实现姓名:王岩申请学位级别:硕士专业:计算机技术指导教师:周斌2011-05国防科学技术大学研究生院工程硕士学位论文第i页摘要本文在研究了文本倾向性分析技术发展现状的基础上,创新性地提出了一种基于共现链的微博倾向性分析算法。首先利用微博数据富含链接信息的优势,将文档解析成文档链。然后利用文本表示模型对文档链进行模型表示,根据预先设定的共现度阈值采用聚类方法抽取出同一主题的不同刻面,并对每个刻面采用基于语义的改进SBV极性算法分析其倾向性。根据微博本身特殊性,本文提出了两个启发式思想。一是话题模型只采用名词和动词表示,忽略形容词和副词;二是仅长文本具有生成新的话题刻面的资格,短文本只参与话题聚类而不能产生新类。本文旨在研究针对微博的倾向性分析中的话题评价对象抽取算法,主要研究内容如下:(1)面向微博的大规模分布式爬虫技术。针对微博特殊性,设计并实现大规模分布式爬虫,快速高效采集和获取特定话题语料。(2)基于网页的元数据解析技术。通过制定高效可扩展专用模板,对HTML进行元数据抽取,并根据微博数据中回复的明显标志,显示形成文档链。(3)基于共现链的微博倾向性分析技术。结合TDT(Topicdetectionandtracking)话题发现与追踪中的向量空间模型和余弦相似度,将文档链模型化。设定共现度阈值,完成话题刻面的抽取。基于语句级情感分析算法,分析倾向性。(4)设计并实现针对新浪微博的倾向性分析原型系统。通过新浪微博提供的API和大规模分布式爬虫技术,基于启发式共现链算法,有效发现倾向性分析评价对象即话题刻面,并进一步进行情感分析。关键词:网络舆情;微博;共现链;倾向性分析;意见挖掘国防科学技术大学研究生院工程硕士学位论文第ii页ABSTRACTThispaperproposesaco-occurrencechainbasedalgorithmforthefeaturedetectionofmicro-bloggingintheareaofopinionmining.Firstly,weparsemessagesintomessage-chainsbytakingadvantagesoftheexplicitreplymarksinmicro-blogging.Thenmessage-chainsareclusteredintodifferentfeatures(orfacets)bycomparingthedegreeofco-occurrenceamongthem.Afterthat,weperformsentimentanalysisusingsemantic-basedSBVpolarityalgorithm.Wealsoproposedtwoheuristicsaccordingtothespecificitiesofmicro-blogging.Experimentalevaluationsshowthatheuristicco-occurrencechainbasedalgorithmcanextractdiscriminativeandmeaningfulfeaturesandoutperformthosemethodswepreviouslyproposed.Themainresearchareasareasfollows:1.Large-scaledistributedcrawlertechniqueforMicro-blogging.Wedesignandachievelarge-scaledistributedcrawlersothatitcanefficientlyandrapidlycollectandobtainthecorpusofsometopicfromMicro-blogging.2.Webpagesbasedmetadataanalysistechnique.Usingspecialtemplateswithhighperformanceandeasytoexpand,weextractmetadataformHTMLsandformmessagestotheformationofmessage-chains.3.Micro-bloggingopinionminingusingco-occurrencechains.CombiningthetechnologiesofTopicModelinTDT(Topicdetectionandtracking),messageschainsareformedintoco-occurrencechains.Andwecaneasilyanalysistheorientationofthefeatures(orfacets)oftopics.4.DesignandrealizetheprototypesystemofSentimentAnalysisforSINAMicro-blogging.UsingtheprovidedAPI,large-scaledistributedcrawlertechnologiesandtheheuristicco-occurrencechainsalgorithm,topicfeaturesorfacetscaneasilybefoundandthenbyanalyzedfortheirorientation.KeyWords:PublicOpinion,Micro-blogging,Co-occurrenceChains,SentimentAnalysis,OpinionMining国防科学技术大学研究生院工程硕士学位论文第III页表目录表1.1社区、论坛和微博对同一事件/话题反应的比较.............................................3 表2.1HTMLParser包的结构.......................................................................................17 表4.1微博数据结构表.................................................................................................33 表4.1采集数据详细信息表........................................................................................37 表4.2实验结果............................................................................................................38 国防科学技术大学研究生院工程硕士学位论文第IV页图目录图1.1英国Corpora软件公司的“感情色彩(Sentiment)”的软件...........................5 图2.1服务器—客户端爬虫系统................................................................................11 图2.2基于标记窗的网页正文抽取方法流程图........................................................15 图3.1系统流程图........................................................................................................21 图3.2情感分析的研究任务........................................................................................22 图3.3例子....................................................................................................................27 图3.4文档链形态图....................................................................................................27 图3.5共现链模块算法流程图....................................................................................28 图4.1倾向性分析原型系统体系结构........................................................................31 图4.2采集任务整体结构图........................................................................................32 图4.3“随便看看”中的原贴....................................................................................33 图4.4个人主页中的原贴............................................................................................33 图4.5个人主页中的直接转发贴................................................................................34 图4.6个人主页中的间接转发贴................................................................................34 图4.7被评论的帖子是原贴........................................................................................35 图4.8被评论的帖子是转发贴....................................................................................35 图4.2实验结果F值分析............................................................................................39 国防科学技术大学研究生院工程硕士学位论文第1页第一章绪论网络舆情是指在一定的社会空间内,通过网络围绕中介性社会事件的发生、发展和变化,民众对公共问题和社会管理者产生和持有的社会政治态度、信念和价值观,是较多民众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。近年来,网络舆情对政治生活秩序和社会稳定的影响与日俱增,一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。同时,网络舆情突发事件如果处理不当,极有可能诱发民众的不良情绪,引发群众的违规和过激行为,进而对社会稳定形成严重威胁。教育系统关系青少年的健康成长,本身热点问题很多,历来是敌对势力渗透和破坏的重点,因此,分析网络舆情的应对策略,建立监测预警机制,必将对网络文化的健康发展起到重要作用
本文标题:基于共现链的微博情感分析技术的研究与实现
链接地址:https://www.777doc.com/doc-4805320 .html