您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 国家图书馆舆情监测系统功能需求书
国家图书馆舆情监测系统功能需求书一、前言舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情是社会舆情在互联网空间的映射,是社会舆情的直接反映。随着互联网络在全球范围内的飞速发展,网络新闻媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。网络技术推陈出新,网络新闻、论坛、博客、聚合新闻等层出不穷,且具有范围广、交互性强、更新速度快的特点,可以说任何人都可以在BBS论坛,留言版或者自建站点上发布言论和观点,而且,随着Web2.0的发展与广泛应用,互联网上的舆论信息迅速传遍。从对社会影响方面看,网络舆论成为社会舆论的一种重要表现形式。现在,要了解最新、最快的国内外大事,网络成为首选媒体。与其它媒体相比,网络媒体除了信息更新即时、内容丰富海量等优势外,还具有信息发布和阅读者互动交流的功能。一则新闻出现后,马上可以从新闻留言中得知民众的反应和观点倾向。这些特点,使网络媒体的受众越来越多,覆盖面越来越广,影响力越来越强。近年来,网上常常出现复杂舆情,甚至瞬间就能形成舆论风波,有关政府和企业应对稍有失误,就会受到媒体更强烈质疑或批评,引发“舆论审判”。轻则使政府、企业形象受到损害,重则引发群体性事件,破坏社会稳定。在这种情况下,了解网络舆论的动态走势,对主流舆论进行积极有效的引导,是一个关乎各行业健康发展、社会和谐进步的重要问题。中共中央政治局2007年1月23日进行第三十八次集体学习时,胡锦涛总书记就加强网络文化建设和管理提出五项要求。其中第三项要求提出,要加强网上思想舆论阵地建设,掌握网上舆论主导权,提高网上引导水平,讲求引导艺术,积极运用新技术,加大正面宣传力度,形成积极向上的主流舆论。在中央强调网络文化建设的背景下,加强网络舆情监测、分析和引导,成为各行业刻不容缓的重大课题。二、系统建设必要性企业信息服务中心是国家图书馆面向国内外企业、政府机构、事业单位、大专院校和科研机构专门从事信息咨询服务的部门,基础业务项目是媒体监测、竞争情报分析和行业资讯等,其时效性和专业性较强的信息监测服务一直受到了广大用户的好评。2009年,为了加强信息服务的深度与广度,企业信息服务中心先后为北京市民政局、北京市公安局等机构提供舆情监测服务,在平面媒体监测的基础上增加了论坛监测、博客监测、网友评论监测,对监测结果进行综述、分析和及时报送。舆情监测服务是媒体监测服务的深化,不仅可以为用户提供内容更广更深的服务,而且使服务产品的经济价值得到更大化体现。在项目开展过程中,用户对国家图书馆品牌有着较好的认知度,对我馆咨询馆员服务的专业性也给与认可,服务内容的拓宽、用户的深度认可使得舆情监测服务项目拥有广阔前景。目前我馆舆情监测服务的主要方式是人工采集信息、统计与分析。以人工为主的舆情监测,存在着监测信息源少、时效性差,信息获取标准不统一、随意性较大,信息统计难度大、时间长、无法实现深度分析等问题,严重制约了舆情监测业务的发展。由于网上的信息量巨大,仅依靠人工采集和分析的方法难以应对网上海量信息的收集和处理,因此迫切需要建设一套自动化的网络舆情分析系统,以更好地为我馆广大企事业用户、重点科研生产单位和政府机构做好舆情监测服务。三、项目目标舆情监测系统采用工具化软件主要针对互联网舆情信息进行自动采集、自动分类和自动去重等智能处理,从海量信息中即时准确地筛选关键情报信息,经过可定义的处理流程,将舆情信息和舆情分析报告送达国内外企业、政府机构、事业单位、大专院校和科研机构各级领导层,为领导决策层、研发人员、营销人员实施战略管理、辅助决策参考、参与市场竞争、获取竞争优势提供保障。四、业务流程设计舆情监测系统的总体业务流程包含舆情规划与定向、舆情信息收集、舆情信息加工、舆情分析、舆情服务五个主要流程环节:舆情监测系统流程示意图系统的各业务流程描述如下:1、舆情规划与定向包括采集目标的规划、系统分类的规划以及系统权限(用户、角色)的规划。2、舆情信息采集和存储整合多种信息源,包括互联网通用信息的收集、互联网验证信息的收集、互联网论坛信息的收集、互联网博客信息的收集、搜索引擎检索后的数据收集、用户手工录入信息的收集。信息收集过程中利用自然语言等技术初步筛选、查重去重、自动摘要、自动分类进行处理,去掉大多数系统不关注的信息。3、舆情信息加工舆情工作人员通过工作平台系统的WEB界面,进行信息筛选、编辑以及加工整理,将处理后的信息从原始信息库加入到舆情信息库;通过发布操作将舆情信息库中的信息发布到系统服务平台上。4、舆情分析和处理将检索到的文档进行关联操作以生成舆情报告,也可以直接检索文档来生成报告,报告在发布之后存储在舆情信息库中,可以经过进一步加工,发布到舆情服务门户中去。另外,也可以根据实际需要实现舆情热点、频点、传播趋势分析。5、舆情服务信息采集和存储舆情服务规划与定位信息加工舆情分析和处理以各种适当的方式包装舆情情报产品,及时传送给相关决策领导,并为以决策层为主的员工提供快捷友好的多途径检索、舆情推送定制、邮件订阅等分层次舆情情报服务。五、系统各模块功能设计系统包含四大功能模块:互联网舆情信息采集和存储、舆情智能分析、舆情服务和系统管理。(一)、互联网舆情信息采集和存储1网络信息采集架构和组成舆情关注的信息在互联网上的存在分散,并且形式多样,有网页(包括网友匿名评论)、论坛、博客等各种形式。本项目设计的网络采集主要包括两部分:一是采集论坛、博客、网页的网页采集模块;二是采集百度、Google生成页面的搜索引擎采集;1.1网页、论坛、博客的采集多线程实时监测和采集目标网站的内容,对采集到的信息进行过滤和自动分类处理,最终将最新内容及时发布出来,实现统一的信息导航功能,或者将采集过来的信息送入内容管理平台供监测人员服务。采集模块允许用户任意定义目标收集网站,实现实时信息采集,信息的自动分类、去重、标引、入库和发布。系统是以网页采集为主线,将各项关键技术无缝集成在系统内部,自动完成从采集到各项加工处理功能,最终生成满足应用要求的数据信息。网页采集除采集新闻内容主体外,还需要采集对新闻的评论、跟帖等,同时将新闻主体和相关的评论、跟帖建立联系,分别储存论坛采集除采集主贴外,同时要采集跟帖并建立联系,分别储存博客采集除博文外,同时要采集对博文的相关评论并建立联系,分别储存1.1.1采集策略系统提供完善、全面而且可配置的采集策略,如下:提供灵活的定制设置目标网站功能,实现对目标网站的实时监测和内容采集,灵活设置采集网站、采集频道/栏目、采集页面、采集深度等;提供采集源定义功能,可以按网站名和频道名来采集资源,使来源属性更为准确;系统可以方便设定信息监测的时间周期,灵活的设定两次资源更新之间的时间间隔;可以设置灵活的对表格内容与图片资源的采集策略;提供精确采集处理策略,如引入日期变量、页码变量与数字变量,使用户可精确定位带有日期、翻页或一定数字规则信息的栏目或频道;提供先进高效的信息更新处理机制,只采集实时更新过的网页资源,保证对采集过的信息不会重复采集;系统需采用多线程并发搜索技术,支持设置多类别对多站点同时并发采集;系统需采用先进高效的采集技术,采集过程需高效准确;提供对多语种网页资源的采集支持功能,可对中、英、日等各种语言站点进行采集;支持对中文繁体网页资源的采集;1.1.2信息实时监测采集1.1.2.1可自行定制采集源和监测周期:管理人员可随需、方便地指定需要监测采集的目标站点或频道,并设定监测更新的时间周期,包括定点执行、更新间隔,还可设置为自动轮转不间断运行等方式。可方便设定信息监测的时间周期,包括指定一天之内的多个定点执行时间,或者设定两次更新之间的时间间隔,最小以分钟为单位,也可以以小时、天等为单位,并可设置为不间断运行。1.1.2.2需使用先进高效的采集技术和策略:采用多线程并发搜索技术和智能更新策略,每次仅采集最新更新过的网页,全过程合理高效。提供高效的更新手段,已经采集过的信息不会重复采集,更新时只获取前次采集后更新的网页。采用网页结构分析的方法确定链接,实现准确抓取,不多抓与少抓。1.1.2.3可采集多语种动静态网页,适用性强:不仅能够采集常见的静态网页,还可以采集多种特殊形式的网页,包括:通过引入日期变量,可精确定位带有日期特征的栏目及其页面;引入页码变量,可有效采集基于数据库发布的多页信息;预设用户名和密码,可采集需要授权认证的站点或频道;引入模版,可精确定位采集页面局部特定内容等等。通过各种采集方式,可以有效采集用户登录网页、动态生成网页或文字验证网页等。另外,可将BIG5码和Unicode码自动转换为GBK,实现多语种网页的采集、存储和管理。1.1.2.4可采集网页元数据和多媒体内容:可完整地识别并记录每个网页的详细元数据信息,包括网页名称、大小、日期、标题、文字内容等,网页中的图片和表格信息可同时被采集。支持多媒体数据信息的采集,包括OFFICE文档、PDF、音频/视频等各种格式文件和多媒体信息的下载。1.1.2.5支持链接分析和采集策略控制:支持灵活的采集策略,包括可以指定采集的目录和层次,以及使用检索逻辑来定位内容,比如可以采用“自行车-比赛”这样的检索逻辑来控制抓取“有关自行车,但并不是关于自行车比赛”的网页。利用网页结构分析技术,自动分析有用的网页,自动过滤掉不需要采集的网页和媒体文件,有效避免垃圾信息的下载以及对带宽的浪费。1.2搜索引擎采集1.2.1全网监测采集架构传统的信息采集一般是只采集固定的信息源,但往往某些敏感的信息从不被重视的地方首先爆发,针对这种情况,需要借助搜索引擎全网采集的特点,进行全网监测。设定一组,一般是数十到上百个行业敏感词,采用元搜索技术,类似于人工通过搜索引擎输入检索词并获取结果的方式,从多个境内、境外的搜索引擎上获得搜索结果,并对这些结果结合固定信息源采集结果进行比对、查重,将频繁出现的敏感内容的地址进行统计汇总,提示相关管理人员是否加入固定采集列表,从而形成良性循环,建立逐步完善的全网监测采集机制。利用搜索引擎采集实现全网搜索的服务模式,如下图所示。1.2.2搜索整合主要功能●统一检索可同时选择百度、Google作为采集资源,利用预先定义的语料搜索词库从同一个检索入口对多个资源提交检索请求。请求多线程并发递交给各个资源的检索引擎,有效提高检索速度,节约用户的时间。对于一个检索请求,首先给出检索报告,报告各个引擎的检索结果数,为使用者提供有指导意义的检索结果概貌。●统一结果展示等待各个资源的检索引擎返回结果,并对这些结果进行分析和提取,以统一的方式返回给用户。如果用户要进一步浏览这些检索结果,则可以点击相应的链接,进入各个资源的细览查看详细信息。●带授权和登录的资源搜索系统需采用统一的权限模块,可以同一个页面访问多个搜索系统,也可以结合权限,为指定的访问IP授权,从IP获得相关的权限。●语料库定义和维护在元搜索模式下提供词典管理和配置,可以由编辑进行灵活进行设置和扩充。1.2.3敏感资源完善和补充对于通过搜索引擎发现的属于敏感信息的来源地址,需经过管理人员审核后,将其迁入网页采集源,生成新的采集配置,也可扩展到整个网站,以便进行有效信息的跟踪。1.3采集配置要求1.3.1系统完成时开发方需将企业服务组目前需监测舆情的网站、论坛、博客等媒体清单约2000个设置好采集配置,同时提供实时技术支持,以便企业服务组随时添加采集源1.3.2采集策略管理界面简洁友好,没有计算机技术基础的工作人员经过短期培训(不超过2天)即能够掌握1.3.3已配置好的网站若发生页面改版,需开发方提供新版网页的采集模板2信息智能预处理对采集信息的智能处理是将内容自动过滤、自动分类、自动排重、自动聚类、内码转换等功能无缝集成在系统内部,实现了自动处理的高集成度。2.1内容过滤采用自动过滤技术,利用网页结构分析,自动分析有用的网页,自动提取元数据,自动过滤掉不需要采
本文标题:国家图书馆舆情监测系统功能需求书
链接地址:https://www.777doc.com/doc-6332630 .html