您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 开普互联网络舆情监控系统产品白皮书
开普互联网络舆情监控管理系统UCAPNeteyesV2.0产品白皮书开普互联科技有限公司二〇一二年UCAPNeteyes开普互联网络舆情监控管理系统产品白皮书1目录1背景..............................................................................22系统概述........................................................................43系统功能........................................................................63.1信息采集模块........................................................................................63.2数据库存储模块....................................................................................73.3搜索引擎模块........................................................................................83.4舆情应用与服务模块............................................................................8四、系统优势...................................................................19五、运行环境...................................................................20六、开普互联介绍.............................................................21UCAPNeteyes开普互联网络舆情监控管理系统产品白皮书21背景互联网信息传播速度快、内容丰富、交互性强,近年来已经继广播、电视、报纸、杂志之后,被冠以“第五媒体”之称。互联网已经影响到生产、生活、学习、工作中的各个方面。截至2011年6月底,我国网民总数达到4.85亿,互联网普及率为36.2%,较2010年底提高1.9个百分点,网民数量居世界之首。随着互联网相关技术的飞速发展,互联网的服务模式趋向多样化,传播渠道多样化,新闻网站、门户网站、搜索引擎、论坛、博客、微博、P2P等多种传统和新兴的服务模式并存,网络电视、网络广播等多媒体信息发布形式开始呈增多趋势。互联网已经逐渐演化为一个虚拟社会,各级政府在加强互联网管理的同时,组织力量开展互联网信息的汇集整理与分析,对于全面了解社情民意,做好网络宣传监管工作同样具有重要意义,但是各级政府工作人员在日常互联网监管工作中还是以手工方式为主,经常会面临以下一些问题:监管范围有限监管范围有限主要体现在监管“广度不足”和“深度不足”两个层面上:广度不足:由于目前主要依靠人工来分析跟踪网上信息,所以跟踪范围受到很大限制。工作人员每天只能有效分析与跟踪几十个重点新闻网站、门户网站和几个论坛,面对国内几百万个网站和海量信息只相当于管控了万分之一。深度不足:大型的门户网站、论坛内部栏目、版块众多,成树状向下逐层扩展。依靠人工分析跟踪很容易出现“漏网之鱼”。但受人工分析能力的限制,又没有能力深层次挖掘,这对提高监管水平是十分不利的。缺乏有效的信息分析手段现阶段的工作方式主要是依靠公共搜索引擎进行热点和敏感新闻信息的查找,分析与统计主要依赖手工操作,缺乏自动化的信息分析与处理手段。对新兴的新闻信息发布和传播渠道没有有效的信息采集与分析手段。缺乏对新闻跟帖、论坛、网络音视频网站等新兴传播渠道的信息采集与分析手段。互联网上信息数量的高速膨胀,以及信息发布和传播方式的多样化,给信息采集和分析带来了相当大的困难,而我们目前主要依赖公共搜索引擎,采用人海UCAPNeteyes开普互联网络舆情监控管理系统产品白皮书3战术,通过手工来查询、分析、跟踪与统计,因此,无论从监管范围上,还是从监管手段上,都处于相对落后的状态。综合以上因素,开普互联推出了一个基于智能信息分析技术和海量信息处理技术的互联网舆情监控管理系统UcapNeteyesProV2.0,为科学、准确地分析与把握互联网舆情提供实用、有效的技术手段,以改变目前主要依赖人工采集与分析的局面。UCAPNeteyes开普互联网络舆情监控管理系统产品白皮书42系统概述开普互联网络舆情监控管理系统(UcapNeteyesProV2.0)整合了互联网搜索技术、信息智能处理技术和知识管理方法,通过对互联网海量信息自动采集、信息加工、自动分类、热点采集、舆情专题,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。图:UcapNeteyesPro平台架构UcapNeteyesProV2.0是面向非结构化信息高级应用的综合信息系统应用平台,它总体上可以分为五个层次(见上图):互联网(数据源层)、采集层(UcapSpider)、数据库层、搜索引擎层和舆情应用层。数据源层由互联网的各类数据和政府/企业内部各类数据组成,互联网数据为互联网上各大新闻网站、门户网站、各类论坛、各类博客、各类微博上的所有信息组成,信息的表现形式为新闻、新闻评论、论坛帖子、博客和播客等,信息的格式为文UCAPNeteyes开普互联网络舆情监控管理系统产品白皮书5本信息、图片、视频、音频等。采集层采用UcapSpider网络信息采集软件,全面及时采集互联网的各类信息。UcapSpider是一套互联网定向网页信息采集,分析的软件平台。系统采用先进采集技术为核心,并针对用户所要求的搜索深度深、采集精度高和抓取速度快等进行了专门的优化,采用了分布式多线程并发指令执行体系结构,能够采集多种动态和静态网页类型,以及多种文档类型,同时网页实时增量采集技术实现分秒监测网站信息变化动态,使网站随时获取最新的信息资源。数据库层采用MySql数据库平台,可以对采集数据进行准确、及时的管理与维护,并针对舆情系统的各种应用提供数据管理的支撑。数据库信息可以采用定时轮巡的方式提交到搜索引擎中,为后续的舆情分析提供数据支持,轮巡的时间可以根据数据更新情况、服务器资源情况、客户要求等进行设置,最小可以达到分钟级的轮巡扫描。搜索引擎层采用UcapSearch全文搜索引擎实现对信息的智能分析处理,UcapSearch软件产品是全文检索引擎是一个支持多种数据源、功能强大、高性能、部署灵活的全文索引和检索平台。UcapSearch全文检索系统支持office文档、网页、数据库等格式;支持中文(GB2312和GBK和UTF-8)和英文,灵活的架构也可以方便地扩展支持其他语言和编码;检索语法丰富,支持多字段检索,日期范围检索,检索结果自定义排序等。舆情应用层舆情应用层提供了用户丰富的舆情分析与管理功能主要包括:舆情分类、最新舆情信息、突发舆情信息、全国舆情、地区舆情、行业舆情、境外站点舆情(大纪元、明慧网等)、个人关注舆情定制(用户自定义)、论坛舆情、微博舆情、公共热点信息(关键词、帖子)、关注人物舆情(正负面消息)、舆情专题分析(报道分布、报道时间趋势、传播路径分析)。UCAPNeteyes开普互联网络舆情监控管理系统产品白皮书63系统功能3.1信息采集模块信息采集模块(UcapSpider)是整个舆情监控管理系统的数据采集源头。UcapSpider的主要功能包括:支持采集语言:简体中文,繁体中文,英文;支持多种网页格式(htm、html、shtml、xml、php、asp、jsp、javascript等)网站采集;支持多层下载,可以指定一个网页地址,由此地址自动在网站内搜寻此页面的下级页面,重复的网页不再下载;支持session设置采集;支持多种文档附件(Doc、Xls、Pdf)采集;支持采集url定义规则,支持定义屏蔽多种文件(GIF,JPG,mp3)格式采集规则;可以按照域名采集,可以按照站点采集,可以控制过滤URL格式;支持输出到各种主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等;自动分析采集的网页内容,包括:标题、正文、日期、大小、站点、域名等信息。还要针对垃圾信息和非法信息进行过滤,最终提供输出比较规整的数据格式信息;支持网页去重;支持采集更新轮巡扫描,最小时间5分钟。UcapSpider支持采集的格式主要包括:网站采集支持大部分主流新闻网站采集例如:新浪、搜狐、新华、人民网、和讯网、中国新闻网、凤凰网UCAPNeteyes开普互联网络舆情监控管理系统产品白皮书7元搜索元搜索引擎(Meta-SearchEngine)就是对多个独立搜索引擎进行整合、调用、控制和优化利用,元搜索引擎是用户同时利用多引擎进行网络搜索的中介。检索时,元搜索引擎根据用户提交的检索请求通过分析预处理之后,调用相关的独立搜索引擎进行搜索,对各引擎返回的搜索结果进行汇集、筛选、删除、合并等优化处理后,以统一的格式集中在同一界面显示。目前系统的元搜索引擎可实时调动Baidu、Google等知名搜索引擎检索结果。论坛信息采集支持大旗、百度贴吧、天涯、强国、奇虎论坛等主流论坛信息采集。博客信息采集支持新浪博客、大旗博客、中国网博客、奇虎博客的信息采集。微博信息采集支持QQ微博、新浪微博、搜狐微博的信息采集。境外站点信息采集支持对博讯新闻、法国国际电台、多维新闻网、联合早报、留园新闻、美国之音、辣椒城、明镜网、自由亚洲电台、大纪元等境外网站的信息采集。热点信息采集支持对百度热点、搜索引擎热搜词、论坛热点和国外站点热搜词的采集功能。3.2数据库存储模块本模块主要负责把采集到网页信息从非结构化形式转化成数据库表结构形式,并进行数据库储存。可以对采集数据进行准确、及时的管理与维护,并针对舆情系统的各种应用提供数据管理的支撑。主要信息内容包括:采集数据表、用户信息表、分类信息表、个人定制表、日志统计表等等。从采集模块入数据库的采集信息采用定时轮巡的方式提交到搜索引擎中,为后续的舆情分析提供数据支持,轮巡的时间可以根据数据更新情况、服务器资源情况、客户要求等进行设置,最小可以达到分钟级的轮巡扫描。UCAPNeteyes开普互联网络舆情监控管理系统产品白皮书83.3搜索引擎模块搜索引擎模块是整个系统的核心支撑。采用开普互联全文搜索引擎实现对信息的智能分析处理,支持多种数据源、功能强大、高性能、部署灵活的全文索引和检索平台。主要由四部分组成:搜索服务器(SearchServer)搜索引擎核心服务器,负责建立索引、支持全文检索服务。索引库(IndexDatabase)负责组织管理索引信息,支持多库配置。针对舆情系统,索引库组织设计为:公共分类索引库、地方(定制)分类索引库、行业分类索引库。从信息源类型上有进行了具体的划分:论坛、博客、微博、新闻、英文、元搜索、境外站点。索引接口(IndexAPI)索引接口负责把数据提交到搜索引擎服务器,索引接口提供多种格式的数据转换成入索引的标准格式功能,主要支持:office文档、网页、数据库等格式;支持中文(GB2312和GBK和UTF-8)和英文。检索接口(SearchAPI)检索接口主要负责把搜索请求传递到搜索引擎服务器,并得到返回的检索结果列表,返回给请求系统。本模块检索语法丰富,支持多字段检索,日期范围检索,检索结果自定义排序等。3.4舆情应用与服务模块舆情应用模块提供了用户丰富的舆情分析与管理功能。主要包括:舆情分类、最新舆情信
本文标题:开普互联网络舆情监控系统产品白皮书
链接地址:https://www.777doc.com/doc-4947486 .html