网络信息内容获取技术

信息内容安全任延珍武汉大学计算机学院空天信息安全与可信计算教育部重点实验室上节回顾（3）信息获取信息分析表示理解识别信息管控分级过滤阻断审计取证还原被动主动第二章网络信息内容获取技术本讲提要一、网络信息内容获取模型二、搜索引擎技术三、数据挖掘技术四、信息推荐技术五、信息还原技术1.1互联网信息类型网络信息发布形式搜索引擎即时通信门户网站论坛博客微信微博聚合内容电子邮件现代信息传播方法口信报纸电视电话信件电台广播网络信息量截至2011年12月底，中国网站数量为230万，中国网页数量为866亿个，平均每个网站的网页数是5588个，平均每个网页的字节数是28.6KB网络信息类型网络媒体形态广播式媒体新闻网站、论坛、博客交互式媒体搜索引擎、多媒体点播、网上交友、网上招聘、电子商务（网络购物）网络信息类型网络媒体信息：互联网网站公开发布的信息。网络用户通常可以基于通用网络浏览器获得互联网公开发布的信息。网络通信信息：除了使用浏览器之外的专业客户端软件，实现与特定点的通信或进行点对点通信时所交互的信息。网络信息类型发布信息类型文本信息：比例最大图像信息音频信息视频信息网络信息类型媒体发布方式直接匿名浏览：公开发布信息需要身份认证的网络信息发布网络信息类型网页形态静态网页动态网页：含“？”或输入参数的URL网络信息类型信息交互协议网页浏览：HTTP文件传输：ftp电子邮件：foxmail,outlook聊天工具:qq,微信，MSN多媒体交互工具：skype，rtsp，rtp网络通信信息专业客户端软件电子邮件：foxmail,outlook聊天工具:qq,微信，MSN多媒体交互信息：skype1.1网络信息内容获取模型一、网络信息内容获取模型图2-1网络环境下的信息内容获取模型2.1网络信息内容获取模型信息检索（InformationSearch,IS）是信息的需求者主动地在网上搜寻所需要的信息。1951年，CalvinMooers首次提出了“信息检索（InformationRetrieval,IR）”概念[1]，并给出了信息检索的主要任务：即协助信息的潜在用户将信息需求转换成一张文献来源信息列表，而这些文献包含对用户有用的信息。目前通常使用搜索引擎技术完成信息检索功能。2.1网络信息内容获取模型信息推荐（Informationrecommendation）又称为信息推送（InformationPush），是指网络信息服务系统从网上的信息源或信息提供商获取信息，并通过固定的频道向用户发送信息的新型信息传播系统。2.1网络信息内容获取模型信息交互是一种双向的信息交流，在信息交互的过程中，信息获取的个体可以通过所交流的信息满足认知上和情感上的信息需求。2.1网络信息内容获取模型信息浏览方式相当于传统情况下的阅读、观看、倾听等获取信息的行为。1.2网络媒体信息获取原理网络媒体信息获取原理网络信息获取范围：理论上可以覆盖整个国际互联网网络媒体信息获取理想流程网上采集算法网上采集算法，又称为网络爬虫（WebCrawler）、网络蜘蛛（WebSpider）或Web信息采集器，是一个自动下载网页的计算机程序或自动化脚本，是搜索引擎的重要组成部分。1.3网络媒体信息获取的分类全网信息获取定点信息获取1.全网信息获取搜索引擎，大型内容服务提供商google百度Yahoo单次全网信息获取一般需要数周乃至数月时间网站提供Sitmap，提高搜索效率获取——显示（排名PageRank）2.定点信息获取全网信息检索存储空间要求大，难以保障信息获取的时效性定点获取：重点关注的特定网络区域深入搜索定期轮询搜索3.基于主题的信息获取和元搜索元搜索引擎又称多搜索引擎,它可以同时查找多个单搜索引擎的www站点。按其搜索机制可分为并列式和串行式。并行式元搜索引擎指将查询要求同时发向各个独立的搜索引擎,然后将结果按特定的顺序提供给用户。串行式元搜索引擎[1]是将查询要求先发给某个独立的搜索引擎,待其返回结果再将请求发给另一个搜索引擎并行式元搜索引擎运行模式好,搜索时间短。国内元搜索引擎·搜魅网（someta）：·马虎聚搜：·佐意综合搜索（chinazss）·比比猫（bbmao）……….3.基于主题的信息获取和元搜索高级检索功能：提高检索的质量使用布尔逻辑符检索最后更新页面（时间检索）域名过滤（DomainFilter）成人过滤（AdultFilter）语言选择（LanguageSelection）：结果展示（ResultsDisplay）：排序网络媒体信息获取的技术难点网络媒体信息:形态各异、信息类型多样。针对完全异构的网络媒体信息，对信息提取的全面性和时效性提出了更高的要求。拒绝服务：部分网络媒体选择屏蔽过于频繁的、来自相同客户端的信息获取操作。降低访问频率更换客户端信息网络通信信息获取方案网络通信：电子邮件、即时通信软件、金融客户端、视频点播信息获取过程网络通信信息镜像网络交互数据重组通信协议数据恢复网络通信信息存储1.3网络通信信息获取原理网络通信信息获取方案网络通信信息获取流程本讲提要一、网络信息内容获取模型二、搜索引擎技术三、数据挖掘技术四、信息推荐技术五、信息还原技术二、搜索引擎技术据调查统计显示：全球以中文为母语的人口占总人口的22%以上；2011年底中国网民人数已经超过5亿人；中文网页数量已经占到了全球网页数量的15%以上。搜索引擎已成为中国网民使用最为频繁的互联网应用。庞大的中文用户群、丰富的中文网页资源和中文信息处理特有的难度，以及搜索引擎作为互联网基础工具的重要地位，极大地推动了中文搜索引擎的研究和开发二、搜索引擎技术中文搜索引擎的发展最早见于“748工程”中的汉字情报检索清华大学的《中国学术期刊（光盘版）》2001年，百度搜索从2003年开始，中文网络信息服务的四大门户网站（新浪、搜狐、网易和腾讯）陆续推出了自己的搜索引擎服务二、搜索引擎技术中文搜索引擎的关键技术:网页内容分析网页索引查询解析相关性计算二、搜索引擎技术术语定义URL网页地址，例如：http：//www.google.com采集（Crawling）通过从一个种子开始递归地跟踪链接来穿越互联网索引（Indexes）允许快速确定爬过的、包含特定词或短语的网页数据结构垃圾信息（Spamming）发布为获取经济利益所设计的操纵搜索排名的、人为的网页材料哈希函数（Hashingfunction）一种算法，用于在所希望的范围内根据一个字符串计算出一个整数，使得所有的整数都是从很大的字符串集生成的，分布较均匀，例如URL一个通用搜索引擎包括网上采集、索引、查询、排级和提交等算法，相关概念参见表2-1本讲提要一、网络信息内容获取模型二、搜索引擎技术2.2.1网上采集算法2.2.2排级算法2.2.3讨论搜索引擎与垃圾信息关系三、数据挖掘技术四、信息推荐技术五、信息还原技术2.2.1网上采集算法网上采集算法，又称为网络爬虫（WebCrawler）、网络蜘蛛（WebSpider）或Web信息采集器，是一个自动下载网页的计算机程序或自动化脚本，是搜索引擎的重要组成部分。2.2.1网上采集算法工作原理2.2.1网上采集算法按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（GeneralPurposeWebCrawler）聚焦网络爬虫（FocusedWebCrawler）增量式网络爬虫（IncrementalWebCrawler）深层网络爬虫（DeepWebCrawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现网络媒体信息获取原理1.初始URL集合2.信息获取3.信息解析4.信息叛重2.2.1网上采集算法爬虫算法1.初始URL集合跟随网页内嵌链接逐级递归便利互联网络2.信息获取根据来自网络地址集合或URL队列中的每条网络地址信息，确定获取内容所采用的信息发布协议。基于特定协议的网络交互机制，向信息发布网站请求所需内容。HTTP文本信息获取范例随着信息媒体形态的增加，信息交互协议的增加，实现信息获取的操作复杂度和网络交互重构难度呈指数级增长2.信息解析根据不同通信协议的具体定义，从网络响应信息相应位置提取发布信息的主体内容信息关键字段信息来源信息标题信息失效时间信息最近修改时间3.信息解析（HTTP/HTML）4.信息判重主要基于网络媒体信息URL与内容摘要两大元素，实现信息采集/存储的与否判断。URL判重：在信息采集操作启动之前进行是否已经采集是否已经过期内容摘要判重：采集信息存储时进行MD5从爬虫的角度对互联网进行划分爬虫URL抓取策略深度优先遍历策略宽度优先遍历策略反向链接数策略PartialPageRank策略OPIC策略大站优先策略深度优先遍历策略指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接遍历的路径：A-F-GE-H-IBCD宽度优先遍历策略指网络爬虫会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。遍历路径：A-B-C-D-E-FGHI反向链接数策略反向链接数：一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此，很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度，从而决定不同网页的抓取先后顺序。在真实的网络环境中，由于广告链接、作弊链接的存在，反向链接数不能完全等同的重要程度。因此，搜索引擎往往考虑一些可靠的反向链接数。PartialPageRank策略对于于已经下载的网页，连同待抓取URL队列中的URL，形成网页集合，计算每个页面的PageRank值，计算完之后，将待抓取URL队列中的URL按照PageRank值的大小排列，并按照该顺序抓取页面OPIC策略该算法实际上也是对页面进行一个重要性打分。在算法开始前，给所有页面一个相同的初始现金（cash）。当下载了某个页面P之后，将P的现金分摊给所有从P中分析出的链接，并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。大站优先策略对于待抓取URL队列中的所有网页，根据所属的网站进行分类。对于待下载页面数多的网站，优先下载。2.2.1网上采集算法推荐参考文档：《数学之美》，吴军，第9章图论与网络爬虫、网络信息内容获取模型二、搜索引擎技术2.2.1网上采集算法2.2.2排级算法2.2.3搜索引擎与垃圾信息关系三、数据挖掘技术四、信息推荐技术五、信息还原技术2.2.2排级算法网页排级是对搜索结果的分析，使那些更具“重要性”的网页在搜索结果中的排名获得提升，从而提高搜索结果的相关性和质量网页排级---》网页的“重要性”--》网页普及度评分2.2.2排级算法两种应用最广、最成功的排级算法HITS2.2.2排级算法：PageRank2.2.2排级算法：PageRank原理：民主表决核心思想：在互联网上，如果一个网页被很多其它网页所链接，说明它受到普遍的承认和信赖，那么它的排名就高。2.2.2排级算法：PageRank图的基本概念度(degree)：指和该顶点相关联的边数。在有向图中，度又分为入度和出度。入度(in-degree)：以某顶点为弧头，终止于该顶点的弧的数目称为该顶点的入度出度(out-degree)：以某顶点为弧头，起始于该顶点的弧的数目称为该顶点的出度在某顶点的入度和出度的和称为该顶点的度例如：（a）中Vo的入度为1，出度为2，度为32.2.2排级算法：PageRank2.2.2排级算法：PageRank2.2.2排级算法：PageRank1Pr()Pr()(1)()||niiittddtPr()it入度（in-degree）

网络信息内容获取技术

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

电子商务与快递行业协同发展研究

利民煤矿专题片解说词099

XXXX年中国农药进出口新形势和新特点分析

酒店公文案例

我国行政管理法制化问题研究

程序性制度

关于河南豫能控股股份有限公司重大资产重组实施情况

国有企业改革中的成本控制

徐州师范大学科研奖励办法(XXXX年修订)

07会计科目

相关文档

相关搜索