25网络信息过滤技术

计算机网络安全技术概述内容阻塞内容分级审查背景随着互联网内容的极大丰富，信息海量化正在导致信息垃圾化为什么要进行信息过滤国家信息安全的迫切需求使网络用户尤其是青少年学生远离非友善信息的侵扰，净化网络空间改善Internet信息查询技术的需要信息个性化服务的基础信息服务供应商（信息中介）开展网络增值服务的手段什么是信息过滤？是指计算机根据用户提供的一个过滤需求（UserProfile），从动态变化的信息流（比如Web）中自动检索出满足用户个性化需求的信息Profile：一组对用户过滤需求的描述，这种“profile”描述了用户长期的、稳定的兴趣爱好近义术语信息的选择分发（SelectiveDisseminationofInformation,SDI），来自图书馆领域路由（Routing），来自MessageUnderstanding最新资料公告（CurrentAwareness），来自数据挖掘无结构的或半结构化的数据文本数据图形和图像数据大数据量难点：对用户过滤需求的描述信息检索信息过滤用户需求表示检索词（含组合条件）兴趣模型信息源相对静态的结构化的数据库相对静态的结构化的数据库海量，动态的无（半）结构数据目标选择相关条目过滤掉不相关的信息需求动态变化静态需要了解用户情况否是涉及社会背景否是和文本分类（Categorization）的区别分类系统中的类不会经常改变相对而言，UserProfile会动态变化和信息抽取（InformationExtraction）区别信息过滤关心相关性信息抽取只关心抽取的那些部分，不管相关性根据过滤系统的结构分类1987年，Malone及其同事把信息过滤方法分为3类：▪基于内容的过滤（Content-basedfiltering），也叫认知过滤（Cognitivefiltering）▪协作过滤（Collaborativefiltering），社会过滤（socialfiltering）▪经济过滤（Economicfiltering）。目前使用较多的就是基于内容的过滤和基于协作的过滤。根据过滤系统的结构分类基于内容的过滤▪这种方法按照信息内容的特征作出选择，主要采用自然语言处理、人工智能、概率统计和机器学习等技术进行过滤。▪内容过滤能够监测现有信息的内容特征，为用户提供与其曾经感兴趣信息相似的信息，但不能为用户发现新的兴趣信息。▪这种方法比较适合于分析文本信息，但对声音、图像、视频等形式的媒体信息还缺乏有效的自动分析方法。根据过滤系统的结构分类基于协作的过滤▪这种方法是“相似”用户间的相互协作过程。通过分析用户兴趣，在用户群体中找到与指定用户兴趣相同或相似的用户，综合这些相同或相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。▪由于不依赖于内容，这种过滤方法不仅适用于文本信息，也可以推广到非文本形式的信息。根据过滤系统的结构分类基于协作的过滤▪这种方法是“相似”用户间的相互协作过程。通过分析用户兴趣，在用户群体中找到与指定用户兴趣相同或相似的用户，综合这些相同或相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。▪由于不依赖于内容，这种过滤方法不仅适用于文本信息，也可以推广到非文本形式的信息。▪局限是活动用户只能获取具有相同兴趣的用户喜欢的信息，而不能获取不同兴趣的用户喜欢的信息。经济过滤▪这种方法依赖于成本和用户获益的计算，依赖于价格机制。根据操作的主动性分类主动过滤▪系统主动从Web上为其用户推送相关的信息。▪在有些主动信息过滤系统中，预先对网络信息进行处理，例如对网页或者网站预先分级、建立允许或禁止访问的地址列表等，在过滤时可以根据分级标记或地址列表决定能否访问。被动过滤▪系统不对网络信息进行预处理，当用户访问时才对地址、文本或图像等信息进行分析以决定是否过滤及如何过滤。根据信息过滤的目的分类推荐系统▪根据用户对信息的评价把信息推荐给合适的接收者，属于协作过滤系统的一部分。阻挡系统▪通过设置一定的条件限制用户获取某些信息，而其他信息可以利用。根据过滤模板所在的位置分类上游过滤▪又叫代理服务器过滤。用户需求模板存放在服务器端或者代理端。过滤系统也可能处在信息提供者与用户之间专门的中间服务器上，这种情况也叫做中间服务器过滤。▪上游过滤的优点是不仅支持基于内容的过滤，也支持协作过滤，缺点是模板不能用于不同的网络应用中。根据过滤模板所在的位置分类下游过滤▪又叫客户端过滤，用户需求模板存放在客户端上，用户根据自身需要设置一定的限定条件，将不感兴趣的信息排除在外。▪优点是模板可用于不同的网络应用，缺点是只能实现基于内容的过滤。信息源过滤▪又叫剪辑服务，用户将需求模板提交给一个信息提供者，由信息提供者为用户过滤信息。按照从用户获取信息的方法分类显式过滤▪用户直接填表▪用关键词表达用户过滤需求▪用文档集表达用户过滤需求▪通过用户交互提供的这些显式信息可以快速、明确描述用户的信息需求，减少系统学习的负担。▪但是这种显式的获取用户信息需求的方式会增加用户的负担，加重用户使用系统的困难。按照从用户获取信息的方法分类隐含式过滤▪无需用户直接参与，通过观察用户的动作行为判断用户需求▪用户在指定页面的停留时间、用户访问页面的频率、是否选择保存数据、是否打印、是否转发数据等对信息项的反应都能作为用户兴趣的标志。▪采用隐含式获取用户信息需求的方法容易受到干扰的影响，所以这种方法通常用作显式方法的补充。按照从用户获取信息的方法分类混合式过滤▪采用混合式方法获取用户信息需求的方法介于显式方法和隐含式方法之间，它要求尽量减少用户的参与。▪混合式获取用户信息需求的方法通常有两种▪通过文档空间来获取知识（基于案例的方法）▪通过原型参考来获取知识（推理，预先定义默认的profile，在扫描过程中再改变）信息过滤技术的研究现状当前信息过滤的研究以TREC会议为核心，主要是文本过滤。国内有关信息过滤的研究以核心算法为主，主要集中在特征抽取、学习算法和过滤算法上。出现了一些过滤软件，但存在较多问题，过滤效果不佳。目的对不良信息从源头进行控制，阻塞这些信息的传入通道两种方式网络层阻塞应用层阻塞部署位置互联网骨干节点企业网/园区网出口网络层阻塞技术DNS过滤（DNS劫持）▪指在特定的网络范围内，拦截域名解析的请求，分析请求的域名，把审查范围以外的请求放行，否则返回假的IP地址或者什么都不做使请求失去响应，其效果就是对特定的网络不能反应或访问的是假网址。▪一般部署在互联网骨干节点▪可以通过指定DNS服务器来绕过审查网络层阻塞技术IP地址过滤▪利用网络设备的数据包过滤或访问控制功能，检查IP包的来源或目的，通过审核的才予以放行，否则将进行阻断▪一般部署在互联网骨干节点，或是企业网/园区网的出口部分，通过防火墙、路由器等设备来实现▪IP地址的过滤名单更新太慢，且容易“误伤无辜”应用层阻塞技术URL阻塞▪制定不能访问URL地址，以黑名单的形式存放在代理服务器或应用层网关中。在进行HTTP请求的时候，代理服务器或应用层网关会对URL进行审查，如果在黑名单中将予以阻塞关键字审查▪在互联网出口网关处收集信息，过滤、嗅探制定的关键字，针对包含关键字的通信过程进行阻断▪HTTP报文头部关键词▪数据流内文关键词应用层阻塞技术的部署方式旁路式（Passby）▪监听网络上所有信息，并有选择的对基于TCP的连接（如HTTP/HTTPS/FTP/TELNET/POP3/SMTP等）进行阻断▪旁路式过滤的原理基于TCP的连接性：跟踪所有TCP连接，阻断时以服务器身份向客户端发送HTTPACKPSHFIN，同时以客户端身份向服务器发送HTTPRST。穿透式（Passthrough）▪依赖于代理服务器或应用层网关，直接禁止通信过程最典型的例子：GFWGreatFirewall，防火长城，也称“中国防火墙”或“中国国家防火墙”，指中华人民共和国政府在其管辖互联网内部建立的多套网络审查系统的总称，包括金盾系统和相关行政审查系统。一般所说的GFW，主要指公共网络监控系统，尤其是指对境外涉及敏感内容的网站、IP地址、关键词、网址等的过滤。国家防火墙并非中国的专利。实际上，美国也有国家网络监控系统，对进出美国的每一封电子邮件进行内容扫描。不同的是，中国的国家防火墙会直接切断一些敏感连接，而美国的国家防火墙则只是做数据监控记录。GFW的主要技术域名劫持IP封锁关键字过滤阻断HTTPS证书过滤对破网软件的反制内容安全分级审查是一种主动的安全技术。旨在内容发布前，在内容中嵌入分级标识，随后的各种审查措施基于分级标识进行。这种监管技术可以对信息提供的过程（信源、信息服务和信息的中转等环节）实施主动的审查，以避免不必要的信息及不良信息的传播，通过监管来净化网络环境。过滤中心信息源信息发布者信息受众分级标准添加分级标签分级分级分级任何接受监管的内容必须要按照统一的标准被分级，内容分级标准是整个审查体系的基础，一般一个信息包括内容类别标志和等级标志，如“暴力2级”。目前，W3C提出的Internet内容选择平台（PICS，PlatformforInternetContentSelection）标准是一个比较完整的分级标准体系。PICSPICS提供了对互联网上信息的内容进行标记的一个开放平台PICS提供了有关内容分级的元数据和一种方便于任何独立群体开发自己元数据词汇的机制元数据包括PICS标记词汇和PICS分级服务描述词汇RSACi分级系统类似于电影分级制度，原先由娱乐厂商向购买者提供产品的等级信息在互联网内容等级协会（InternetContentRatingAssociation，ICRA）倡导下，形成了RSACi分级服务（RecreationalSoftwareAdvisoryCouncilontheInternet）将互联网上的信息大致分为性、暴力、语言和裸体4个方面，每个方面的信息又分为0～4级。0级表示无害，级别越高，危害越大。PICS技术的实现资源描述框RDF（ResourceDescriptionFramework）▪同时携带多种元数据在网络上传播▪一个基础结构来支持彼此独立而又互补的元数据的共存▪可以满足许多不同信息提供者对元数据的要求▪RDF的核心定义基于以下假设：任一个可被标识的“资源”都可以被一些可选择的”属性”描述，每一个属性的描述都有一个“值”PICS技术的实现RDF的例子rdf:Descriptionabout=‘’AuthorLiu/AuthorHome-Pagerdf:resource=''/rdf:Description解释：指明被描述资源的URI,它是Web资源的唯一标识，它是统一资源定位符URL的超集；被描述资源有一个叫Author即作者的属性，其值是Liu；被描述资源有一叫Home-Page即主页的属性，其值指向另一资源。将制定的分级标签与发布的信息内容相结合，可以采用如下3种机制：META标签RFC-822“标签局”META标签利用HTML格式的META标记，将标签嵌入在HTML头文件中metahttp-equiv=“PICS-Label”Content=‘(PICS-1.1Http://pics-server/by“XX”Labelon“2010.12.04”Until“2012.12.04”Forhttp://someserver/somepage.htmlRatings(s1v2p0))’META标签PICS标准的版本信息，所遵循的分级标准颁布的组织(http://pics-server)；标签的制定者；标签生成的时间和

25网络信息过滤技术

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

基因工程改造秸杆发酵产氢的关键技术研究

《保险营销》教学大纲

工伤和生育保险政策解读

财政金融、会计岗位说明书

栏杆工程分包合同样本XXXX05发布

艾滋病、法律和人权立法者手册就艾滋病对人类、经济和社会的破坏

发电的配电网电能质量综合控制研究

锚杆锚固质量无损检测技术及应用

国家消防产品质量监督检验中心

富威灯饰有限公司仓库管理的问题与优化

相关文档

相关搜索