您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 其它相关文档 > 移动互联网搜索中的信息过滤技术研究及实现方案
移动互联网搜索中的信息过滤技术研究及实现方案李明凯,薛伟冬,孟仁兴北京邮电大学PCN&CAD中心,北京(100876)E-mail:onlylmkyou@163.com摘要:目前,继传统互联网搜索的快速发展和广为接受之后,移动互联网搜索以其更大的便捷性成了人们关注的一个新热点。然而,由于移动终端的能力限制等因素,移动互联网搜索在实际应用中上还存在着一些问题,特别是繁冗复杂的普通互联网内容在移动终端屏幕上的呈现问题。本文作者通过分析移动终端的特点,参考传统搜索引擎的原理,对页面主体内容提取,智能用户兴趣代理和标记语言转换等相关技术进行了研究和比较,提出了一种基于信息过滤技术的移动互联网搜索内容呈现的解决方案,并对方案进行了初步的试验验证。关键词:移动互联网搜索,信息过滤,主体内容提取,智能用户兴趣代理,标记语言转换1.引言互联网信息的迅速膨胀催生了搜索技术的快速发展,而移动终端的普及使用和终端功能的不断增强使移动搜索成为新的研究和应用热点。现在一般把移动搜索分为两大类:垂直搜索和综合搜索。垂直搜索一般是分类搜索,针对性强,准确度高。综合搜索沿袭了以往互联网搜索的模式,通过移动通信网络或无线互联网络对WAP或WEB页面进行全面搜索,且主要为基于关键字的查找方式。用户在体验到互联网搜索的好处后,也对能通过移动终端进行类似的内容搜索表现了极大的兴趣和期望。而考虑移动终端的显示局限等特点,为了给移动终端用户提供更有针对性和个性化的搜索结果,需要对搜索到的互联网信息进行过滤和筛选。本文针对这一问题进行了一系列的研究和阐述,并提出了一套信息过滤解决方案。2.移动互联网搜索概述2.1移动搜索与移动互联网搜索搜索引擎提供的服务已经成为互联网非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。而时至今日,人们的信息需求正在变得无处不在,无时不有,这就要求搜索服务拥有较强的移动性和便携性,同时又能充分保证搜索内容的有效呈现。基于PC的搜索在移动性和便携性都已满足不了新形势的要求,搜索引擎已经延伸向了移动互联网,移动搜索应运而生。移动搜索是基于移动通信网络的搜索技术总称。一般的,依据搜索内容可将移动搜索分为综合搜索和垂直搜索两类。表1移动搜索分类搜索分类搜索内容搜索特点综合搜索搜索WAP以及WEB站点内容信息量大,针对性差,(类似有线互联网搜索在移动设备上的延伸)垂直搜索分类型内容服务,如媒体类型(音频、视频、图片等)、领域内容(科技、体育、娱乐等)及本地信息搜索等准确度高、针对性强、可实现个性化结果定制,更符合移动终端技术特点对于垂直搜索,如本地信息搜索(酒店,学校等)等业务已经有不少的业务开展,其数据内容多是通过数据库搜索等方式得到,和普通互联网的网页内容搜索有所不同。而对于综合搜索,类似互联网搜索,搜索引擎进入WAP网络或通过网关转换由WAP接入WEB网络,对WAP或WEB网络上的站点内容进行搜索,根据一定规则将链接和内容做索引存储。用户通过编辑短信或键入关键词提交搜索请求,搜索引擎通过移动通信网络将结果反馈给用户终端。以Google、Baidu为代表的搜索引擎门户已相继推出了这种服务,让用户可以通过手机进入WAP或WEB进行网页搜索。本文所讲的移动互联网搜索即指这种综合搜索。2.2移动互联网搜索的信息过滤问题从以下几个角度考虑,由移动终端的特点决定,必须对移动互联网搜索的结果进行信息过滤:z移动终端屏幕较小,无法像PC终端屏幕那样显示过于冗余复杂的页面。z用户使用移动终端习惯于较少的操作次数,因此数量过多的结果分页显示会大大降低用户操作的便利性,不易被用户接受。z移动终端处理器能力和内存量一般较低,不宜承受过于复杂的数据内容的下载和显示。z移动终端电量有限,过大的数据传输和显示会急剧加速电量消耗,影响正常使用。3.移动互联网搜索信息过滤方案3.1信息过滤技术方案概述参考比较成熟的互联网搜索引擎的体系结构[2],作者提出了基于移动互联网的搜索引擎的简单体系结构,其基本原理示意如下。图1移动互联网搜索的基本原理示意图信息收集和预处理主要包括网络爬虫,索引排序,数据存储等搜索处理的前期过程。鉴于篇幅有限,在此不赘述信息收集和预处理的详细内容。本文重点阐述的信息过滤显示部分属于信息查询过程。在用户提交搜索查询请求后,服务端将已经进行主要内容提取后的精简页面,再根据用户个性化要求进行筛选,并经过WEB页面到WAP页面的标记语言转换,将内容返回用户[1]。整个信息过滤过程分为三个阶段:1.网页主体内容提取。由于大部分WEB页面内容冗余复杂,在移动互联网搜索引擎将WEB页面内容进行快照下载后,为了满足移动终端的要求,要对网页内容进行主体过滤提取。提取出网页内容的正文部分,并区分出链接部分,过滤掉冗余的图片和广告等。2.基于用户兴趣代理的信息过滤。移动用户进行移动互联网搜索的主要目的是得到适合自身个性化需求的信息。对于通过关键词进行查询得到的大量搜索结果,系统会根据表征用户兴趣的用户模版信息进行过滤,将已经经过前一阶段主体内容提取的页面内容根据用户兴趣进行结果显示的优先级排序。3.标记语言转换。在经过主体内容提取和用户个性化信息过滤后,该页面内容已经基本符合用户的期望。此时将以HTML等标记语言显示的WEB页面转换成以WML等语言显示的页面,以便通过移动通信网络传输和移动终端接收显示,将查询结果最终送达用户。页面主体内容提取基于智能用户兴趣代理的信息过滤标记语言转化移动终端搜索引擎数据存储图2移动互联网搜索的信息过滤解决方案3.2页面主体内容提取3.2.1HTML解析HTML文档属于半结构化数据[3],半结构化数据就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据。给定一篇HTML网页,顺序整理出容器标签就得到了对应的标签树的框架。而后,整理每个内容块(对应标签树的一个结点)中的超链标签、图片标签和重要信息标签,并在标签树中对应的结点记录下来。这样就构造了一棵基本的标签树。对上述基本标签树信息作适当的分析、整理就可以得到内容分析过程中需要的一些描述信息。图3标签树示例3.2.2HTML页面主体内容提取要想进行对HTML文档内某一部分或某一种内容的提取,首先需要对整篇文档进行解析,根据一般性的规律,将任何可能包含该种内容的容器标签进行全文扫描。经过技术调研分析,作者考虑采用Java开源项目htmlparser进行Web页面内容的解析和提取。在作者的试验程序中,主要针对新浪网的新闻类和科技类网页进行了实验,实验效果良好。以下两张图片显示了网页内容提取前后的网页对比情况。提取前的网页:提取前网页提取后效果演示:图5提取后网页信息过滤系统结构按照该结构图,其工作流程为:1.用户首次进入搜索门户,进行第一次查询服务之前,门户提示用户可以选择填写一份兴趣注册信息,用以记录用户的兴趣信息。2.系统根据用户填写的兴趣信息为用户创建一个用户模板,该用户模板采用向量空间模型把与用户兴趣信息相关的关键词构成一个用户兴趣关键词集合,用户模板建模初始化工作完成,模版信息保存在客户端本地[5],(Cookie方式)。3.用户进行查询服务,像普通搜索引擎一样输入自己的查询词。客户端将查询请求及之前预存的模版信息发送给服务器,由服务器用户兴趣代理缓存模版信息(查询结果返回用户后释放缓存,以减轻服务器压力)。系统进行分词处理,进行一般搜索引擎的检索工作,但返回结果列表并不直接返回给浏览器,而是交给服务器的用户兴趣代理。4.将返回列表里的Web文档做分词处理,进行特征向量的抽取,采用某种算法计算特征向量各项的权值,并且形成特征向量。5.以用户模板向量为二次查询的匹配的条件,对步骤4形成的特征向量进行匹配,计算两者的相似度,并以一个初始阈值作为是否保留该文档的门限。6.以文档和用户模板的相似性作为结果排序的依据,将高于阈值的项作为新的结果返回给浏览器供用户浏览。7.用户选择结果列表中的某些文档浏览,在浏览结束后请用户选择对该文档打分,作为用户重要的兴趣信息保存到用户模板中,用户对某篇文档的打分归结为对某些关键词的重视程度,并相应的在用户模板的向量表中更新该关键词的权重;以此策略来更新用户模板。另外,将本次用户输入的检索词也作为一个用户兴趣的反馈信息与文档内的关键词一并作为新的用户模板参考信息。至此,用户的一次查询结束。8.如果用户发现一段时间后,返回结果不能代表自己的兴趣方向或者自己最初定制的兴趣信息已经发生了改变,那么此时用户可以重新要求填写用户兴趣表单提交,形成新的用户模板。以上为基于智能用户兴趣代理的信息过滤系统结构设计综述,其中智能用户兴趣代理和信息过滤算法为设计中的两个关键,下面将重点阐述这两部分内容。3.3.2智能用户兴趣代理实现方案用户兴趣代理的模版部分可以是运行于移动设备上的客户端浏览器内支持的一种数据结构,浏览器可以选择是否支持该种服务,因此可以作为一个插件程序,而且这是比较合理的做法。用户是否订购这样的高级服务是自愿的。可以通过网络下载或终端捆绑安装方式提供这个插件程序。对搜索结果的匹配过滤是需要很大的计算量的,因此,匹配过滤模块适宜于在服务器端实现,也就是还需要匹配过滤运算程序的支持。在服务器端,匹配程序将用户的模版缓存在服务器上,在匹配后将过滤结果返回给用户,并释放缓存。在客户端可以提供用户对过滤结果的评价途径,并可以捕捉用户的网络浏览喜好,统计历史查询关键词等,利用更新算法形成新的兴趣模版并记录在客户端Cookie中。这样就完成了用户兴趣模版的智能化更新过程。下次查询将新的用户模版发给服务器来进行信息过滤匹配。用户模板过滤结果输入信息输出信息用户评价反馈检索词图7用户模版的智能化更新3.3.3信息过滤匹配算法信息过滤中的一个关键步骤是依关键词所得搜索结果与用户模板的匹配,用户模板与信息匹配常用的模型有布尔模型、向量空间模型、潜在语义索引模型、概率模型、神经网络模型等。每种模型首先要解决用户模板和信息的表示问题,然后在某种表示的基础上才能进行用户模板和信息的相似性比较,从而根据相似性的大小选出和用户模板匹配的信息推荐给用户。信息有多种格式:文本、超文本、声音、图像和视频等。为了方便计算机处理,布尔模型和向量空间模型用索引项描述信息的内容。一个索引项可以是一个单词或一个短语。同样把不同形式的一条信息统称叫一个信息项,这样一个信息项就可以表示成索引项的集合={T1,…,Tn}。对一个信息项建立索引的过程叫做标引(indexing)或索引,标引有人工标引和自动标引两种方法。人工标引适合于声音、图像和视频等非文本格式的信息。自动标引则适合于文本格式的信息。还可以为每个索引项Ti赋予一个权值wi,用以刻画该索引项体现信息内容的重要程度,这样,一条信息被表示成权值的向量D=(w1,…,wn),用户模板也看成一个查询,也表示成Q=(w1,…,wn)。其中,wi是索引项的权值。经过对信息过滤模型算法的比较调研,作者采用向量空间模型[4]VSM(VectorSpaceModel)结合潜在语义索引模型LSI(LatentSemanticIndexingModel)进行语义信息匹配过滤。z向量空间模型VSM(VectorSpaceModel)向量空间模型60年代由GeraldSalton引入,并在叫做SMART的著名的系统中实现。向量空间模型把查询当作一个小的信息,寻找
本文标题:移动互联网搜索中的信息过滤技术研究及实现方案
链接地址:https://www.777doc.com/doc-5956202 .html