您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 个性化搜索引擎软件设计方案2.0
个性化搜索引擎软件V2.0设计方案版本说明系统概况:随着Intemet的迅速发展,如何在浩瀚的网络信息资源中查询自己想要的信息变得越来越重要。为此,出现了专门提供网络搜索服务的网站,比如Google、Baidu、Yahoo、搜狐、北大天网等。然而随着网络信息的更新与扩充,传统的单一搜索引擎存在着覆盖率有限,查准率低,用户相关性差的缺点,使得为解决上述不足的元搜索引擎开始成为研究的热点。搜索引擎的发展经历了目录海量搜索、海量搜索、剔出垃圾网页、专业、定向、高准确性和匹配性等几个阶段。搜索引擎在收集页面的数量、速度、准确率方面已得到了长足的进步,但搜索引擎的框架结构和基本技术并没有实质性的突破。而搜索引擎缺乏个性化的局限性却日益突出,本搜索引擎系统在原有1.0版本基础上新增加了兴趣点搜索、用户行为分析、关键字分析等功能。技术特点:1、增加兴趣点搜索功能:在搜索引擎中加入兴趣点搜索及保存功能,用户第二次采用搜索引擎,则会记录第一次的搜索习惯,此功能可增加用户粘性;2、准确性提高:本系统在原有基础上提高了搜索的准确性,依据用户兴趣规则优化待返回的搜索结果,对关键词进行优化检索;3、及时性提高:此版本在原有的基础上提升了检索速度和响应时间,本系统响应时间控制在1秒钟之内。4、规范性:按照现在主流技术设计规范要求,符合当前最新技术标准;5、可扩展性:基于一致性标准组件的实现,设置不同接口,方便将来与其他接口实现对接。1项目的背景和研究内容1.1研究背景随着Intemet的迅速发展,如何在浩瀚的网络信息资源中查询自己想要的信息变得越来越重要。为此,出现了专门提供网络搜索服务的网站,比如Google、Baidu、Yahoo、搜狐、北大天网等。然而随着网络信息的更新与扩充,传统的单一搜索引擎存在着覆盖率有限,查准率低,用户相关性差的缺点,使得为解决上述不足的元搜索引擎开始成为研究的热点。元搜索引擎是指在统一的用户接口与信息反馈下,通过调用多个独立的搜索引擎享有多个资源库为用户提供信息服务的系统。早期的元搜索引擎,虽然大大增加了传统搜索引擎的覆盖率,但在某些方面仍旧和传统的搜索引擎一样,对每个用户的检索要求都给出相同的检索结果,并没有考虑用户个性化的需求对检索予以重组、过滤。如何能够更有效、更准确地找到自己感兴趣的信息,滤除与自己的需求无关的信息,真J下做到“各取所需”,成为基于Intemet的网络信息检索的热点问题。随着用户行为分析、自动聚类、事例推理、互动学习等技术的引入,搜索引擎开始走向个性化、智能化、专业化。搜索引擎的发展经历了目录海量搜索、海量搜索、剔出垃圾网页、专业、定向、高准确性和匹配性等几个阶段。搜索引擎在收集页面的数量、速度、准确率方面已得到了长足的进步,但搜索引擎的框架结构和基本技术并没有实质性的突破。而搜索引擎缺乏个性化的局限性却日益突出,具体表现在:(1)网络信息覆盖面广,形式各异,而传统搜索引擎对所有用户提供相同的界面和服务,并且检索的结果成千上万、良莠不齐,用户为找到真正感兴趣的信息,往往要耗费大量的时间和精力。(2)人们由于年龄、性别、职业、学历、爱好等不同,各自感兴趣的领域也随之不同,各自对词义的理解也不尽相同,不同的用户对同一检索请求得到的检索结果常常有不同的评价,而目前传统搜索引擎不能体现用户的信息需求个性,即传统搜索引擎提供的服务是“面向检索”,而不是“面向用户”的。(3)用户在不同时期或阶段对同一检索请求,所得到的仍是完全相同的检索结果,对用户不具有自适应能力。(4)用户使用搜索引擎时带有一定的目的性,但由于领域知识的不足和搜索引擎的查询接口的局限性而无法明确表达自己的搜索意图。因此,如何使用户方便快捷的从海量的搜索结果中得到所需的信息,成为一个迫切需要解决的课题。本项目通过学习用户满意度反馈,挖掘用户兴趣模式,正确引导用户行为健康发展,实现高效的个性化查询,同时考虑结合数据挖掘中的自动聚类技术进一步改进搜索引擎,就有可能使搜索引擎的检索质量上升到一个新的高度,使普通用户能够高效的通过搜索引擎从万维网上找到自己真证需要的有用信息。从长远来讲,在本项目的基础之上,还可借助用户兴趣模式,个性化的实现自动新闻或信息搜集服务及广告的智能化投放等。1.2研究内容本项目通过学习用户满意度反馈信息,挖掘用户隐藏兴趣,开发并实现了一个基于用户反馈的个性化搜索引擎系统,并提出在此搜索引擎中引入自动聚类技术的改进方案,提高搜索效率。(1)搜索引擎源数据的获取即如何获取独立搜索引擎返回的搜索结果。(2)设计一套合理的学习用户反馈信息的方法即通过学习用户反馈信息,把隐藏在用户操作之下的信息,如:用户的兴趣爱好,用户的搜索倾向等进行归纳总结,借助学习算法,生成用户兴趣模式。(3)基于用户反馈的个性化搜索引擎系统的实现即设计并实现一个基于用户反馈的个性化搜索引擎系统。此系统的最大特点是:引入评分制度获取用户反馈信息,学习用户反馈,挖掘用户兴趣,依据用户兴趣优化搜索结果,优先返回特定用户感兴趣的网页内容并向用户推荐其他用户的兴趣模式,使搜索结果“面向用户”,具有特定性和针对性,提高检索效率。2关键技术2.1自动聚类技术2.1.1聚类聚类,就是将一个数据单位的集合分割成几个称为簇或类别的子集,每个类中的数据都有相似性。聚类分析依据的原则是使同一聚簇中的对象具有尽可能大的相似性,而不同聚簇中的对象具有尽可能大的相异性。聚类分析称为无监督学习。无监督学习不依靠事先确定的数据类别及标有数据类别的学习训练样本集合,需要由聚类学习算法自动计算,不需要人工干预。聚类技术通过比较数据的相似性和差异性,能发现数据的内在特征及分布规律,从而获得对数据更深刻的认识和理解。2.1.2聚类方法目前,聚类分析的方法主要有五类:划分聚类方法、层次聚类方法、基于密度聚类方法、基于网格聚类方法和基于模型聚类方法。(1)划分方法:首先创建k个划分,k为要创建的对象划分个数;然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。(2)层次方法:创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。典型的这类方法包括:第一个是BIRCH(BalancedIterativeReducingandClusteringusingHierarchies)方法,它首先利用树的结构对对象集进行划分;然后再利用其它聚类方法对这些聚类进行优化。第二个是CURE(ClusteringUsingRepresentatives)方法,它利用固定数目代表对象来表示相应聚类;然后对各聚类按照指定量(向聚类中心)进行收缩。第三个是ROCK方法,它利用聚类间的连接进行聚类合并。最后一个CHEMALOEN,它则是在层次聚类时构造动态模型。(3)基于密度方法:根据密度完成对象的聚类。它根据对象周围的密度不断增长聚类。典型的基于密度方法包括:DBSCAN(Density.BasedSpatialClusteringofApplicationwithNoise):该算法通过不断增长足够高密度区域来进行聚类;它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集,并不明确产生一个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。(4)基于网格方法:首先将对象空间划分为有限个单元以构成网格结构,然后利用网格结构完成聚类。STING(StatisticalInformationOdd)就是一个利用网格单元保存的统计信息进行基于网格聚类的方法。CLIQUE(ClusteringInQUEst)和Wave.Cluster则是一个将基于网格与基于密度相结合的方法。(5)基于模型方法:它假设每个聚类的模型并发现适合相应模型的数据。典型的基于模型方法包括:统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采用符号量(属性——值)对对象加以描述的。采用分类树的形式来创建一个层次聚类。CLASSIT是COBWEB的另一个版本。它可以对连续取值属性进行增量式聚类。它为每个结点中的每个属性保存相应的连续正态分布(均值与方差);并利用一个改进的分类能力描述方法,即不像COBWEB那样计算离散属性(取值)和,而是对连续属性求积分。但是CLASSIT方法也存在与COBWEB类似的问题。因此它们都不适合对大数据库进行聚类处理。2.1.3模糊C均值聚类算法模糊C均值聚类(FCM)算法,即众所周知的模糊ISODATA,是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。1973年,Bezdek提出了该算法,作为早期硬C均值聚类(HCM)方法的一种改进。FCM把n个向量xi(i=1,2,...,n)分为c个模糊组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小。FCM与HCM的主要区别在于FCM用模糊划分,使得每个给定数据点用值在0,1间的隶属度来确定其属于各个组的程度。与引入模糊划分相适应,隶属矩阵U允许有取值在0,1间的元素。不过,加上归一化规定,一个数据集的隶属度的和总等于l。那么,FCM的价值函数(或目标函数)就是:构造如下新的目标函数,可求得使下式达到最小值的必要条件:对所有输入参量求导,使上式达到最小的必要条件为:和上述算法可以先初始化聚类中心,然后再执行迭代过程。由于不能确保FCM收敛于一个最优解。算法的性能依赖于初始聚类中心。2.2用户行为分析技术用户既是搜索引擎的直接使用者,也是服务质量好坏的最终评判者。对用户使用搜索引擎行为的调查是搜索引擎优化尤为需要的,互联网为广大的网络用户提供了一个庞大的信息空间和自由获取信息的机会,而搜索引擎为用户找寻信息提供了指南。但搜索引擎给网络用户带来巨大便捷的同时也暴露出了不少问题,若要及时地解决这些问题,对搜索引擎进行优化,那么则需要大量的用户信息。尤其要关注用户在使用搜索引擎时满意和不满意的方面,并通过相关的软件技术对用户使用搜索引擎的行为进行跟踪,并对大量的资料进行分析,制定出优化搜索引擎的措施。下面是通过用户行为分析反映出的一般特征:(1)用户浏览的选择性用户每次搜索时,搜索引擎都会返回成百上千个查询结果,这些结果当中有一部分是质量较高的结果,有一部分是质量很差的查询结果,用户根据结果的快照或摘要进行判断,浏览他所需要的结果。因此,如果用户点击一个查询结果,就可认为用户视此查询结果质量较高;被用户点击浏览的页面无疑就是用户认为质量较高的页面。根据北大天网搜索引擎的统计数据显示,在天网系统数据库中的100多万个有效页面中,被点击的URL只有16万左右,仅占总有效页面的1/6,这说明用户的浏览行为具有选择性。(2)用户浏览的局部性北大天网搜索引擎的统计数据同时显示,用户点击的URL相当集中。大部分用户点击都落在前面几页,像第一页的用户点击率占总点击的47%,而前面5页的点击率占总点击的75%以上。不到总量1/3的页面的点击次数占到总点击次数的2/3。这表明用户点击URL具有很强的局部性。(3)用户点击率由于网页存在的时间越长,累计下来的访问次数可能越多,故网页被访问的次数不能很好地反映一个网页内容的质量。所以,应使用网页的用户点击率来反映页面的质量。用户点击率是页面被访问次数/页面被搜索次数。虽然每次用户点击都是在某查询项下的点击,但研究结果表明,在大部分的查询项下,URL的点击频率和在所有查询项URL的点击频率基本一致。因此,在计算用户点击率时就不必考虑该点击次数是在什么项目下的点击次数。2.3网络爬虫技术爬虫是一个自动抓取网页的程序,它为搜索引擎从互联网上爬取网页,是搜索引擎的重要组成部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。垂直搜索爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL
本文标题:个性化搜索引擎软件设计方案2.0
链接地址:https://www.777doc.com/doc-5266192 .html