您好,欢迎访问三七文档
密级硕士学位论文垂直搜索引擎 陈凌云导师姓名(职称)牛振东(教授)答辩委员会主席宋瀚涛申请学科门类工程论文答辩日期2007年7月6日申请学位专业软件工程2007年4月20日研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:关于学位论文使用权的说明本人完全了解北京理工大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学术交流为目的,复制赠送和交换学位论文;⑤学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。签名:日期:导师签名:日期:摘要互联网上的信息每天都在不断的增长,面对如此浩瀚的资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张地说,所有的用户都可以从搜索引擎出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。但是,随着信息多元化的增长,通用搜索引擎已经不能满足特定用户更深入的查询需求。同时,通用搜索引擎在目前的情况下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要一个专业领域的搜索引擎,它具有面向主题的、数据全面深入、更新及时等特点。近几年来,已经出现了一些成型的系统。本文从理论和实践两个方面探讨了网络信息检索技术以及检索技术在搜索引擎系统中的应用,实现了一个基本的垂直搜索引擎,包括网络爬虫、PageRank、结构化信息提取等。论文首先阐述了搜索引擎的历史、现状以及不足,指出了垂直搜索引擎的概念和研究的必要性。然后对垂直搜索引擎进行理论性的分析,介绍了系统涉及的关键技术,具体介绍了网络蜘蛛(spider)的设计规则和法则、超链分析以及结构化信息提取相关算法。最后是系统的设计和实现部分,在上述理论分析的基础上提出了系统的设计思想,采用基于链接和基于内容相结合的方法,并介绍了系统的结构和具体实现技术。关键词:垂直搜索、网络爬虫、PageRank、结构化信息提取IAbstractInformationontheInternetgrowsexplosivelyeveryday.Searchengineprovidesallthesurfersonitwithanentrance,fromwhichtheycanreachnearlyeverynodesoftheWeb.Therefore,searchenginebecomesthemostpopularInternetservicebesidesemail.Withinformationexplodinginalldirections,however,somespecialkindsofusersarenotstatisfiedwithgeneralsearchengine.Inthemeanwhile,itisimpossibletoretrieveenoughinformantionfrominternetintime.Thereforepeopleneedaverticalsearchenginewhichiscontainingprofoundandsufficientinformaitonandbeingupdatedintime.Inthepastyears,therearesomeverticalsearchenginehasbeenputintothemarket.AfterdiscussingthetechnologyofWebinformationretrievalbothontheoryandapplication,aframeworkforaverticalsearchsystemhasbeenimplemented,includingcrawler,pagerankandtheextractorofstructureinformation.FirstthepaperdiscussesthehistoryandthepresentsituationoftheWebinformationandanalysessomeproblems.RelatedworkofotherresearchersinChinaandallovertheworldisnarratedinthispart.Thenthepaperanalyzesverticalsearchengineintheory.Thetechnicaltermandthekeytechniquesinvolvedinthepaperareintroduced,includingtheruleofWebspider,hyperlinkanalysisandtheextractorofstructureinformation.Finallythedesignandtherealizationofthesystemareintroduced,includingthesystemstructureandmethods.Keywords:verticalsearchengine、webcrawler、PageRank、theextractorofstructureinformationII目录摘要...................................................................1Abstract..............................................................II目录.................................................................III第1章绪论...........................................................11.1项目研究背景......................................................11.2搜索引擎发展现状..................................................11.2.1搜索引擎分类..................................................11.2.2垂直搜索引擎的出现............................................31.3论文主要研究内容和结构............................................31.4本章小结..........................................................4第2章搜索引擎基本原理...............................................52.1通用搜索引擎工作原理..............................................52.2网页抓取技术研究..................................................62.2.1网络爬虫工作原理..............................................72.3检索技术..........................................................82.4查询器...........................................................102.5本章小结.........................................................10第3章垂直搜索引擎关键技术...........................................123.1超链接分析算法...................................................123.1.1PageRank.....................................................123.1.2H.I.T算法....................................................153.2结构化信息抽取...................................................163.2.1网页信息结构化抽取方式.......................................163.3分词技术.........................................................18III3.3.1什么是分词...................................................183.3.2分词的必要性.................................................193.3.3分词算法.....................................................193.4本章小结.........................................................21第4章垂直搜索引擎的实现.............................................224.1网络爬虫的实现...................................................224.1.1概述.........................................................224.1.2总体框架.....................................................234.1.3爬行策略.....................................................254.1.4抓取过程.....................................................264.1.5链接提取.....................................................274.1.6页面重复分析算法.............................................284.1.4robot.txt协议................................................294.1.8存取格式问题.................................................294.2PageRank的实现...................................................304.2.1计算方法和原理...............................................304.2.2系统中的具体实现.............................................314.3信息抽取..............
本文标题:垂直搜索引擎
链接地址:https://www.777doc.com/doc-5905293 .html