网络爬虫的设计与实现

毕业设计（论文）说明书学院软件学院专业软件工程年级2007姓名张凤龙指导教师陈锦言2011年3月6日毕业设计（论文）任务书题目：网络爬虫设计与实现学生姓名张凤龙学院名称软件学院专业软件工程学号3007218139指导教师陈锦言职称讲师一、原始依据（包括设计或论文的工作基础、研究条件、应用环境、工作目的等。）互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。所以需要一个能基于主题搜索的满足特定需求的网络爬虫。为了解决上述问题，参照成功的网络爬虫模式，对网络爬虫进行研究，从而能够为网络爬虫实现更深入的主题相关性，提供满足特定搜索需求的网络爬虫。二、参考文献[1]Winter．中文搜索引擎技术解密：网络蜘蛛[M]．北京：人民邮电出版社，2004年．[2]Sergey等．TheAnatomyofaLarge-ScaleHypertextualWebSearchEngine[M]．北京：清华大学出版社，1998年．[3]Wisenut．WiseNutSearchEnginewhitepaper[M]．北京：中国电力出版社，2001年．[4]GaryR.WrightW.RichardStevens．TCP-IP协议详解卷3：TCP事务协议，HTTP，NNTP和UNIX域协议[M]．北京：机械工业出版社，2002年1月.[5]罗刚王振东．自己动手写网络爬虫[M]．北京：清华大学出版社，2010年10月.[6]李晓明，闫宏飞，王继民．搜索引擎：原理、技术与系统——华夏英才基金学术文库[M]．北京：科学出版社，2005年04月.三、设计（研究）内容和要求（包括设计或研究内容、主要指标与技术参数，并根据课题性质对学生提出具体要求。）本课题的主要目的是设计面向主题的网络爬虫程序，同时需要满足的是具有一定的性能，要考虑到网络爬虫的各种需求。网络爬虫应用宽度搜索技术。对url进行分析，去重。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出来:新闻、电子图书、行业信息等。对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。最终实现的网络爬虫应该能根据设定的主题，从设定的url进行一定深度的搜索，并最终得到需要的数据。指导教师（签字）年月日审题小组组长（签字）年月日天津大学本科生毕业设计（论文）开题报告课题名称网络爬虫设计与实现学院名称软件学院专业名称软件工程学生姓名张凤龙指导教师陈锦言（内容包括：课题的来源及意义，国内外发展状况，本课题的研究目标、研究内容、研究方法、研究手段和进度安排，实验方案的可行性分析和已具备的实验条件以及主要参考文献等。）一．课题的来源及意义互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题，一个灵活的爬虫有着无可替代的重要意义。二．国内外发展状况对于网络爬虫的研究从上世纪九十年代就开始了，目前爬虫技术已经趋见成熟，网络爬虫是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括Nutch，Larbin，Heritrix。网络爬虫最重要的是网页搜索策略（广度优先和最佳度优先）和网页分析策略（基于网络拓扑的分析算法和基于网页内容的网页分析算法）。三．研究目标本论文主要研究搜索引擎的搜索器（网络爬虫程序）的设计与实现,实现简单的可在后台自动运行的爬虫程序。1.可以多线程进行抓取。2.可以进行面向主题的抓取。四．研究内容本课题研究的内容是如何使网络爬虫灵活高效。1.如何具备更强的抓取能力。2.如何分辨重复的网页内容。3.如何确定主题相关性。4.对于网络时延等的处理。五．研究方法网络爬虫应用宽度搜索技术。对url进行分析，去重。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出来新闻等信息。对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。六．研究手段参考网上开源的网络爬虫和各种网络爬虫相关的书籍，在windows系统环境下开发。五．本课题进度安排：2010.12.20—2011.03.10查阅资料完成任务书，完成开题报告2011.03.11—2011.03.12开题报告会2011.03.13—2011.04.24查阅资料，进行论文基本章节的写作，完成初稿，并完成进行代码编写2011.04.25—2011.04.30毕业设计中期报告会2011.05.01—2011.05.22系统设计结束并再次检查系统的可靠性。2011.05.23—2011.06.22完成论文及答辩六．本课题可行性分析网络爬虫目前已经比较普遍，国内外有众多对网络爬虫的研究成果，大部分的技术难题已经有解决方案。所以本课题的可行性较高。八．实验条件Windows操作系统；互联网九．主要参考文献[1]Winter．中文搜索引擎技术解密：网络蜘蛛[M]．北京：人民邮电出版社，2004年．[2]Sergey等．TheAnatomyofaLarge-ScaleHypertextualWebSearchEngine[M]．北京：清华大学出版社，1998年．[3]Wisenut．WiseNutSearchEnginewhitepaper[M]．北京：中国电力出版社，2001年．[4]GaryR.WrightW.RichardStevens．TCP-IP协议详解卷3：TCP事务协议，HTTP，NNTP和UNIX域协议[M]．北京：机械工业出版社，2002年1月.[5]罗刚王振东．自己动手写网络爬虫[M]．北京：清华大学出版社，2010年10月.[6]李晓明，闫宏飞，王继民．搜索引擎：原理、技术与系统——华夏英才基金学术文库[M]．北京：科学出版社，2005年04月.选题是否合适：是□否□课题能否实现：能□不能□指导教师（签字）年月日选题是否合适：是□否□课题能否实现：能□不能□审题小组组长（签字）年月日摘要本课题的主要目的是设计面向主题的网络爬虫程序，同时需要满足的是具有一定的性能，考虑到网络爬虫的各种需求。网络爬虫应用宽度搜索技术。对url进行分析，去重。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。为了适应不同需求，使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。研究网络爬虫的原理并实现爬虫的相关功能。关键词：网络爬虫；面向主题；多线程ABSTRACTThemainpurposeofthisprojectistodesignsubject-orientedwebcrawlerprocesswhichisalsorequiredtomeetcertainperformance,takingintoaccountthediverseneedsofwebcrawlers.WebCrawlerusesthetechnology.ofBreadth-firstsearch.Webcrawlerusesmulti-threadedtechnology,sothatspiderscrawlcanhavemorepowerfulcapabilities.SetconnectiontimeandreadtimeofthewebconnectionoftheWebcrawler,toavoidunlimitedwaiting.Inordertomeetdifferentneeds,sothatcrawlerscanachievepre-setthemecrawlingaspecifictopic.Researchtheprinciplewebcrawlerandandrealizetherelatedfunctions.Keywords：Webcrawler;subject-oriented;multi-threading天津大学2007届本科生毕业设计（论文）目录第一章概述....................................11.1课题背景.......................................11.2网络爬虫的历史和分类..........................11.2.1网络爬虫的历史..............................11.2.2网络爬虫的分类..............................21.3网络爬虫的发展趋势............................3第二章相关技术背景............................52.1网络爬虫的定义................................52.2网页搜索策略介绍..............................52.2.1广度优先搜索策略............................52.2.2最佳优先搜索策略............................62.3判断相关度算法................................6第三章网络爬虫模型的分析和概要设计............83.1网络爬虫的模型分析............................83.2网络爬虫的搜索策略............................83.3网络爬虫的主题相关度判断......................93.4网络爬虫的概要设计...........................11第四章网络爬虫模型的设计和实现...............144.1网络爬虫总体设计.............................144.2网络爬虫具体设计.............................14天津大学2007届本科生毕业设计（论文）4.2.1爬取网页...................................144.2.2分析网页...................................154.2.3判断相关度.................................164.2.4保存网页信息...............................174.2.5数据库设计和存储...........................174.2.6多线程的实现...............................174.2.7附加功能...................................184.2.8整体流程...................................18第五章测试...................................20第六章总结和展望.............................24天津大学2007届本科生毕业设计（论文）1第一章概述1.1课题背景网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。网络检索功能起于互联网内容爆炸性发展所带来的对内容检索的需求。搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜

网络爬虫的设计与实现

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

煤矿建设工程安全设施竣工预验收表

第八期团讯doc-南京信息工程大学

矿井提升及运输设备选型设计

某公司16949质量管理体系培训材料

清北市场运营策划书 (1)

浮法玻璃产品标准

中国汽车零部件行业的整体分析(1)

47-个人代理人管理办法介绍

现行物业管理服务业制度相关法令解析(1)

邯郸市水利工程管理条例

相关文档

相关搜索