网络爬虫的设计与实现

毕业设计（论文）说明书学院应用数学学院专业信息与计算科学年级2011级姓名何丹指导教师熊太松2015年4月19日毕业设计（论文）任务书题目：基于最优化算法和数据分析的歌曲自动收集下载网络爬虫学生姓名何丹学院名称应用数学学院专业信息与计算科学学号2011062014指导教师熊太松职称教授一、原始依据（包括设计或论文的工作基础、研究条件、应用环境、工作目的等。）互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。所以需要一个能基于主题搜索的满足特定需求的网络爬虫。为了解决上述问题，参照成功的网络爬虫模式，对网络爬虫进行研究，从而能够为网络爬虫实现更深入的主题相关性，提供满足特定搜索需求的网络爬虫。二、参考文献[1]Winter。中文搜索引擎技术解密：网络蜘蛛[M]。北京：人民邮电出版社，2004年。[2]Sergey等。TheAnatomyofaLarge-ScaleHypertextualWebSearchEngine[M]。北京：清华大学出版社，1998年。[3]Wisenut。WiseNutSearchEnginewhitepaper[M]。北京：中国电力出版社，2001年。[4]GaryR.WrightW.RichardStevens。TCP-IP协议详解卷3：TCP事务协议，HTTP，NNTP和UNIX域协议[M]。北京：机械工业出版社，2002年1月。[5]罗刚王振东。自己动手写网络爬虫[M]。北京：清华大学出版社，2010年10月。[6]李晓明，闫宏飞，王继民。搜索引擎：原理、技术与系统——华夏英才基金学术文库[M]。北京：科学出版社，2005年04月。[7]贾俊平，何晓群，金勇进。统计学（第五版）。中国人民大学出版社，2012年3月。[8]梅长林，范金城。数据分析方法。高等教育出版社。2005年11月。[9]韩大卫。管理运筹学（第五版）。2006年5月。三、设计（研究）内容和要求（包括设计或研究内容、主要指标与技术参数，并根据课题性质对学生提出具体要求。）本课题的主要目的是设计面向主题的网络爬虫程序，为了适应不同需求，使网络爬虫可以根据预先设定的歌曲类型，实现对特定主题的爬取。研究网络爬虫的原理，并实现爬虫的相关功能，提高爬取高效、准确的性能，要考虑到网络爬虫的各种需求。网络爬虫应用宽度搜索技术。对url进行分析，去重。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出不同风格的歌曲。对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。最终实现的网络爬虫应该能根据设定的主题，从设定的url进行一定深度的搜索，并最终得到需要的数据。指导教师（签字）年月日审题小组组长（签字）年月日本本科毕业论文（设计）开题报告题目基于最优化算法和数据分析的歌曲自动收集下载网络爬虫课题研究的背景与意义：一、国内外相关研究现状：网络爬虫的相关研究从上世纪九十年代就开始了，特别是在数据挖掘、搜索引擎等相关领域应用较多。目前网络爬虫技术已经趋见成熟，网络爬虫是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括Nutch，Larbin，Heritrix。网络爬虫最重要的是网页搜索策略（广度优先和深度优先）和网页分析策略（基于网络拓扑的分析算法和基于网页内容的网页分析算法）。网络爬虫目前已经比较普遍，国内外有众多对网络爬虫的研究成果，大部分的技术难题已经有解决方案。所以本课题的可行性较高。二、课题的来源及意义：互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具，已成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题，一个灵活的爬虫有着无可替代的重要意义。三、课题研究目的：本课题的主要目的是设计面向主题的网络爬虫程序，同时需要满足具有一定的性能，考虑到网络爬虫的各种需求。网络爬虫应用宽度搜索技术。对url进行分析，并进行去重redis。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。为了适应不同需求，使网络爬虫可以根据预先设定的歌曲类型，实现对特定主题的爬取。研究网络爬虫的原理，并实现爬虫的相关功能，提高爬取高效、准确的性能。主要研究思路和方法：一、基本思路：1．收集指定类型的歌曲（比如：流行、古典、摇滚等），则爬虫会根据输入的歌曲类型到各大指定网站进行数据统计,分析出最符合描述的歌曲。2．用最优化算法,根据实际需要设计出尽可能高效快速且有效的网络爬虫算法。3．用统计分析的知识对数据进行整理、分析，搜索出最符合条件的歌曲。4．使用网络爬虫技术下载允许下载的歌曲到服务器上（数据库或者指定目录），在该过程中，需对结果进行去重，并需对于网络时延等的处理。二、最终实现效果：1．最终做成一个自动运行，根据搜索需求可以多线程进行抓取。根据输入的歌曲类型，自动在网上进行下载，并将爬去出的歌曲保存在数据库或者指定目录下。2.具体功能：1根据需要输入歌曲类型，并将其进行保存；2系统自动搜索需要的结果；3分析搜索结果与输入歌曲类型的相关性，通过关键词匹配，只保存相似性高的曲目，即必需不小于设置的阈值；4下载符合要求的歌曲文件，并对爬取的URL进行去重，防止重复爬取，保存到数据库或者指定目录下。三、技术路线：1．针对爬虫的具体功能点：1做一个简单的jsp页面，能输入歌名就可以了。2参考网上网络爬虫开源工具和代码，以及各种网络爬虫相关的书籍、专利等，在windows系统环境下开发，用现成的开具:调用这个插件的方法实现搜索，为了体现最优化，可以一次性创建几个爬虫，使爬虫并发爬取，提高爬虫爬取速度和准确度，甚至可以根据需要，选择最快速的爬虫进行爬取。或者根据需要设计一系列算法（就是代码运行的顺序和逻辑），让爬虫更快、更准确地爬取所需数据。3从搜索到获取到的结果中（一堆中文词）选一个词，需要简单的把搜索结果全部记录下来(统计)，该处用到了所学的统计分析这一专业知识。然后通过关键词匹配（相似度分析），搜索到的关键词和自己输入的不一定一模一样，选择和自己输入最接近的一个（即相似度最高）,记录下来选好的关键词和产生关键词的网址（URL）。4使用java从3中选好的网址上下载，在网页中只保留需要的内容。2．网络爬虫的具体实现：做一个网页，可以输入歌词类型-servlet获取到输入的歌名-调用nutch里面的方法去搜索-拿到搜索返回的一组关键词和每个关键词对应的网址URL（nutch会自动返回回来）-将这些关键词与自己输入的歌曲类型进行相似度的比较，选取出相似度最高的关键词（用代码实现选择，可以将关键词进行hash处理，可以根据实际需要选择距离公式：欧氏距离、曼哈顿距离、明氏距离等）-根据选好的关键词对应的网址（URL），用java的I\O流将.mp3音乐文件下载到数据库或者指定目录下。工作进度安排：1．2月14日-2月28日：完成开题报告，准备爬虫类的相关知识，阅读相关爬虫类的书籍，为毕设做准备，并对毕设做相应的分析，根据毕设的实际需求，浏览网页，实际在网页中对歌曲类型进行搜索，初步完成爬虫的想法。2．3月1日-3月20日:同指导老师进行沟通，初步实现爬虫代码编写，能够让爬虫跑起来，并对爬虫进行相关功能测试，建议爬虫性能。3．3月21日-3月31日：再次与指导老师沟通交流，争取提供提高爬虫的性能，能够优化毕设中的算法,形成毕设初稿，积极备战毕业设计中期报告会。4．4月1日-4月10日：系统设计结束并再次检查系统的可靠性，再次撰写毕设文档，构思毕设答辩等相关事宜，并与指导老师沟通，请其为自己的毕设指导、补充。（以上内容由学生在教师指导下填写）学生签字：何丹2015年2月14日指导教师审核意见签名：年月日摘要本课题的主要目的是设计面向主题的网络爬虫程序，同时需要满足的是具有一定的性能，考虑到网络爬虫的各种需求。网络爬虫应用宽度搜索技术。对url进行分析，去重。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。为了适应不同需求，使网络爬虫可以根据预先设定的歌曲的主题实现对特定主题的爬取。研究网络爬虫的原理并实现爬虫的相关功能。关键词：网络爬虫；面向主题；多线程；数据分析；统计ABSTRACTThemainpurposeofthisprojectistodesignsubject-orientedwebcrawlerprocesswhichisalsorequiredtomeetcertainperformance,takingintoaccountthediverseneedsofwebcrawlers.WebCrawlerusesthetechnology.ofBreadth-firstsearch.Webcrawlerusesmulti-threadedtechnology,sothatspiderscrawlcanhavemorepowerfulcapabilities.SetconnectiontimeandreadtimeofthewebconnectionoftheWebcrawler,toavoidunlimitedwaiting.Inordertomeetdifferentneeds,sothatcrawlerscanachievepre-setthethemeofsongscrawlingaspecifictopic.Researchtheprinciplewebcrawlerandandrealizetherelatedfunctions.Keywords：Webcrawler;subject-oriented;multi-threading；DataAnalysis;Statistics成都信息工程学院本科生毕业设计（论文）目录第一章概述....................................11.1课题背景.......................................11.2网络爬虫的历史和分类..........................11.2.1网络爬虫的历史..............................11.2.2网络爬虫的分类..............................21.3网络爬虫的发展趋势............................3第二章相关技术背景............................52.1网络爬虫的定义................................52.2网页搜索策略介绍..............................52.2.1广度优先搜索策略............................52.2.2最佳优先搜索策略............................62.3判断相关度算法................................6第三章网络爬虫模型的分析和概要设计............83.1网络爬虫的模型分析............................83.2网络爬虫的搜索策略............................83

网络爬虫的设计与实现

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

2Oracle_Enterprise_BI_11g

XXXX江苏省专业技术人员信息化素质考试(职称计算机)模拟题讲解

物业管理实务范例精解(下)

10年9月山东省安装工程计价依据第六册工业管道工程

绿色施工实施情况阶段性总结

丰田改善提案丰田原版改善资料多数汽车公司借鉴引用

焦炉砌筑工序质量管理

第十二章通用公文写作（下）

人力资源管理外包及其风险分析

质量模块二采购质量管理的内容和

相关文档

相关搜索