您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 用python编写网络爬虫
刚刚开了一个《计算机网络》的课,觉得很有用。正好师兄让我练习编写一个能下载网站网页的程序,正好能用上课上的知识了。为了想作一个效率不差的,而下载网页的性能瓶颈是在网络上,所有决定用Python编写代码。刚学python没几天,学习一种语言的最好方法就是写code.下面的是我用的多线程实现的网络爬虫,并用py2exe生成了一个exe,自身觉得py2exe不太好,又不会更好的,只能......这是我这些天的成果。希望有人能提出好的建议,先谢谢了!一共两个文件,一个是toolbox_insight.py,是一个工具文件另一个是test.py,是一个用到toolbox_insight.py中工具的测试文件#FileName:toolbox_insight.pyfromsgmllibimportSGMLParserimportthreadingimporttimeimporturllib2importStringIOimportgzipimportstringimportos#rewriteSGMLParserforstart_aclassBasegeturls(SGMLParser):#这个Basegeturls类作用是分析下载的网页,把网页中的所有链接放在self.url中。defreset(self):self.url=[]SGMLParser.reset(self)defstart_a(self,attrs):href=[vfork,vinattrsifk=='href']ifhref:self.url.extend(href)#forquicklyfindingclassNewlist(list):#这个类其实是一个添加了find方法的LIST。当num变量在LIST中,返回True,当不在LIST中,返回False并把num按二分法插入LIST中deffind(self,num):l=len(self)first=0end=l-1mid=0ifl==0:self.insert(0,num)returnFalsewhilefirstend:mid=(first+end)/2ifnumself[mid]:first=mid+1elifnumself[mid]:end=mid-1else:breakiffirst==end:ifself[first]num:self.insert(first,num)returnFalseelifself[first]num:self.insert(first+1,num)returnFalseelse:returnTrueeliffirstend:self.insert(first,num)returnFalseelse:returnTrue#下面的reptile顾名思义是一个爬虫classreptile(threading.Thread):#Name:是爬虫是名字,queue是任务队列,所有的爬虫共用同一个任务队列#从中取出一个任务项进行运行,每个任务项是一个要下载网页的URL#result:也是一个队列,将下载的网页中包含的URL放入该队列中#inittime:在本程序中没有用,只是一个为了以后扩展用的#downloadway:是下载的网页存放的路径#configfile:是配置文件,存放网页的URL和下载下后的路径#maxnum:每个爬虫有个最大下载量,当下载了这么多网页后,爬虫deaddef__init__(self,Name,queue,result,Flcok,inittime=0.00001,downloadway='D:\\bbs\\',configfile='D:\\bbs\\conf.txt',maxnum=10000):threading.Thread.__init__(self,name=Name)self.queue=queueself.result=resultself.Flcok=Flcokself.inittime=inittimeself.mainway=downloadwayself.configfile=configfileself.num=0#已下载的网页个数self.maxnum=maxnumos.makedirs(downloadway+self.getName())#系统调用:在存放网页的文件夹中创建一个以该爬虫name为名字的文件夹self.way=downloadway+self.getName()+'\\'defrun(self):opener=urllib2.build_opener()#创建一个开启器whileTrue:url=self.queue.get()#从队列中取一个URLifurl==None:#当取得一个None后表示爬虫结束工作,用于外部方便控制爬虫的生命期breakparser=Basegeturls()#创建一个网页分析器request=urllib2.Request(url)#网页请求request.add_header('Accept-encoding','gzip')#下载的方式是gzip压缩后的网页,gzip是大多数服务器支持的一种格式try:#这样可以减轻网络压力page=opener.open(request)#发送请求报文ifpage.code==200:#当请求成功predata=page.read()#下载gzip格式的网页pdata=StringIO.StringIO(predata)#下面6行是实现解压缩gzipper=gzip.GzipFile(fileobj=pdata)try:data=gzipper.read()except(IOError):print'unusedgzip'data=predata#当有的服务器不支持gzip格式,那么下载的就是网页本身try:parser.feed(data)#分析网页except:print'Iamhere'#有的网页分析不了,如整个网页就是一个图片foriteminparser.url:self.result.put(item)#分析后的URL放入队列中way=self.way+str(self.num)+'.html'#下面的是网页的保存,不多说了self.num+=1file=open(way,'w')file.write(data)file.close()self.Flcok.acquire()confile=open(self.configfile,'a')confile.write(way+''+url+'\n')confile.close()self.Flcok.release()page.close()ifself.num=self.maxnum:#达到最大量后退出breakexcept:print'enderror'#和爬虫一样是个线程类,作用是将爬虫中的result中存入的URL加以处理。只要同一个服务器的网页classproinsight(threading.Thread):def__init__(self,queue,list,homepage,inqueue):threading.Thread.__init__(self)self.queue=queue#和爬虫中的result队列是同一个self.list=list#是上面Newlist的对象self.homepage=homepage#主页self.inqueue=inqueue#处理完后的URL的去处defrun(self):length=len(self.homepage)whileTrue:item=self.queue.get()ifitem==None:breakifitem[0:4]=='\r\n':item=item[4:]ifitem[-1]=='/':item=item[:-1]iflen(item)=len('http://')anditem[0:7]=='http://':iflen(item)=lengthanditem[0:length]==self.homepage:ifself.list.find(item)==False:self.inqueue.put(item)elifitem[0:5]=='/java'oritem[0:4]=='java':passelse:ifitem[0]!='/':item='/'+itemitem=self.homepage+itemifself.list.find(item)==False:self.inqueue.put(item)下面的是一个主函数过程我下载的网站是:testfromtoolbox_insightimport*fromQueueimportQueueimportthreadingimportsysnum=int(raw_input('Enterthenumberofthread:'))pnum=int(raw_input('Enterthenumberofdownloadpages:'))mainpage=str(raw_input('Themainpage:'))startpage=str(raw_input('Startpage:'))queue=Queue()key=Queue()inqueue=Queue()list=Newlist()thlist=[]Flock=threading.RLock()foriinrange(num):th=reptile('th'+str(i),queue,key,Flock)thlist.append(th)pro=proinsight(key,list,mainpage,inqueue)pro.start()foriinthlist:i.start()queue.put(startpage)foriinrange(pnum):queue.put(inqueue.get())foriinrange(num):queue.put(None)个人觉得用wxpython来实现用户界面和用数据库知识查找URL是更好的扩展方向原文地址:
本文标题:用python编写网络爬虫
链接地址:https://www.777doc.com/doc-4583621 .html