您好,欢迎访问三七文档
CompanyLOGO网络爬虫原理与实战23133美女图片抓取实例如何解析HTML网络爬虫基本原理3网络爬虫基本原理请求资源HttpPost/Get解析HTMLJsoup获取资源图片.下个资源下载资源HttpClient4Java中的JQuery=JSoupgetElementById(Stringid)用id获得元素getElementsByTag(Stringtag)用标签获得元素getElementsByClass(StringclassName)用class获得元素getElementsByAttribute(Stringkey)用属性获得元素用下面方法获得元素的数据:attr(Stringkey)获得元素的数据attr(Stringkey,Stringvalue)t设置元素数据attributes()获得所以属性id(),className()classNames()获得idclass得值text()获得文本值text(Stringvalue)设置文本值html()获取htmlhtml(Stringvalue)设置htmlouterHtml()获得内部htmltagname操作tagns|tagns或tag#id用id获得元素.class用class获得元素[attribute]属性获得元素[^attr]:以attr开头的属性[attr=value]属性值为value[attr^=value],[attr$=value],[attr*=value][attr~=regex]正则*:所以的标签选择组合el#idel和id定位el.classe1和class定位el[attr]e1和属性定位ancestorchildancestor下面的childJsoup官方网站相关学习资://://hi.baidu.com/neverend06/blog/item/1e9acb25114cf3144d088df2.html5简单的测试另存个简单的HTML做测试Fileinput=newFile(/example.html);Documentdoc=Jsoup.parse(input,UTF-8);//取得class=big的img对象Elementselements=doc.select(img[class=big]);//取得class=big的img对象elements=doc.getElementsByClass(big);//取得ID=img001的对象Elementelement=doc.getElementById(img001);6让我们来抓取一个帖子中的几张图片发送请求返回帖子HTML2.分析帖子HTML中的图片链接3.通过HttpClient取得图片输出流4.保存输出流为图片7发送请求返回论坛HTML2.分析论坛HTML中的每个帖子3.取得帖子链接,发送请求返回帖子HTML5.分析帖子HTML中有哪些图片.6.取得图片链接,通过HttpClient取得图片输出流7.保存输出流为图片8如何提升抓取速度1.多线程并发下载图片,你带宽够吗?2.分析XML和下载图片分开处理。公司网址:成都天和软件技术有限公司
本文标题:网络爬虫原理与实战
链接地址:https://www.777doc.com/doc-5373219 .html