最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
利用WebCollector采集网站的图片实例
时间:2014-11-08 编辑:简简单单 来源:一聚教程网
例如我们爬取一个美食网站,获取里面所有的图片:
代码如下 | 复制代码 |
import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler; import cn.edu.hfut.dmic.webcollector.model.Page; import cn.edu.hfut.dmic.webcollector.util.FileUtils; import java.io.IOException; import java.util.concurrent.atomic.AtomicInteger; import java.util.regex.Pattern; /** * 用WebCollector爬虫爬取整站图片 */ public class PicCrawler extends BreadthCrawler{ /*用一个整数,不断自增,来作为下载的图片的文件名*/ AtomicInteger id=new AtomicInteger(0); @Override public void visit(Page page) { /*不处理非jpg的网页/文件*/ if(!Pattern.matches(".*jpg$",page.getUrl())){ return; } /*将图片内容保存到文件,page.getContent()获取的是文件的byte数组*/ try { FileUtils.writeFileWithParent("download/"+id.incrementAndGet()+".jpg",page.getContent()); System.out.println("download:"+page.getUrl()); } catch (IOException e) { e.printStackTrace(); } } public static void main(String[] args) throws Exception { PicCrawler crawler=new PicCrawler(); crawler.addSeed("http://www.meishij.net/"); crawler.addRegex("http://.*meishij.net/.*"); crawler.setThreads(50); crawler.start(10); } } |
相关文章
- SpringBoot测试配置属性与web启动环境解析 10-24
- vue中将el-switch值true、false改为number类型的1和0解析 10-24
- Vue中的路由配置项meta使用解读 10-24
- SpringBoot自定义bean绑定解析 10-24
- SpringBoot常用计量与bean属性校验和进制数据转换规则解析 10-24
- 工厂方法在Spring框架中的运用介绍 10-24