最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
scrapy爬虫自动爬取的实例
时间:2016-08-12 编辑:简简单单 来源:一聚教程网
Spider爬取过程
以初始的URL初始化Request,并设置回调函数。当该request下载完毕并返回时,将生成response,并作为参数传递给该回调函数。
spider中初始的request是通过调用start_requests()来获取的。start_request()读取start_urls中的URL,并以parse为回调函数生成Request。
在回调函数内分析返回的(网页)内容,返回 Item 对象或者 Request 或者一个包括二者的可迭代容器。返回的Request对象之后会经过Scrapy处理,下载相应的内容并调用设置的callback函数(函数可相同)。
在回调函数内,您可以使用选择器(Selector、BeautifulSoup、lxml等)来分析网页内容,并根据分析的数据生成item。
最后,由spider返回的item将被存到数据库(由某些Item Pipeline处理)或使用 Feed exports存入到文件中。
Spider样例
代码如下 | 复制代码 |
import scrapy class MySpider(scrapy.Spider): def parse(self, response): for url in response.xpath('//a/@href').extract(): |
CrawlSpider样例
代码如下 | 复制代码 |
import scrapy |
-
上一个: PHP对象注入的实例分析
相关文章
- ecshop自动分成二次开发实例 05-29
- Python实现代码行数自动统计实例 01-15
- PHP导出数据超时的优化建议解读 10-31
- PHP之mysql位运算解析 10-31
- Laravel实现登录跳转功能解析 10-31
- php双向队列解读 10-31