一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

python爬虫请求头使用代码示例

时间:2020-12-01 编辑:袖梨 来源:一聚教程网

本篇文章小编给大家分享一下python爬虫请求头使用代码示例,文章代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看。

爬虫请求头

网页获取:

通过urlopen来进行获取

requset.urlopen(url,data,timeout)

第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。

第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

第一个参数URL是必须要加入的,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面

from urllib.request import urlopen

url = "https://www.baidu.com/"
respons = urlopen(url)#最简单的爬取情况这样爬取大部分网页无法爬取成功

response对象:

response.read()

read()方法就是读取文件里的全部内容,返回bytes类型

print(type(respons.read()))#结果为bytes类型所以需要进行转码
print(type(respons.read().decode()))#通过decode转码结果为str

response.getcode()

返回 HTTP的响应码,成功返回200,4服务器页面出错,5服务器问题

response.geturl()

返回 返回实际数据的实际URL,防止重定向问题

response.info()

返回 服务器响应的HTTP报头

Request对象

Request对象,由于urlopen参数可以传入一个request请求(可以理解成为再加一步封装的功能)因为在构建请求时还需要加入好多内容,通过构建一个request,服务器响应请求得到应答,这样显得逻辑上清晰明确

from urllib.request import urlopen,Request
from fake_useragent import UserAgent#这个包可以随机生成User-Agent

url = "https://www.baidu.com/"
headers = {"User-Agent":UserAgent().firefox}#生成火狐的
request = Request(url,headers=headers)
response = urlopen(request)

a=response.read().decode()

Get请求

浏览器通过GET方法发出请求

爬虫主要通过get再url中加入请求的参数,由于中文的需要转码通过

Urllib.parse.urlencode() 针对多个参数进行转码操作输入格式为字典类型

Urllib.parse.quote() 针对单个字符串进行转码操作

Str格式.format( ) 用于拼接字符串

post请求

一般在需要登录的地方用的比较多

需要在request请求中加如一个data用来传入参数

参数的形式要以字典格式通过urllib.parse.urlencode()进行转换成字符串形式

再通过encode()函数对字符串进行转码(默认值就可以)

发送请求/响应header头的含义

Ajax请求

用于提取动态的页面 网页数据根据拖动进行显示

通过浏览器工具箱,查找包的信息,找到url的规律进行爬取

如果无法知道要循环多少次则规定一个死循环,爬取页面为空时停止循环

也可以通过改变url一次性输出更多的网页信息(只要服务器允许)

https请求

因为在有些浏览器中存在很多证书所以在大部分网页爬取的时候不用改变证书或者添加证书但有些自己写证书的网站需要进行这一步操作

https请求=在http上加ssl,http请求是明文直接可以看见,为了安全要加上ssl

可以选择忽略证书进行爬取 context = ssl._create_unverified_context()

热门栏目