Python爬虫构建随机请求头headers

《Python爬虫构建随机请求头headers》

简介

通过User-Agent构建请求头headers能够将爬虫伪装,但是有的网站会有反爬技术。会去检查请求头,进而封掉ip地址。所以一个稍微不错的方法就是使用不用的User-Agent构建请求头,在每次提交网站请求的时候,使用随机请求头迷惑对方。

构造随机请求头

一种比较笨的方法就是去搜集各种User-Agent构建请求头,写一个随机函数,每次挑选一个User-Agent。既然这么繁琐的工作,程序员肯定看不下去呀,毕竟人生苦短。于是就诞生了一个fake_useragent的库,专门用于python爬虫伪装。

首先下载该库:

通过导入该库,查看是否安装成功:

接下来,我们输入以下代码:

结果如下:

首先我们要从fake_useragent库中导入UserAgent(),然后调用它的random就可以获得随机的UserAgent。除此之外我们还可以获得指定浏览器类型的UserAgent。代码如下:

结果为:

总结

本文介绍了一种构建随机请求头headers的方式来伪装我们的爬虫程序,希望对大家有用。

点赞
  1. 阿佩说道:

    你好,请问csdn的博文采用了GZIP压缩+chunked传输方式,使用request读取下来存盘发现只能解密前几个字节是怎么回事?

    1. admin说道:

      header文件很重要,不同网站的构建方式不一样,建议使用fiddler等工具抓包测试

发表评论

邮箱地址不会被公开。 必填项已用*标注

18 − 6 =