Python爬虫构建随机请求头headers

《Python爬虫构建随机请求头headers》

简介

通过User-Agent构建请求头headers能够将爬虫伪装,但是有的网站会有反爬技术。会去检查请求头,进而封掉ip地址。所以一个稍微不错的方法就是使用不用的User-Agent构建请求头,在每次提交网站请求的时候,使用随机请求头迷惑对方。

构造随机请求头

一种比较笨的方法就是去搜集各种User-Agent构建请求头,写一个随机函数,每次挑选一个User-Agent。既然这么繁琐的工作,程序员肯定看不下去呀,毕竟人生苦短。于是就诞生了一个fake_useragent的库,专门用于python爬虫伪装。

首先下载该库:

通过导入该库,查看是否安装成功:

接下来,我们输入以下代码:

结果如下:

首先我们要从fake_useragent库中导入UserAgent(),然后调用它的random就可以获得随机的UserAgent。除此之外我们还可以获得指定浏览器类型的UserAgent。代码如下:

结果为:

总结

本文介绍了一种构建随机请求头headers的方式来伪装我们的爬虫程序,希望对大家有用。

点赞
  1. Seymour说道:

    Hi there! Such a wonderful short article, thanks!

  2. Fantastic goods from you, man. I have understand your
    stuff previous to and you're just too wonderful.

    I really like what you have acquired here, certainly like what you're stating and the way in which
    you say it. You make it entertaining and you still care for to keep it
    wise. I can't wait to read far more from you.
    This is really a great web site.

  3. I am sure this piece of writing has touched all the internet users, its really
    really pleasant article on building up new website.

  4. 阿佩说道:

    你好,请问csdn的博文采用了GZIP压缩+chunked传输方式,使用request读取下来存盘发现只能解密前几个字节是怎么回事?

    1. admin说道:

      header文件很重要,不同网站的构建方式不一样,建议使用fiddler等工具抓包测试

发表评论

电子邮件地址不会被公开。 必填项已用*标注

15 + 2 =