python爬虫中的url下载器用法详解

脚本专栏 2025/1/23 佚名

3 2 1

圆月山庄资源网 Design By www.vgjia.com

前期的入库筛选工作已经由url管理器完成了，整理的工作自然要由url下载器接手。当我们需要爬取的数据已经去重后，下载器的主要任务的是这些数据下载下来。所以它的使用也并不复杂，不过需要借助到我们之前所学过的一个库进行操作，相信之前的基础大家都学的很牢固。下面小编就来为大家介绍url下载器及其使用的方法。

下载器的作用就是接受URL管理器传递给它的一个url，然后把该网页的内容下载下来。python自带有urllib和urllib2等库（这两个库在python3中合并为urllib），它们的作用就是获取指定的网页内容。不过，在这里我们要使用一个更加简洁好用而且功能更加强大的模块：Requests。

Requests并非python自带模块，需要安装。关于其具体使用方法请查看以往文章，在此不多做介绍。

下载器接受一个url作为参数，返回值为下载到的网页内容（格式为str）。下面就是一个简单的下载器，其中只有一个简单的函数download()：

'''
-----------------------------------------------------------------
HtmlDownloader
'''
class HtmlDownloader(object):
  def download(self, url):
    print "start download"
    if url is None:
      return None
      print "url is None"
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'
    headers = {'User-Agent':user_agent}
    print "start requests"
    r = requests.get(url, headers=headers)
    #判断响应状态
    if r.status_code == 200:
      r.encoding = 'utf-8'
      print "该页面下载成功！{}".format(url)
      return r.text
    else:
      print "该页面下载失败！{}".format(url)
    return None

在requests请求中设置User-Agent的目的是伪装成浏览器，这是一只优秀的爬虫应该有的觉悟。

有些小伙伴已经猜出来了，requests库和我们的爬取数据密不可分，搭配着url下载器我们就可以成功抓取想要的数据了

知识点扩展：

url下载器

URL下载器应该包含两个仓库，分别存放没有爬取过的链接和已经爬取过的链接。
应该有一些函数负责往上述两个仓库里添加链接
应该有一个函数负责从新url仓库中随机取出一条链接以便下载器爬取
URL下载器应该能识别重复的链接，已经爬取过的链接就不需要放进仓库了

python爬虫,url,下载器

标签：

python爬虫,url,下载器

圆月山庄资源网 Design By www.vgjia.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

圆月山庄资源网 Design By www.vgjia.com

评论“python爬虫中的url下载器用法详解”

暂无评论...

P70系列延期，华为新旗舰将在下月发布

3月20日消息，近期博主@数码闲聊站透露，原定三月份发布的华为新旗舰P70系列延期发布，预计4月份上市。

而博主@定焦数码爆料，华为的P70系列在定位上已经超过了Mate60，成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢？
根据目前爆料的消息来看，华为P70系列将推出三个版本，其中P70和P70 Pro采用了三角形的摄像头模组设计，而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智，但辨识度绝对拉满。

更新日志

2025年01月23日

python爬虫中的url下载器用法详解

python爬虫,url,下载器

python爬虫中抓取指数的实例讲解

OpenCV灰度化之后图片为绿色的解决

评论“python爬虫中的url下载器用法详解”

P70系列延期，华为新旗舰将在下月发布

更新日志

友情链接