Scrapy爬虫文件批量运行的实现

脚本专栏 2025/1/23 佚名

3 2 1

圆月山庄资源网 Design By www.vgjia.com

Scrapy批量运行爬虫文件的两种方法：

1、使用CrawProcess实现

https://doc.scrapy.org/en/latest/topics/practices.html

2、修改craw源码+自定义命令的方式实现

（1）我们打开scrapy.commands.crawl.py 文件可以看到：

 def run(self, args, opts):
    if len(args) < 1:
      raise UsageError()
    elif len(args) > 1:
      raise UsageError("running 'scrapy crawl' with more than one spider is no longer supported")
    spname = args[0]

    self.crawler_process.crawl(spname, **opts.spargs)
    self.crawler_process.start()

这是crawl.py 文件中的run() 方法，在此可以指定运行哪个爬虫，要运行所有的爬虫，则需要更改这个方法。

run() 方法中通过crawler_process.crawl(spname, **opts.spargs) 实现了爬虫文件的运行，spname代表爬虫名。要运行多个爬虫文件，首先要获取所有的爬虫文件，可以通过crawler_process.spider_loader.list() 实现。

（2）实现过程：

a、在spider目录的同级目录下创建存放源代码的文件夹mycmd，并在该目录下创建文件mycrawl.py；

b、将crawl.py 中的代码复制到mycrawl.py 文件中，然后进行修改：

#修改后的run() 方法
  def run(self, args, opts):
    #获取爬虫列表
    spd_loader_list = self.crawler_process.spider_loader.list()
    #遍历各爬虫
    for spname in spd_loader_list or args:
      self.crawler_process.crawl(spname, **opts.spargs)
      print("此时启动的爬虫："+spname)
    self.crawler_process.start()

同时可以修改：

 def short_desc(self):
    return "Run all spider"

c、在mycmd文件夹下添加一个初始化文件__init__.py，在项目配置文件（setting.py）中添加格式为“COMMANDS_MODULES='项目核心目录.自定义命令源码目录'”的配置；

例如：COMMANDS_MODULE = 'firstpjt.mycmd'

随后通过命令“scrapy -h”，可以查看到我们添加的命令mycrawl

这样，我们就可以同时启动多个爬虫文件了，使用命令：

scrapy mycrawl --nolog

Scrapy,批量运行

标签：

Scrapy,批量运行

圆月山庄资源网 Design By www.vgjia.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

圆月山庄资源网 Design By www.vgjia.com

评论“Scrapy爬虫文件批量运行的实现”

暂无评论...

P70系列延期，华为新旗舰将在下月发布

3月20日消息，近期博主@数码闲聊站透露，原定三月份发布的华为新旗舰P70系列延期发布，预计4月份上市。

而博主@定焦数码爆料，华为的P70系列在定位上已经超过了Mate60，成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢？
根据目前爆料的消息来看，华为P70系列将推出三个版本，其中P70和P70 Pro采用了三角形的摄像头模组设计，而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智，但辨识度绝对拉满。

更新日志

2025年01月23日

Scrapy爬虫文件批量运行的实现

Scrapy,批量运行

python实现感知机模型的示例

python 实现关联规则算法Apriori的示例

评论“Scrapy爬虫文件批量运行的实现”

P70系列延期，华为新旗舰将在下月发布

更新日志

友情链接