如何向scrapy中的spider传递参数的几种方法

脚本专栏 2025/1/23 佚名

3 2 1

圆月山庄资源网 Design By www.vgjia.com

有时需要根据项目的实际需求向spider传递参数以控制spider的行为，比如说，根据用户提交的url来控制spider爬取的网站。在这种情况下，可以使用两种方法向spider传递参数。

第一种方法，在命令行用crawl控制spider爬取的时候，加上-a选项，例如：

scrapy crawl myspider -a category=electronics

然后在spider里这样写：

import scrapy

class MySpider(scrapy.Spider):
  name = 'myspider'

  def __init__(self, category=None, *args, **kwargs):
    super(MySpider, self).__init__(*args, **kwargs)
    self.start_urls = ['http://www.example.com/categories/%s' % category]
    # ...

也就是在spider的构造函数里加上带入的参数即可。

第二种方法，在用scrapyd控制spider的时候，可以向schedule.json发送-d选项加入参数，同样的，也需要在spider的构造函数里如上写法。例如：

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider -d setting=DOWNLOAD_DELAY=2 -d arg1=val1

另外，如果需要在scrapy发出的request上加入参数，可以使用request的meta参数，然后就可以相应的在返回的respose对象中获得传入的参数。这在某些情况下相当有用，比如说需要确定这个url是哪个用户请求爬取的，可以先用上面两种方法之一将信息传递给spider，spider就可以把这个信息加入到request中，然后在相应的reponse中就可以将这个信息与从url的页面中获得的信息一起存入数据库。例如：

def parse_page1(self, response):
  item = MyItem()
  item['main_url'] = response.url
  request = scrapy.Request("http://www.example.com/some_page.html",
               callback=self.parse_page2)
  request.meta['item'] = item
  return request

def parse_page2(self, response):
  item = response.meta['item']
  item['other_url'] = response.url
  return item

scrapy,spider传递参数,scrapy,spider传值

标签：

scrapy,spider传递参数,scrapy,spider传值

圆月山庄资源网 Design By www.vgjia.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

圆月山庄资源网 Design By www.vgjia.com

评论“如何向scrapy中的spider传递参数的几种方法”

暂无评论...

P70系列延期，华为新旗舰将在下月发布

3月20日消息，近期博主@数码闲聊站透露，原定三月份发布的华为新旗舰P70系列延期发布，预计4月份上市。

而博主@定焦数码爆料，华为的P70系列在定位上已经超过了Mate60，成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢？
根据目前爆料的消息来看，华为P70系列将推出三个版本，其中P70和P70 Pro采用了三角形的摄像头模组设计，而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智，但辨识度绝对拉满。

更新日志

2025年01月23日

如何向scrapy中的spider传递参数的几种方法

scrapy,spider传递参数,scrapy,spider传值

让你相见恨晚的十个Python骚操作

python搜索算法原理及实例讲解

评论“如何向scrapy中的spider传递参数的几种方法”

P70系列延期，华为新旗舰将在下月发布

更新日志

友情链接