scrapy 的 item 队列把内存挤爆

bwijn · 2025-1-29 18:45:40 · 317 次点击

scrapy 的 spider 抓取了很多 item 然后交给 pipeline, 但是 pipeline 处理的太慢了,我的业务很耗时,但是 spider 还在不停抓取,导致任务积压

我目前打算使用 arq(异步消息框架) spider 抓到的 item 直接扔给 arq,扔之前查看任务队列是否过多,可以暂停发布任务

各位有好的想法吗

举报· 317 次点击
登录 注册 站外分享
2 条回复  
Rang666 小成 2025-1-29 19:09:07
内存不够就放硬盘存着?
CaptainD 小成 2025-1-29 19:30:31
无非就几个方法 1. 减缓 item 发布:例如你的方式,或者降低 spider 速度等 2. 增大缓冲区,例如引入新的队列、持久化 pipeline 等 3. 增大 pipeline 处理速度,并发或者异步等
返回顶部