Scrapy 断点续爬

joker2026 · 2024-9-18 12:56:15 · 23 次点击
使用 scrapy 框架爬一些数据,大概上千万,但是是不是的会出现问题,导致中断,不知道有没有什么办法能够实现断点续爬。爬的类型就是典型的新闻列表,然后进入详情页抓取新闻内容。

感谢
举报· 23 次点击
登录 注册 站外分享
2 条回复  
Phant0m 小成 2024-9-18 14:04:58
Jobs: pausing and resuming crawls
https://docs.scrapy.org/en/latest/topics/jobs.html
NoOneNoBody 小成 2024-9-18 13:47:24
你没有记录已经爬过的 link 么?重启任务得到 link 的时候去掉爬过的就是了
返回顶部