之前写了一个小玩具,放到了公网上面,平时几乎没什么人访问,最近流量突增,并且 来来回回就是那几个 ip 。

而且这几个 ip 直接访问的是接口,没有通过页面访问,大概是 50-60 个不同的 ip ,然后间隔一段时间访问(不是短时间内 猛刷接口),把 50-60ip 封了,又换了另外一批

而且间隔几分钟,突然请求一波,间隔几分钟,突然请求一波。看起来像是肉鸡 ip ,大家对于这种爬虫,有没有什么好的手段可以防止的?

我的初步想法是,每个 ip 一天之内访问 xx 此,用一个 map 或者 redis 记录一下,超过多少次就封禁,但怕容易封错,咨询一下大家的意见

```json
1: ip: 16.163.109.41
2: ip: 18.162.143.19
3: ip: 16.162.55.213
4: ip: 18.166.70.237
5: ip: 43.198.17.104
6: ip: 18.166.67.209
7: ip: 18.162.191.172
8: ip: 18.162.133.58
9: ip: 16.162.255.138
10: ip: 16.162.160.93
```
举报· 68 次点击
登录 注册 站外分享
5 条回复  
summerwar 小成 2024-9-12 19:46:28
直接访问接口,没有通过页面的,直接查 referer ,如果为空,则直接返回随机假数据
dilu 小成 2024-9-12 20:32:39
最好的办法就是#3 说的 随机塞一些假数据进去,其他的所有封禁手段只是不断的提高爬虫门槛,反而让对方伪装的更无懈可击

还有一种方法就是如果你不在意你的数据,直接把数据打包提供一个下载链接 对方就不爬了
AliCN 小成 2024-9-12 20:35:18
1.停接口。
2.接口加认证。
falcon05 初学 2024-9-12 20:50:00
加一层 cloudflare CDN ,请求头有个机器人评分,直接拒绝掉分数低的请求,还不行就启动 cloudflare 盾。
Rocketer 小成 2024-9-12 20:51:34
蜜罐比封禁好使,可疑请求就给他假数据,无规律的那种。这有两个好处——

对误伤的真人来说,内容还是有的,只是看着很奇怪,他会换一个继续看。

对真的爬虫来说,这就是汤里的老鼠屎,他除非上真人逐条看,否则识别不出哪些是假数据,导致整个采集结果不敢用。
返回顶部