请教爬虫代理方案,成本太高了!

callmejoejoe · 2024-9-29 11:05:47 · 67 次点击
想做亚马逊爬虫,用国内隧道代理和国外动态数据中心 IP 、动态住宅 IP 进行了测试:
国外动态住宅 IP 最优,但价格最贵;
国外动态数据中心 IP 也可以,但价格也贵,普遍是 8 元/1GB ,这样我的成本是 0.004 元/1page ,成熟竞品售价是 0.001 元/1page ,哪怕是 2 元,我的成本也跟竞品的销售价一样!根本赚不了钱。

还是说我需要考虑整体盈利模式?成熟竞品的收费模式大概是:
1. 基本会员:几十元一个月,可以查询数据,不可以爬取数据。
2. 付费购买流量进行爬取:98 元,可爬 10w 数据,0.001 元/1page ,每天最高可爬 10w 。

对此我的理解是:让用户付费购买爬取,爬取的数据更新到数据库,这部分数据也可以通过会员费来实现一部分盈利。但我感觉数据肯定是要达到一定量才能收费,否则用户开了会员能查的数据不多,就没意义了。所以一开始只能做爬取,所以要想盈利,就只能考虑如何降低流量成本?
也测试了快代理的国内隧道代理,偶尔能爬,昨天下午爬了 1500 页也没事,但是晚上就彻底不行了,各种重定向、响应超时,但是换国外 IP 就没问题。

疑问:
1. 有没有便宜的国外 IP 代理方案呢?
2. 国内 IP 为什么爬不了,用了 Playwright 作为下载中间件也不行,难道国内 IP 容易被亚马逊反爬虫识别?
3. 还是说我应该放弃这个爬虫方案?我看有些竞品是让用户自己电脑本地爬,但这样太慢了!但开发简单点,爬虫还要弄集群,负载均衡,数据量大了感觉数据库也是个问题,这方面都没做过,头大。

爬虫新手,希望有大佬能解解惑,感激不尽!
举报· 67 次点击
登录 注册 站外分享
6 条回复  
viking602 小成 2024-9-29 11:15:36
我们两套方案 一套是用机场 后端不断自动切换 IP 还有一套就是买数据中心代理 买了很多家 然后做负载均衡轮训
MFWT 小成 2024-9-29 11:19:44
国内 IP 毕竟还是会涉及到过墙问题,卡顿慢很正常
做大的那些主要还是靠量来堆,以及提高代理 IP 重用率,用各种来源的 IP (甚至有不光彩的手段,比如盗用家宽),等等
qsnow6 小成 2024-9-29 11:23:11
2 楼说的对,业内大玩家基本都是通过肉鸡降成本的,这不是常规技术手段能解决的问题。
yunlongV 初学 2024-9-29 12:48:04
一般动态住宅 IP 都有无限制流量套餐,大概$200 一天,有并发数和总带宽限制。按照流量买的越多越便宜,一般在$0.8/gb 左右,还是推荐买动态住宅 IP 。
laiyibeimeishi 小成 2024-9-29 12:57:23
看看 ipv6 呢?
zqqzqq 小成 2024-9-29 13:06:06
亮数据价格 https://get.brightdata.com/log
![亮数据]( https://pic4.zhimg.com/f-63a556775c93a8bec3e818e3b859c0e1_r.jpg "亮数据")
返回顶部