想做亚马逊爬虫,用国内隧道代理和国外动态数据中心 IP 、动态住宅 IP 进行了测试:
国外动态住宅 IP 最优,但价格最贵;
国外动态数据中心 IP 也可以,但价格也贵,普遍是 8 元/1GB ,这样我的成本是 0.004 元/1page ,成熟竞品售价是 0.001 元/1page ,哪怕是 2 元,我的成本也跟竞品的销售价一样!根本赚不了钱。
还是说我需要考虑整体盈利模式?成熟竞品的收费模式大概是:
1. 基本会员:几十元一个月,可以查询数据,不可以爬取数据。
2. 付费购买流量进行爬取:98 元,可爬 10w 数据,0.001 元/1page ,每天最高可爬 10w 。
对此我的理解是:让用户付费购买爬取,爬取的数据更新到数据库,这部分数据也可以通过会员费来实现一部分盈利。但我感觉数据肯定是要达到一定量才能收费,否则用户开了会员能查的数据不多,就没意义了。所以一开始只能做爬取,所以要想盈利,就只能考虑如何降低流量成本?
也测试了快代理的国内隧道代理,偶尔能爬,昨天下午爬了 1500 页也没事,但是晚上就彻底不行了,各种重定向、响应超时,但是换国外 IP 就没问题。
疑问:
1. 有没有便宜的国外 IP 代理方案呢?
2. 国内 IP 为什么爬不了,用了 Playwright 作为下载中间件也不行,难道国内 IP 容易被亚马逊反爬虫识别?
3. 还是说我应该放弃这个爬虫方案?我看有些竞品是让用户自己电脑本地爬,但这样太慢了!但开发简单点,爬虫还要弄集群,负载均衡,数据量大了感觉数据库也是个问题,这方面都没做过,头大。
爬虫新手,希望有大佬能解解惑,感激不尽! |
|