假如我扒光了 XXX 网站的内容……会怎么样？

文中的 XXX ，可以替换为任何一家网站。

首先假设：
1. XXX 是由一家中国大陆地区的商业公司建设和运营。——注意这里有两个重点，运营方是追求利润的公司，而且是中国大陆地区的公司（比如世纪佳缘那种）
2. 根据 XXX 的服务条款，XXX 用户发表的内容的版权均归 XXX 所有
3. XXX 有 robots.txt ，禁止爬虫
4. XXX 有反爬虫机制，比如限制单个 IP 的访问频率、验证码、滑块

然后假设，我扒光 XXX 的手段包括且不限于：
1. 伪造浏览器标识，或者直接使用无窗口浏览器模拟人类真实操作
2. 变换 IP 地址
3. 通过技术手段模拟人类真实操作去突破验证码、滑块等反爬虫机制

最后假设，我拿到 XXX 的全部内容后，用于下面的目的：
1. 训练深度学习语言模型，模型可能开源或闭源，训练目的可能是技术研究或者商业应用
2. 语言模型推理的外挂知识库，XXX 的内容可能直接原文插入到知识库，也可能经过清洗、分割、增强、重新合成后插入到知识库。——注意这里两个使用方式是有区别的，一个用原文，一个非原文

那么，会怎么样？

wclebb

参考纽约时报告 OpenAI 。

blackeeper

放心吧，只要你用于商业行为，严重影响到他，可以抓到你的。
XXX 的内容是有指纹标记的，不管你怎么清洗处理，总会有漏网之鱼。
找到一处标记，就可以锁定了

opengps

凡是擦边的，无论做不做，都不要拿出来公开说

Greendays

首先这个网站得发现你的违法行为。

falcon05

现在的各种大模型就是最大的爬虫，网站早就被扒了不知多少次了。

coderluan

那么你就是把来源删了的 new bing.

darkengine

2. 根据 XXX 的服务条款，XXX 用户发表的内容的版权均归 XXX 所有
3. XXX 有 robots.txt ，禁止爬虫
------

有了这两条，就看 xxx 公司能不能发现你爬数据，以及想不想搞你了。

esee

🌚大部分公司并不是只靠这个软件信息系统挣钱，真正支撑起来的是后面的业务团队，这个业务团队利用这些信息才能挣到钱，少了一方都没啥用。大部分程序员都会有一种错觉，把对方的功能或者网站或者资料复制一份过来，也能复刻出一个一样的挣钱模式

summerwar

我不觉得国内哪个网站的资料值得，当然，你获得了一堆资料，但是宣传的时候如果用了这家网站的资料作为噱头，而他们查完发现你并不在付费用户之中，那么你就有了一次难得的机会，去解释获取资料的合理途径。