在日常生活中我们使用的大模型,无论是国内还是国外,openai,gemini,qwen 这些大模型,都是不支持色情内容,种族内容,歧视内容的(这里说的是常规模式,不讨论越狱攻击).
我查阅了相关资料发现这个限制有绝大多数因素是在做模型训练的时候,主动去清洗了数据,筛选了数据,专项训练了数据,只有一少部分是为了补漏洞做的前置过滤.
也就是说从数据集训练这个阶段就已经制定了大模型的基础世界观.原生就带有一定的伦理道德限制.
那么最近发现了几个 ai 色情聊天站.自定义场景,角色卡这种,我能够理解这种场景和角色卡是 system prompt 的预设,但是如何才能做到完全不考虑伦理问题的呢?是专门做了专项训练吗?但是做这种训练的话,必然要掺杂基础的训练内容的,这些内容不可能做到完全筛选出伦理合规性的东西的.那么他们是怎么做到完全可以无视的呢?
以及他们一些小公司不可能说能够搞到那么多张卡,专门去做这种训练吧?感觉哪里都不合理,是我认知浅薄.
是微调?(查询发现不可行),还是说二次训练?(没找到类似内容),还是说某些强制的 prompt 的注入?
麻烦各位懂大模型训练的大佬解答一二
|