为什么 LLM 模型不能按语言拆分，英文问题就只用英文语料训练出来的模型、日文问题就只用日文语料训练出来的模型，这样不是可以大幅减少参数量？

dji38838c

太低估别人了。觉得连这么简单的东西都没有尝试过没有什么用的

drymonfidelia

@dji38838c 我知道别人尝试过了，我的问题是为什么没有什么用？

dalaoshu25

除了英文，其他语言没什么信息量吧。特别是汉语语料，全是垃圾。

chingyat

其他语言的语料加起来也不到英语的零头吧

user8341

这样做连基本的翻译功能都没有了。

fcten

楼主可知道语言模型最初的目的是为了翻译…… 其次，这样做并不能大幅减少参数量，道理就和你掌握一门新语言并不需要从 1+1=2 开始学习一样。大量的知识是与语言无关的。再其次，清洗训练数据会花费大量的时间。而且更小的训练集 = 更差的模型。

drymonfidelia

@user8341 LLM 翻译虽然很通顺但不准确，以前用 GPT 翻译经常把意思改了

neteroster

因为模型能在语言间泛化，不仅包括人类语言，也包括编程语言。而且训练多种语言之后可以承担很多跨语言任务。 #7 > LLM 翻译虽然很通顺但不准确，以前用 GPT 翻译经常把意思改了当前 SOTA 模型在常见语言互译上已经可以做到相当高的精度，特别是在上下文充足的情况下，已经不是传统的翻译模型可以企及的了。

windyboy

基本都是英语材料训练的语言翻译只是一个副产品