设为首页
收藏本站
开启辅助访问
全部
问与答
创意
技术
酷工作
生活
交易
节点
飞墙
Follow
明白贴
工算小助手
登录
注册
飞社-令人惊奇的创意工作者社区-
›
首页
›
程序员
›
为什么 LLM 模型不能按语言拆分,英文问题就只用英文语 ...
FSHEX=FIND+SHARE+EXPRESS
飞社-令人惊奇的创意工作者社区- 是一个关于发现分享表达的地方
现在登录
没有账号?
立即注册
推荐主题
›
关于根据生辰八字取名字被F友说胡说八道这
›
别再神化 VS Code 了,现在的它臃肿得像个
›
有没有一种“把私钥关进时间胶囊”的工具?
›
千问的这次崩了,会属于事故吗?
›
[吐槽] 看着 Claude 4.6 和 GPT-5.3 神仙打
今日热议主题
你们有喜爱的音乐风格吗?你们上次静心只听
🔥《内购限免》👍一个美区超 2.8K 四星好评
稳钱 01 丨四笔钱搞懂资产配置
微信利用垄断地位作恶
做了个高质量 AI 视频生成: Seedance2.0,
[ipidea 动态 ip] ipidea 怎么不能用了?
出 无限 0 刀 1 刀虚拟卡 顶级卡头
[开源] Claude Code 多账号切换的 TUI
2026 微信防撤回方案求推荐
受不了 Openclaw Bug 太多,手搓了一个新 B
显示全部
|
最新评论
16 条回复
·
1891 次点击
11#
user8341
初学
2025-2-1 21:40:13
@windyboy 你这是自己的猜测,还是实际参与了,还是有确切的数据? 据我所知 24 年 5 月发布的 DeepSeek-V2 的训练数据中文比英文还多 12%
12#
fun201108
初学
2025-2-1 21:58:14
从使用角度来看,与语言无关,加“翻译”两个字就能相同问题,英文问英文答,英文问中文答,中文问中文答,中文问英文答
13#
windyboy
小成
2025-2-1 22:38:55
@user8341 deepseek 不是用别人的模型来训练的吗?
14#
TimePPT
小成
2025-2-1 22:40:31
有研究表明,预训练时使用多语言语料是有助于智能提升,且多语言在底层是 Align 的。
15#
daweii
小成
2025-2-1 23:01:59
一个特别有意思的事情是人类不同的语言的结构都是特别相似的,特别是名词。毕竟我们都生活在同一个地球上,看着同一个太阳。 一个更有意思的应用就是之前的无对齐语料翻译。方法就是比如说用中文的语料训练一个模型,然后用英语训练一个模型,然后用其中的阿拉伯数字 1 ,2 ,3……9 建立两个语言模型的联系。 话说回来,现在基本上都是英语数据为主,其他数据都只是个添头。但是一个添头得数据就能多让模型处理一个语言,所以说对训练来说往往是利大于弊。
16#
cnt2ex
小成
2025-2-1 23:33:26
因为 LLM 的意思是 LARGE language model ,不仅仅是 language model 。突出的就是要大模型,大数据集。 弄成小模型小数据集效果反而不会那么好。
17#
yoghurtguy
初学
2025-2-1 23:58:45
翻译只占参数量的一小部分,只需要告诉他苹果是 Apple ,不需要再用中文告诉他苹果是圆圆的,通常红色的,上面有个把的水果
1
2
/ 2 页
浏览过的版块
生活
问与答
站长
酷工作
返回顶部