DeepSeek V3

houshuu · 2024-12-27 01:40:07 · 1150 次点击

https://github.com/deepseek-ai/DeepSeek-V3

看了下 Code 榜单,性能提升挺明显。

像 Aider 、Polyglot 这类任务,和日常用自然语言修改的准确率体感是比较接近的。如果不刻意刷榜,感觉至少接近 3.5 Sonnet 的水平了。

官方 API 价格虽然涨了几倍,但相比 OpenAI 和 Claude 依然是白菜价,输出 100 万 token 就 1 刀出头。

已经把 avante.nvim 的默认模型从 Sonnet 换到 V3 了,接下来几天打算实际测试下提问和修改的准确率。 之前尝试用 2.5 平替但是准确率和 Sonnet 差的还是挺远的,希望这次效果不会失望。

举报· 1150 次点击
登录 注册 站外分享
10 条回复  
mumbler 小成 2024-12-27 03:10:59
性价比最高的还是 gemini 2.0 flash,免费 1500qpd, 100 万上下文,多模态,能力和 gpt4o 一个级别, 收费也才 1 元人民币/M
hbdh5 初学 2024-12-27 04:36:43
没人关注训练部分吗?看看原始论文,推理部分的优化似乎来自蒸馏自家的推理模型,auxilary loss 动态调度负载 + DualPipe 优化 pipeline bubbles + 根据通信做混合精度优化, 计算与通信的瓶颈的优化做到极致了。以至于训练成本只有 500 多万刀,和 o 家和 g 家比算是用乞丐的成本达成了至少也是不相上下的结果。要我说,closedai 不做人干脆把 gpu 匀给 deepseek ,可惜匀不得。
dwu8555 小成 2024-12-27 08:02:33
deepseek 还是国人的项目? https://i.imgur.com/y6rlisG.png
AlohaV2 小成 2024-12-27 08:08:25
@dwu8555 是的。猜猜他家资金咋来的🤣
apollo007 初学 2024-12-27 08:08:39
我觉得这个处理文科类的,效果比 claude 3.0 opus 还牛
sutking 小成 2024-12-27 08:15:21
@AlohaV2 #4 咋来的?😳感觉好神秘。
bk201 初学 2024-12-27 08:27:23
@sutking @AlohaV2 收割 a 股股民是吧
suguo210 小成 2024-12-27 08:35:30
幻方用来收割韭菜的利器
AlexHsu 小成 2024-12-27 09:30:36
这玩意有 671b 参数?本地弄起来得多少 h100 啊
12下一页
返回顶部