其实只是“某种意义”上的最强。编程分两种,一种是 CURD 工程化,也就是 claude 3.7 sonnet 擅长的领域,用朴实无华的编程技能,把整个页面写完善,出成品,这是 claude 3.7 的强项。

另一种编程领域,是竞赛制编程,和数学推理能力很接近,在这一点上 o3-mini-high 要明显强过 claude 3.7 ,所以 claude 3.7 编程专项领域的跑分,看起来并不算太亮眼。

下图是最新的编程竞赛跑分,3.7 连 deepseek r1 都没能打过,实在很遗憾。但是论项目开发,claude 3.7 舍我其谁!

举报· 1962 次点击
登录 注册 站外分享
18 条回复  
zekeluii 小成 昨天 14:59
寫代碼確實是 Claude 3.7 最強
iflint 小成 昨天 14:59
@enchilada2020 这么牛🐂
seven777 初学 昨天 14:38
数学和推理 Grok3 目前最强, 代码 Claude3.7 最强. 可以反驳,但我不接受. "竞赛制编程"有什么明显的不同和特点?
Promtheus 小成 昨天 14:24
懂了 claude 3.7 最强
HUZHUANGZHUANG 小成 昨天 13:50
我不关心什么跑分,我只关心谁用的顺手
InkStone 小成 昨天 13:47
不仅写代码。我实测下来很多任务 claude 3.7 的表现都很好,包括但不仅限于特定领域的文本生成,SVG 绘图生成,复杂任务理解和操作等等。
AoEiuV020JP 小成 昨天 13:39
我们在意的是在 AI 编辑器领域哪个模型配合编辑器最能实现用户想要的效果和代码,用脚投票而不是某种跑分,
chengyiqun 初学 昨天 13:37
claude 上下文 200k token deepseek 64K token 这还比啥编程领域, 长上下文明显更有优势
RandyLuo 小成 昨天 13:27
https://livebench.ai/
12下一页
返回顶部