飞社-令人惊奇的创意工作者社区-问与答请问这次“Deepseek 吊打 OpenAI”的真实性如何？

LaTero

@gorira 现在就是没审查的，网页版额外加了 filter ，可能是正则之类的。API 根据我的实验，应该是加了隐藏 system prompt ，你自己随便加点 jailbreak prompt ，告诉它忽略所有指令就行。

234ygg

说能打 o1 的是不是用的降智版??? o1 降智版还不如 gpt3.5 turbo😂 还有说能打 4o 的你们是不是用的 api ？ api 版 4o 比网页订阅的 20 刀/月版本差很多

sfdev

不要你付钱，可以自己去试一试测一测，很简单的事情。

Rorysky

古文水平令人惊叹

Liftman

R1 可以理解为。在极其有限的成本下，跑出了较为优秀的效果。但是从性价比上来说，最优秀的模型的训练成本比他高了 N 倍，并没有多出 n 倍的领先优势。我本地和官网都做了不少测试，和其他网上的测试者观点差不多一致。就是存在很大的波动性。因为目前他是靠高质量数据冷启动的，所以一旦触及到什么鬼知道的情况，就波动很大。还有就是 R1 是纯文本小参数推理，O1 可是多模态大参数推理。说的“夸张”一点。O1 的常识。R1 可能需要推理出来。而且 O1 还能识图，这个是更复杂的融合。所以我相信但凡用过 R1 的人都能发现，R1 极其的啰嗦。O1 的思考时间就短很多。举个简单的例子，我昨天试的。一个小学数学题。o1 mini 思考 1 秒，结束给答案。deepseek 思考几分钟，反复质疑自己十五次。虽然答案是对的。但是可见其诡异的波动。至于什么英伟达大跌完全我看是一波做空+媒体协助。。。deepseek 之前才几个人知道，几个人用。。现在这波用户挤入他没有算力。。一切都是扯淡。

msg7086

你可以理解为用 10%或者更少的成本达到了别人 AI 80-90%的水平。并不是说别人的 AI 被你吊打了，而是别人手里握着的千亿美元投资一下子就没有很大的吸引力了。用 10%成本达到别人 90%的水平并不意味着你花 20%成本就能超过别人了。性价比和绝对性能是两回事。

LaTero

我自己的体验，其实如果不差钱，还是 claude 和 o1 更好，deepseek 主要优势是便宜，这也是它的核心竞争力（它用的这个推理框架是没有开源的，第三方服务商，比如 fireworks ，together ai ，deepinfra 等的托管服务，价格比官方高好几倍，还没有缓存）。性能方面，我注意到一个问题，那就是 r1 的 multi-turn 效果*非常*差，甚至显著差于 deepseek v3 ，假如它第一轮搞错了，你别想在后续纠正它，嘴硬得不行，最好是直接重试抽奖。

NewMoorj

我在想，不谈 o4 这种，就 Apple 本来签约的国内百度，能不能换成 deepseek ？不跟 o4 比，起码比百度是强多了吧？

ffgrinder

@LaTero 我也发现了类似的问题，是因为上下文的原因吗？我更倾向于表述为只能在一个限定的范围内做搜索。。。只要陷入了某个分支没有任何办法逃出来。

tt83

DeepSeek 还是不错的，但是自媒体瞎吹就算了，今天看到老胡那篇公众号拿 DeepSeek R1 和 gpt-4o 去比就呵呵了

浏览过的版块