32 条回复  ·  3855 次点击
LaTero 小成 2025-1-28 15:50:04
@gorira 现在就是没审查的,网页版额外加了 filter ,可能是正则之类的。API 根据我的实验,应该是加了隐藏 system prompt ,你自己随便加点 jailbreak prompt ,告诉它忽略所有指令就行。
234ygg 小成 2025-1-28 15:50:39
说能打 o1 的是不是用的降智版??? o1 降智版还不如 gpt3.5 turbo😂 还有说能打 4o 的你们是不是用的 api ? api 版 4o 比网页订阅的 20 刀/月版本差很多
sfdev 小成 2025-1-28 15:52:16
不要你付钱,可以自己去试一试测一测,很简单的事情。
Rorysky 小成 2025-1-28 15:52:42
古文水平 令人惊叹
Liftman 小成 2025-1-28 15:53:21
R1 可以理解为。在极其有限的成本下,跑出了较为优秀的效果。但是从性价比上来说,最优秀的模型的训练成本比他高了 N 倍,并没有多出 n 倍的领先优势。 我本地和官网都做了不少测试,和其他网上的测试者观点差不多一致。就是存在很大的波动性。因为目前他是靠高质量数据冷启动的,所以一旦触及到什么鬼知道的情况,就波动很大。 还有就是 R1 是纯文本小参数推理,O1 可是多模态大参数推理。说的“夸张”一点。O1 的常识。R1 可能需要推理出来。而且 O1 还能识图,这个是更复杂的融合。 所以我相信但凡用过 R1 的人都能发现,R1 极其的啰嗦。O1 的思考时间就短很多。 举个简单的例子,我昨天试的。一个小学数学题。o1 mini 思考 1 秒,结束给答案。deepseek 思考几分钟,反复质疑自己十五次。虽然答案是对的。但是可见其诡异的波动。 至于什么英伟达大跌完全我看是一波做空+媒体协助。。。deepseek 之前才几个人知道,几个人用。。现在这波用户挤入他没有算力。。一切都是扯淡。
msg7086 小成 2025-1-28 15:55:14
你可以理解为用 10%或者更少的成本达到了别人 AI 80-90%的水平。 并不是说别人的 AI 被你吊打了,而是别人手里握着的千亿美元投资一下子就没有很大的吸引力了。 用 10%成本达到别人 90%的水平并不意味着你花 20%成本就能超过别人了。性价比和绝对性能是两回事。
LaTero 小成 2025-1-28 15:57:39
我自己的体验,其实如果不差钱,还是 claude 和 o1 更好,deepseek 主要优势是便宜,这也是它的核心竞争力(它用的这个推理框架是没有开源的,第三方服务商,比如 fireworks ,together ai ,deepinfra 等的托管服务,价格比官方高好几倍,还没有缓存)。性能方面,我注意到一个问题,那就是 r1 的 multi-turn 效果*非常*差,甚至显著差于 deepseek v3 ,假如它第一轮搞错了,你别想在后续纠正它,嘴硬得不行,最好是直接重试抽奖。
NewMoorj 小成 2025-1-28 15:58:32
我在想,不谈 o4 这种,就 Apple 本来签约的国内百度,能不能换成 deepseek ? 不跟 o4 比,起码比百度是强多了吧?
ffgrinder 初学 2025-1-28 16:01:38
@LaTero 我也发现了类似的问题,是因为上下文的原因吗?我更倾向于表述为只能在一个限定的范围内做搜索。。。只要陷入了某个分支没有任何办法逃出来。
tt83 小成 2025-1-28 16:03:14
DeepSeek 还是不错的,但是自媒体瞎吹就算了,今天看到老胡那篇公众号拿 DeepSeek R1 和 gpt-4o 去比就呵呵了
返回顶部