27 条回复  ·  311 次点击
aiqinxuancai 小成 2024-9-13 17:10:46
我感觉实际上他是对某个模型进行多次调用,实现类似 dify 多步工作流的处理方式。

比如:
第 1 次调用,拆分问题
第 2 次调用,针对拆分后的问题进行解答
第 3 次调用,纠正解答的中存在的问题并重新解答

再或者:
第 1 次调用,解决问题
第 2 次调用,指出解决方案中存在的问题
第 3 次调用,根据指出的问题再次解答
h272377502 小成 2024-9-13 19:02:00
@hardto 怎么个吊打 claude ,你比了啥,就得出这结论
ztmzzz 小成 2024-9-13 20:54:13
o1 更新了训练数据,现在学到了 lean4 了,4o 只学到了 lean3
xuelang 小成 2024-9-13 21:07:30
https://selfboot.cn/2024/09/13/gpto1_hands_on/
早上就把 preview 额度干完了。。 试了下,代码和推理有一点提高,不过也没有和 Claude 拉开很大差距。
中文理解和生成,还得是 Claude3.5
piero66 小成 2024-9-13 23:57:05
很强,有一定的思维能力,更接近懂点东西的真人的解题方式了
LanhuaMa 小成 2024-9-14 04:23:29
@guanchayuan

```text
There are 5 crates, each has a unique weight less than 100kg. The crates are weighted in groups of two and the results obtained are 113, 116, 110, 117, 112, 118, 114, 121, 120 and 115 kg. What's the weight of the heaviest crate?```

```text
To solve this problem, we’ll need to find the unique weights of the five crates based on the sums of all possible pairs. Here’s a step-by-step explanation:

Step 1: List the given sums and identify the smallest and largest sums.

...

Conclusion:

The weights of the crates are:

        •         a = 54  kg
        •         b = 56  kg
        •         c = 58  kg
        •         d = 59  kg
        •         e = 62  kg

Answer: 62 kg

```

鸡巴啰嗦了一大堆最后总算是解出来了,就这题的表现来看确实不如 gpt4o 。
NiaoBlush 小成 2024-9-14 12:10:35
搜了好几道题目分别用 4o 和 o1 试了下,大多数给的答案是对的,以下是一道给出答案不一样的:

题目:一个人在林中散步时,无意中听到了几个强盗在商量如何分赃。强盗们说,如果每人分 6 匹布,则剩余 5 匹;如果每人分 7 匹布,则少 8 匹。请问:共有几个强盗?几匹布?

4o 给的答案:设共有 \( x \) 个强盗,布匹总数为 \( y \)。

根据题意,列出以下方程:
1. 每人分 6 匹布,剩余 5 匹:即 \( y \equiv 5 \pmod{6} \),表示 \( y = 6x + 5 \)。
2. 每人分 7 匹布,少 8 匹:即 \( y \equiv -8 \pmod{7} \),也就是 \( y \equiv -8 + 7 = -1 \equiv 6 \pmod{7} \),表示 \( y = 7x - 8 \)。

于是我们有两组同余条件:
\[
y \equiv 5 \pmod{6}
\]
\[
y \equiv 6 \pmod{7}
\]

通过解这组同余方程,可以求出总共有多少强盗以及多少匹布。根据求解得出,最终答案为:
**总共有 59 匹布,9 个强盗**。


o1 给的答案:
assassing 小成 2024-9-14 14:13:54
怼了两天把额度用完,结论是在编程方面不如 GPT-4 。注意不是 4o ,这个 o1 像在 4o 路线上演变出来的。o1mini 回答大概率和 o1 一模一样,不用纠结他们之间的区别。

特点 1:输出超长,但如果持续对话会发现它经常重复前面回答过的内容。生成代码方面会有优势,以前代码要分多次输出,有时会中断,现在不担心这个问题。当然我还没来得及考察代码质量。

特点 2:输出稳定,多次问同一个问题,回答大概只有 10% 不同,如果应用在图像生成上会很有用。但由于幻觉依旧,也就是你的问题它给你错误回答,重复问它还是给你同样的错误答案,而不像以前重新生成会有改观。

特点 3:有所保留,这点从 4o 开始感受明显。就像一个高中数学老师被调任教小学,你问它初中数学知识,它反复给你讲解小学数学概念。只有在追问 5 轮之后它才开始说一些真正的重点,浪费很多时间。

也许是时候试试 Claude 了?
123
返回顶部