昨晚半夜,OpenAI 正式发布了 o1 预览版!这是一系列新的 AI 模型,旨在在做出响应之前花更多时间进行思考。

![]( https://files.mdnice.com/user/41479/114e485c-0836-4320-a96f-304abec3adc1.png)

昨天测试模型人员在 Information 发布的草莓( strawberry )模型,正式版名称不叫草莓,草莓只是内部的一个代号。他们的正式名字,叫:o1!


![]( https://files.mdnice.com/user/41479/74cc21b2-4218-42dd-bd3a-de76dfccf1c0.jpg)


为什么取名叫 o1 ,OpenAI 是这么说的:

> For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

翻译:**对于复杂推理任务来说,这是一个重要的进展,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为 1 ,并将这一系列命名为 OpenAI o1**。

OpenAI o1 发布,也标志着,AI 行业,将快速推进 AGI 。

## 推理逻辑能力
( 1 )在数学竞赛上:GPT-4o 的准确率为 13.4%,o1 预览版的准确率为 56.7%,o1 正式版,准确率为 83.3%。

( 2 )在代码竞赛上:GPT-4o 的准确率为 11.0%,o1 预览版的准确率为 62%,o1 正式版,准确率为 89%。

( 3 )在博士级科学问题上:GPT-4o 的准确率为 56.1%,人类专家水平的准确率为 69.7%,o1 的准确率达到了惊人的 78%
![]( https://files.mdnice.com/user/41479/337d7592-a73f-4e2a-8142-6f7f9858d738.png)
具体的各项能力:
![]( https://files.mdnice.com/user/41479/1a503d1d-b97a-4955-a52f-395468a7a960.png)

## 如何使用 o1
目前,o1 模型已经逐步向所有 ChatGPT Plus 和 Team 用户开放,未来会考虑对免费用户开放。

分为两个模型,**o1 预览版** 和 **o1 mini**,o1-mini 就是更快更小更便宜,推理啥的都不错,极度适合数学和代码,就是世界知识会差很多,适用于需要推理但不需要广泛世界知识的场景。

![]( https://files.mdnice.com/user/41479/0e45e4f3-3740-4bb5-b1d6-a26880ac3152.png)

**o1 预览版使用限制 30 条/每周,o1-mini 的 50 条/每周。**

从次数的限制来看,o1 的成本比 GPT-4o 贵了整整 N 倍,GPT-4o 是 80 条/3 小时。
![]( https://files.mdnice.com/user/41479/cdef9a8c-ef8b-4d36-a416-db50859086bb.png)

对于个人用户,使用的话,直接在右上角切换模型就行,但是 o1 只给 ChatGPT Plus 会员推送。**如果你不知道怎么升级订阅 ChatGPT Plus 会员的话,可以参考教程:** [https://upchatgpt.cn/how-upgrade-chatgpt-plus/]( https://upchatgpt.cn/how-upgrade-chatgpt-plus/)

对于开发者的话,只给 **5 级 API 用户**推出 o1-mini ,价格比 OpenAI o1-preview 便宜 80%。ChatGPT Plus 、Team 、Enterprise 和 Edu 用户可以使用 o1-mini 作为 o1-preview 的替代品,具有更高的速率限制和更低的延迟。

## 模型的速度
![]( https://files.mdnice.com/user/41479/0b4bad4f-2d23-4832-af01-940c87cc80af.png)
对于 Prompt ,OpenAI 给出的最佳写法是:
- **保持提示简单直接:**模型擅长理解和响应简短、清晰的指令,而不需要大量的指导。
- **避免思路链提示:**由于这些模型在内部进行推理,因此不需要提示它们“逐步思考”或“解释你的推理”。
- **使用分隔符来提高清晰度:** 使用三重引号、XML 标签或章节标题等分隔符来清楚地指示输入的不同部分,帮助模型适当地解释不同的部分。
- **限制检索增强生成 (RAG) 中的附加上下文:** 提供附加上下文或文档时,仅包含最相关的信息,以防止模型过度复杂化其响应。

比较了 GPT-4o 、o1-mini 和 o1-preview 在单词推理问题上的回答。虽然 GPT-4o 没有正确回答,但 o1-mini 和 o1-preview 都正确回答,并且 o1-mini 达到答案的速度大约是 3-5 倍。
举报· 22 次点击
登录 注册 站外分享
1 条回复  
Vegetable 小成 2024-9-13 11:31:54
实测能分清楚 13.11 和 13.8 谁大了
返回顶部