OpenAI 推出 o3 和 o3 Mini 推理模型

微信扫一扫,分享到朋友圈

OpenAI 推出 o3 和 o3 Mini 推理模型

在 “12 Days of OpenAI” 活动的最后一天,OpenAI 今天宣布了即将推出的 o3 系列推理模型。与现有的 o1 系列类似,o3 系列将包括 o3 和 o3 mini 模型。

OpenAI Logo

OpenAI 还分享了 o3 模型的一些基准数据。

  • o3 在 ARC-AGI 半私密评估中获得了突破性的 75.7% 高分。采用高计算配置的 o3 在半私人评估中获得了 87.5% 的分数。
  • 在 EpochAI 前沿数学基准测试中,o3 解决了 25.2% 的问题,而现有模型仅解决了 2%。
  • 在 SWE-Bench Verified 测试中,o3 获得了 71.7 分,比 o1 高出 22.8 分。
  • 在 Codeforces 中,o3 的 Elo 评分达到 2727。
  • 在 AIME 2024 中,o3 获得了 96.7% 的分数。相比之下,o1 的得分为 83.3。
  • 在 GPQA Diamond 中,o3 获得了 87.7% 的分数。相比之下,o1 得分为 78%。

ARC 奖团队就 OpenAI 的新 o3 模型撰文如下:

OpenAI 的新 o3 模型代表了人工智能适应新任务能力的重大飞跃。这不仅仅是渐进式的改进,而是真正的突破,标志着人工智能的能力与之前的 LLM 限制相比发生了质的转变。o3 是一个能够适应从未遇到过的任务的系统,可以说在 ARC-AGI 领域接近人类水平。

o3 mini 型号将提供三个推理级别供用户选择: 高、中、低三个推理级别。低级推理速度最快,但准确度较低;高级推理速度最慢,但准确度较高。

OpenAI 尚未发布 o3 模型。不过,从今天开始,它已开始共享 o3 模型,用于安全和保安测试。有兴趣的安全和保安研究人员也可以申请在公开发布前使用 o3 模型。o3 模型预计将于 2025 年向公众开放。

上一篇

微软为今年圣诞节更新圣诞老人追踪计划精灵雷达

下一篇

三星 Galaxy S25 Slim 将是一款轻薄但功能强大的智能手机

你也可能喜欢

评论已经被关闭。

插入图片

公众号

公众号
关注我们

排行榜

返回顶部