OpenAI 推出 o3 和 o3 Mini 推理模型

微信扫一扫,分享到朋友圈

OpenAI 推出 o3 和 o3 Mini 推理模型

在 “12 Days of OpenAI” 活动的最后一天,OpenAI 今天宣布了即将推出的 o3 系列推理模型。与现有的 o1 系列类似,o3 系列将包括 o3 和 o3 mini 模型。

OpenAI Logo

OpenAI 还分享了 o3 模型的一些基准数据。

  • o3 在 ARC-AGI 半私密评估中获得了突破性的 75.7% 高分。采用高计算配置的 o3 在半私人评估中获得了 87.5% 的分数。
  • 在 EpochAI 前沿数学基准测试中,o3 解决了 25.2% 的问题,而现有模型仅解决了 2%。
  • 在 SWE-Bench Verified 测试中,o3 获得了 71.7 分,比 o1 高出 22.8 分。
  • 在 Codeforces 中,o3 的 Elo 评分达到 2727。
  • 在 AIME 2024 中,o3 获得了 96.7% 的分数。相比之下,o1 的得分为 83.3。
  • 在 GPQA Diamond 中,o3 获得了 87.7% 的分数。相比之下,o1 得分为 78%。

ARC 奖团队就 OpenAI 的新 o3 模型撰文如下:

OpenAI 的新 o3 模型代表了人工智能适应新任务能力的重大飞跃。这不仅仅是渐进式的改进,而是真正的突破,标志着人工智能的能力与之前的 LLM 限制相比发生了质的转变。o3 是一个能够适应从未遇到过的任务的系统,可以说在 ARC-AGI 领域接近人类水平。

o3 mini 型号将提供三个推理级别供用户选择: 高、中、低三个推理级别。低级推理速度最快,但准确度较低;高级推理速度最慢,但准确度较高。

OpenAI 尚未发布 o3 模型。不过,从今天开始,它已开始共享 o3 模型,用于安全和保安测试。有兴趣的安全和保安研究人员也可以申请在公开发布前使用 o3 模型。o3 模型预计将于 2025 年向公众开放。

上一篇

微软为今年圣诞节更新圣诞老人追踪计划精灵雷达

下一篇

三星 Galaxy S25 Slim 将是一款轻薄但功能强大的智能手机

你也可能喜欢

评论已经被关闭。

插入图片

公众号

公众号
关注我们

排行榜

返回顶部

欢度春节

烟火起,照人间,举杯敬此年,
烟花落,四季平,举杯贺新岁。
所得皆所愿,所行亦无憾,
岁岁常喜乐,万事皆顺意!