OpenAI 的 GPT-4o mini 在大多数基准测试中属于业界领先水平-电脑志

今天，OpenAI 推出了其最具成本效益的小型型号 GPT-4o mini。尽管价格比 GPT-3.5 Turbo 便宜 60%，但 GPT-4o 型号在 MMLU AI 基准测试中的得分高达 82%，目前在 LMSYS 排行榜中的聊天偏好方面超过了 GPT-4。此外，GPT-4o mini 还在文本智能和多模态推理的多项基准测试中超越了 Gemini 1.5 Flash 和 Claude 3 Haiku。

让我们深入了解一下新版 GPT-4o mini 的各项基准测试成绩：

在涉及文本和视觉的推理任务中，GPT-4o mini 的 MMLU 得分为 82.0%，超过了所有其他小型模型。在数学推理和编码任务中，GPT-4o mini 的得分率为 87.0%，而 Gemini Flash 为 75.5%，Claude Haiku 为 71.7%。

在编码性能方面，GPT-4o mini 在 HumanEval 中的得分率为 87.2%，而 Gemini Flash 为 71.5%，Claude Haiku 为 75.9%。在多模态推理方面，GPT-4o mini 的得分率为 59.4%，而 Gemini Flash 为 56.1%，Claude Haiku 为 50.2%。仅在 MathVista 基准测试中，Gemini 1.5 Flash 就比 GPT-4o mini 高出 3%。

2027年生成式人工智能将取代 "平凡" 的搜索引擎优化

除上述基准测试外，GPT-4o mini 还在函数调用方面表现出色，允许开发人员创建可与外部系统一起获取数据或执行操作的应用程序。与 GPT-3.5 Turbo small 型号相比，它还提高了长上下文性能。

OpenAI 团队就 GPT-4o mini 的发布撰文如下：