今天,OpenAI 推出了其最具成本效益的小型型号 GPT-4o mini。尽管价格比 GPT-3.5 Turbo 便宜 60%,但 GPT-4o 型号在 MMLU AI 基准测试中的得分高达 82%,目前在 LMSYS 排行榜中的聊天偏好方面超过了 GPT-4。此外,GPT-4o mini 还在文本智能和多模态推理的多项基准测试中超越了 Gemini 1.5 Flash 和 Claude 3 Haiku。
让我们深入了解一下新版 GPT-4o mini 的各项基准测试成绩:
在涉及文本和视觉的推理任务中,GPT-4o mini 的 MMLU 得分为 82.0%,超过了所有其他小型模型。在数学推理和编码任务中,GPT-4o mini 的得分率为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。
在编码性能方面,GPT-4o mini 在 HumanEval 中的得分率为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。在多模态推理方面,GPT-4o mini 的得分率为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。仅在 MathVista 基准测试中,Gemini 1.5 Flash 就比 GPT-4o mini 高出 3%。
除上述基准测试外,GPT-4o mini 还在函数调用方面表现出色,允许开发人员创建可与外部系统一起获取数据或执行操作的应用程序。与 GPT-3.5 Turbo small 型号相比,它还提高了长上下文性能。
OpenAI 团队就 GPT-4o mini 的发布撰文如下:
在我们的设想中,未来模型将无缝集成到每个应用程序和每个网站中。GPT-4o mini 为开发人员铺平了道路,使他们能够更高效、更经济地构建和扩展强大的人工智能应用。人工智能的未来正变得更加易用、可靠,并嵌入到我们的日常数字体验中,我们很高兴能继续引领这一潮流。
GPT-4o Mini 在多个基准测试中的强劲性能表明,OpenAI 致力于推动人工智能能力的发展,同时让更多的人可以使用这些能力。
来源:OpenAI