今天,OpenAI 发布了新的非推理模型 GPT-4.5,这是迄今为止规模最大、知识最丰富的模型。顾名思义,GPT-4.5 是在 GPT-4o 的基础上,在预训练过程中进一步扩展而成的。OpenAI 已经确认,GPT-4.5 并不是一个前沿模型,但它是他们最大的 LLM,与 GPT-4o 相比,它拥有更多的世界知识、更好的写作技巧和更精致的个性。
基准测试数据表明,GPT-4.5 比 GPT-4o 的升级幅度不大。在 SWE-bench Verified 基准测试中,GPT-4.5 达到了 38%,比 GPT-4o 提升了 2-7%,比 OpenAI 基于 O3 的深度研究低 30%。相比之下,Anthropic 的 Claude 3.7 Sonnet 在 SWE-bench Verified 基准测试中取得了 62.3% 的一流性能。
在 SimpleQA Accuracy 基准测试中,GPT-4.5 的得分为 62.5%,而 GPT-4o 为 38.2%。在 SimpleQA 幻觉率基准测试中,GPT-4.5 的得分是 OpenAI 所有大型语言模型中最低的。
最近,OpenAI 的 Preparedness 团队开发了一个名为 SWE-Lancer 的新基准,用于评估 LLM 在实际软件工程任务中的性能,包括功能开发、设计、错误修复等。在这个新基准中,GPT-4.5 模型能够解决 20% 的 IC SWE 任务和 44% 的 SWE Manager 任务,比 OpenAI 的 o1 模型略有提高。您可在此阅读新模型的完整系统卡。
在安全方面,根据准备评估的结果,OpenAI 的安全顾问小组将新的 GPT-4.5 模型总体归类为中等风险。它在网络安全和模型自主性方面的得分也较低。
新的 GPT-4.5 模型研究预览版现在可通过网络、手机和桌面上的模型选择器提供给 ChatGPT Pro 用户。它支持搜索、文件和图片上传以及 ChatGPT 上的画布功能。未来还将支持语音模式、视频和屏幕共享等多模态功能。GPT-4.5 将于下周提供给 ChatGPT Plus 和 Teams 用户。
GPT-4.5 还可通过聊天完成 API、助手 API 和批处理 API 提供给所有付费级开发人员。它支持函数调用、结构化输出、流和系统消息等关键功能。