OpenAI 发布迄今为止规模最大、知识最丰富的模型 GPT-4.5-电脑志

今天，OpenAI 发布了新的非推理模型 GPT-4.5，这是迄今为止规模最大、知识最丰富的模型。顾名思义，GPT-4.5 是在 GPT-4o 的基础上，在预训练过程中进一步扩展而成的。OpenAI 已经确认，GPT-4.5 并不是一个前沿模型，但它是他们最大的 LLM，与 GPT-4o 相比，它拥有更多的世界知识、更好的写作技巧和更精致的个性。

基准测试数据表明，GPT-4.5 比 GPT-4o 的升级幅度不大。在 SWE-bench Verified 基准测试中，GPT-4.5 达到了 38%，比 GPT-4o 提升了 2-7%，比 OpenAI 基于 O3 的深度研究低 30%。相比之下，Anthropic 的 Claude 3.7 Sonnet 在 SWE-bench Verified 基准测试中取得了 62.3% 的一流性能。

OpenAI 发布迄今为止规模最大、知识最丰富的模型 GPT-4.5

在 SimpleQA Accuracy 基准测试中，GPT-4.5 的得分为 62.5%，而 GPT-4o 为 38.2%。在 SimpleQA 幻觉率基准测试中，GPT-4.5 的得分是 OpenAI 所有大型语言模型中最低的。

最近，OpenAI 的 Preparedness 团队开发了一个名为 SWE-Lancer 的新基准，用于评估 LLM 在实际软件工程任务中的性能，包括功能开发、设计、错误修复等。在这个新基准中，GPT-4.5 模型能够解决 20% 的 IC SWE 任务和 44% 的 SWE Manager 任务，比 OpenAI 的 o1 模型略有提高。您可在此阅读新模型的完整系统卡。

美国和英国拒绝加入全球可信人工智能宣言

在安全方面，根据准备评估的结果，OpenAI 的安全顾问小组将新的 GPT-4.5 模型总体归类为中等风险。它在网络安全和模型自主性方面的得分也较低。

新的 GPT-4.5 模型研究预览版现在可通过网络、手机和桌面上的模型选择器提供给 ChatGPT Pro 用户。它支持搜索、文件和图片上传以及 ChatGPT 上的画布功能。未来还将支持语音模式、视频和屏幕共享等多模态功能。GPT-4.5 将于下周提供给 ChatGPT Plus 和 Teams 用户。

GPT-4.5 还可通过聊天完成 API、助手 API 和批处理 API 提供给所有付费级开发人员。它支持函数调用、结构化输出、流和系统消息等关键功能。

iOS 18 将是苹果自推出 iPhone 以来 "最大" 的一次更新

本文由 King 发布在电脑志，转载此文请保持文章完整性，并请附上文章来源（电脑志）及本页链接。
原文链接：https://www.pcsofter.com/news/113849.html