谷歌发布 Gemini 2.5:在基准测试中击败 DeepSeek R1、OpenAI o3-mini 等

微信扫一扫,分享到朋友圈

谷歌发布 Gemini 2.5:在基准测试中击败 DeepSeek R1、OpenAI o3-mini 等

今天早些时候,我们看到 DeepSeek 推出了新的大型语言模型 DeepSeek-V3-0324。现在,谷歌又发布了 Gemini 2.5,这是它声称最智能的思维模型集合。正如谷歌所说:

谷歌发布 Gemini 2.5:在基准测试中击败 DeepSeek R1、OpenAI o3-mini 等

双子座 2.5 是一种思维模型,旨在解决日益复杂的问题。我们的第一个 2.5 模型 Gemini 2.5 Pro Experimental 在普通基准测试中遥遥领先,展示了强大的推理和代码能力。

只要您订阅了 Gemini Advanced,就可以在 Google AI Studio 和 Gemini 应用程序中使用 Gemini 2.5 Pro Experimental。此外,谷歌还计划将其引入顶点人工智能(Vertex AI),但并未透露具体时间。

谷歌发布 Gemini 2.5:在基准测试中击败 DeepSeek R1、OpenAI o3-mini 等

从 Google 展示的基准测试结果来看,Gemini 2.5 Pro 实验版在数学和代码生成基准测试(如 AIME 2025 和 LiveCodeBench v5)中遥遥领先。 该公司表示,2.5 版的编码性能比 2.0 版有了 “巨大飞跃”,使其在创建网络应用程序、编辑代码等方面表现更佳。

下面的表格显示了有关 Gemini 2.5 Pro 的一些信息:

模型部署状态 实验性
input 支持的数据类型 文本, 图像, 视频, 音频
输出支持的数据类型 发短信
支持输入的数字令牌 1 分钟
支持输出的数字标记 64K
知识截止 2025 年 1 月
工具使用
  • 函数调用
  • 结构化输出
  • 搜索即工具
  • 代码执行
最适合
  • 推理
  • 编码
  • 复杂提示
可用性
  • 谷歌人工智能工作室
  • 双子座 API
  • Gemini 应用程序

目前还没有定价,但预计未来几周会有更多相关信息。

在过去的几个月里,谷歌增加了几个有趣的基于双子座的模型,比如双子座机器人(Gemini Robotics),这是一个针对机器人的双子座 2.0 模型。面向消费者的双子座应用最近有了 “深度研究”(Deep Research)功能,这是一项利用人工智能为你进行研究的功能。

上一篇

OpenAI 宣布对 ChatGPT 中的人工智能图像生成进行重大更新

下一篇

苹果 WWDC 2025 大会将于 6 月 10 日召开

你也可能喜欢

评论已经被关闭。

插入图片

公众号

公众号
关注我们

排行榜

返回顶部