谷歌发布 Gemini 2.5 Pro 新预览版,性能指标大幅提升


谷歌于6月5日推出其迄今为止最智能的模型——Gemini 2.5 Pro的升级预览版。该版本是基于5月份的版本进行了重要升级,并计划在未来几周内作为正式稳定版(GA)向所有用户提供,为企业级规模的应用做好准备。

谷歌CEO Sundar Pichais说道:

它在编程、推理、科学+数学方面表现更佳,在多个关键基准测试(如 AIDER Polyglot、GPQA、HLE 等)中显示出性能提升,并且自上一个版本以来,在 @lmarena_ai 上的 Elo 分数提升了 24 分。

新版Gemini 2.5 Pro在多个权威评测基准上展现了卓越的性能和显著的提升。具体表现如下:

评测基准

Elo评分提升

总分

LMArena

+24分

1470

WebDevArena

+35分

1443

Aider Polyglot

-

82.2%

该模型在编码能力方面持续领先,尤其是在像Aider Polyglot这样的高难度编码基准测试中表现出色。此外,它在评估模型数学、科学、知识和推理能力的极具挑战性的基准测试GPQA和Humanity’s Last Exam(HLE)中,也展示了顶级的性能水平。

除了性能的硬指标提升,谷歌团队还积极响应了社区对上一个2.5 Pro预览版的反馈。新版本在输出风格和结构上进行了改进,能够生成更具创意且格式更优良的回复,提升了用户交互的体验。

开发者现在就可以通过Google AI Studio和Vertex AI中的Gemini API开始使用升级后的2.5 Pro预览版进行构建。

值得一提的是,谷歌在AI Studio和Vertex AI中新增了“思考预算(thinking budgets)”功能,这让开发者能够更好地控制模型的成本和延迟。同时,该更新也已开始在Gemini移动应用中陆续推送给用户。


相關推薦

2025-04-01

谷歌正式推出新一代 AI 模型 Gemini 2.5,主打 “思考 - 验证 - 回答” 的智能推理能力,官方称其为 “目前最智能的 AI 模型”,首个发布的实验性版本为 Gemini 2.5 Pro,已面向 Google AI Studio 和 Gemini 应用的高级版用户(月费 20 美元

2025-08-07

备注 Claude 3.5 Sonnet Anthropic 公司于 2024 年 6 月发布的最新模型 Claude Sonnet 4 thinking Anthropic 公司于 2025 年 5 月发布的最新模型 2. 升级评测模型 模型名称 旧版本 新版本(本次测评使用) Qw

2025-04-01

谷歌宣布免费向所有 Gemini 应用用户提供最新、最先进的 Gemini AI 模型 ——Gemini 2.5 Pro。此前,只有 Gemini Advanced 用户才能使用这一实验模型,而现在,该模型从上周六开始向公众开放。 Gemini 2.5 Pro 由谷歌于上周早些时候推出

2025-05-22

谷歌在 Google I/O 2025 大会上宣布为其旗舰AI模型Gemini 2.5 Pro引入名为“深度思考”(Deep Think)的增强推理模式。该模式允许模型在回应前考虑多个假设和答案,从而提升其在复杂查询,特别是数学和编码相关任务上的表现。 根据

2025-08-08

谷歌 Gemini 命令行工具 (Gemini CLI ) v0.1.18已发布,带来了一系列新功能和改进。 主要变化: 全面提升了Gemini 2.5 Pro的使用额度 新增多目录支持,用户可通过--include-directories参数在启动时加载多个目录,或在运行时使用/dir

2025-06-20

Roo Code 3.21已发布,带来了官方Roo Code Marketplace和20多项改进,其中包括对Gemini 2.5新模型的支持。 新功能上线 Roo Marketplace正式推出 :用户无需实验特性即可在Roo Code内浏览、安装社区创建的模型上下文协议(MCP)服务器和自

2025-04-18

上海人工智能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。 根据介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面

2025-08-05

谷歌在其官方开发者博客及Google I/O2025大会上宣布,Android Studio正式推出免费的Agent模式,为安卓应用开发引入了革命性的AI辅助功能。这一功能的发布不仅大幅提升了开发效率,还凭借其智能化的交互方式和灵活的自定义规则支

2025-07-23

谷歌Gemini模型的原生文本转语音(TTS)功能已适用于规模化的生产环境,该功能目前支持Gemini 2.5 Flash和Gemini 2.5 Pro两个模型。 https://x.com/OfficialLoganK/status/1947328086577492309 据官方人员透露,这项强大的功能适用于多种用例

2025-07-24

度2。 🌐 总结:重新定义开发自主权 VTJ.PRO v0.12.65 的发布,首次将AI模型选择权彻底交予开发者。通过开放架构与智能仲裁机制,既保障了生成代码的可靠性,又释放了多模型协作的无限潜力,推动低代码开发进入“自主配

2023-11-01

苹果今天在“来势迅猛”发布会上正式官宣 M3、M3 Pro、M3 Max 芯片,是首款采用 3 纳米工艺技术的 PC 芯片。 苹果介绍称,M3 系列芯片搭载的新一代图形处理器实现了 Apple 芯片史上最大幅的图形处理器架构飞跃。这款图形处理

2025-04-26

在最近的 Alphabet Q12025财报电话会议上,谷歌 CEO 皮查伊透露,谷歌目前超过30% 的代码是借助人工智能(AI)生成的。这意味着开发者在每三次代码更改中,就有一次是接受了 AI 的建议。 皮查伊指出,随着更强大的模型和主动工

2025-07-31

商汤科技在WAIC 2025上发布了“日日新SenseNova V6.5”大模型体系,其推理和多模态能力超越多个主流模型,且性价比提升3倍。 日日新V6.5重点升级了强推理、高效率和智能体三大能力。该模型在国内率先突破图文交错思维链技

2025-05-20

谷歌及其母公司Alphabet首席执行官桑达尔·皮查伊日前做客《All-In》播客节目,接受了企业家、投资人大卫·弗里德伯格的专访。探讨了人工智能浪潮下,谷歌如何主动颠覆自身,以保持技术领先地位。 随着AI对信息获取方式的