谷歌于6月5日推出其迄今为止最智能的模型——Gemini 2.5 Pro的升级预览版。该版本是基于5月份的版本进行了重要升级,并计划在未来几周内作为正式稳定版(GA)向所有用户提供,为企业级规模的应用做好准备。
谷歌CEO Sundar Pichais说道:
它在编程、推理、科学+数学方面表现更佳,在多个关键基准测试(如 AIDER Polyglot、GPQA、HLE 等)中显示出性能提升,并且自上一个版本以来,在 @lmarena_ai 上的 Elo 分数提升了 24 分。
新版Gemini 2.5 Pro在多个权威评测基准上展现了卓越的性能和显著的提升。具体表现如下:
评测基准 |
Elo评分提升 |
总分 |
---|---|---|
LMArena |
+24分 |
1470 |
WebDevArena |
+35分 |
1443 |
Aider Polyglot |
- |
82.2% |
该模型在编码能力方面持续领先,尤其是在像Aider Polyglot这样的高难度编码基准测试中表现出色。此外,它在评估模型数学、科学、知识和推理能力的极具挑战性的基准测试GPQA和Humanity’s Last Exam(HLE)中,也展示了顶级的性能水平。
除了性能的硬指标提升,谷歌团队还积极响应了社区对上一个2.5 Pro预览版的反馈。新版本在输出风格和结构上进行了改进,能够生成更具创意且格式更优良的回复,提升了用户交互的体验。
开发者现在就可以通过Google AI Studio和Vertex AI中的Gemini API开始使用升级后的2.5 Pro预览版进行构建。
值得一提的是,谷歌在AI Studio和Vertex AI中新增了“思考预算(thinking budgets)”功能,这让开发者能够更好地控制模型的成本和延迟。同时,该更新也已开始在Gemini移动应用中陆续推送给用户。