谷歌发布 Gemini 2.5 Pro 新预览版,性能指标大幅提升


谷歌于6月5日推出其迄今为止最智能的模型——Gemini 2.5 Pro的升级预览版。该版本是基于5月份的版本进行了重要升级,并计划在未来几周内作为正式稳定版(GA)向所有用户提供,为企业级规模的应用做好准备。

谷歌CEO Sundar Pichais说道:

它在编程、推理、科学+数学方面表现更佳,在多个关键基准测试(如 AIDER Polyglot、GPQA、HLE 等)中显示出性能提升,并且自上一个版本以来,在 @lmarena_ai 上的 Elo 分数提升了 24 分。

新版Gemini 2.5 Pro在多个权威评测基准上展现了卓越的性能和显著的提升。具体表现如下:

评测基准

Elo评分提升

总分

LMArena

+24分

1470

WebDevArena

+35分

1443

Aider Polyglot

-

82.2%

该模型在编码能力方面持续领先,尤其是在像Aider Polyglot这样的高难度编码基准测试中表现出色。此外,它在评估模型数学、科学、知识和推理能力的极具挑战性的基准测试GPQA和Humanity’s Last Exam(HLE)中,也展示了顶级的性能水平。

除了性能的硬指标提升,谷歌团队还积极响应了社区对上一个2.5 Pro预览版的反馈。新版本在输出风格和结构上进行了改进,能够生成更具创意且格式更优良的回复,提升了用户交互的体验。

开发者现在就可以通过Google AI Studio和Vertex AI中的Gemini API开始使用升级后的2.5 Pro预览版进行构建。

值得一提的是,谷歌在AI Studio和Vertex AI中新增了“思考预算(thinking budgets)”功能,这让开发者能够更好地控制模型的成本和延迟。同时,该更新也已开始在Gemini移动应用中陆续推送给用户。


相關推薦

2025-04-01

谷歌正式推出新一代 AI 模型 Gemini 2.5,主打 “思考 - 验证 - 回答” 的智能推理能力,官方称其为 “目前最智能的 AI 模型”,首个发布的实验性版本为 Gemini 2.5 Pro,已面向 Google AI Studio 和 Gemini 应用的高级版用户(月费 20 美元

2025-04-01

谷歌宣布免费向所有 Gemini 应用用户提供最新、最先进的 Gemini AI 模型 ——Gemini 2.5 Pro。此前,只有 Gemini Advanced 用户才能使用这一实验模型,而现在,该模型从上周六开始向公众开放。 Gemini 2.5 Pro 由谷歌于上周早些时候推出

2025-05-22

谷歌在 Google I/O 2025 大会上宣布为其旗舰AI模型Gemini 2.5 Pro引入名为“深度思考”(Deep Think)的增强推理模式。该模式允许模型在回应前考虑多个假设和答案,从而提升其在复杂查询,特别是数学和编码相关任务上的表现。 根据

2025-04-18

上海人工智能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。 根据介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面

2023-11-01

苹果今天在“来势迅猛”发布会上正式官宣 M3、M3 Pro、M3 Max 芯片,是首款采用 3 纳米工艺技术的 PC 芯片。 苹果介绍称,M3 系列芯片搭载的新一代图形处理器实现了 Apple 芯片史上最大幅的图形处理器架构飞跃。这款图形处理

2025-04-26

在最近的 Alphabet Q12025财报电话会议上,谷歌 CEO 皮查伊透露,谷歌目前超过30% 的代码是借助人工智能(AI)生成的。这意味着开发者在每三次代码更改中,就有一次是接受了 AI 的建议。 皮查伊指出,随着更强大的模型和主动工

2025-05-20

谷歌及其母公司Alphabet首席执行官桑达尔·皮查伊日前做客《All-In》播客节目,接受了企业家、投资人大卫·弗里德伯格的专访。探讨了人工智能浪潮下,谷歌如何主动颠覆自身,以保持技术领先地位。 随着AI对信息获取方式的

2025-03-20

谷歌昨天为 Gemini 推出了「Canvas」功能,该功能与 OpenAI 的 ChatGPT Canvas 工具以及 Anthropic 的 Artifacts 在概念上相似,它为 Gemini 用户提供了一个互动空间,用户可以在其中创建、完善并分享写作和编程项目。 此类工作空间是 AI 公

2025-04-25

谷歌一年一度的开发者大会 Google I/O 2025 将于 5 月 20 日至 21 日举行,目前谷歌已经提前公布了部分会议议程。 https://io.google/2025/explore 在本次大会中,Android 系统依旧是重头戏之一。谷歌表示将举办一场关于安卓“进阶版”用

2025-06-07

谷歌搜索「AI 模式」现在可以提供数据可视化和自定义图表支持,让用户能用自然语言提示分析复杂数据集和创建自定义图表。 据介绍,更新后的「AI 模式」能比较分析特定时期的信息,生成交互式图表并提供全面解释,借助

2025-05-22

2025 年 5 月 20 日,谷歌在 I/O 大会上正式宣布 Google 搜索「AI Mode」(AI 模式)面向美国市场全面上线。 AI Mode 是 Google 搜索中的一个新选项卡,允许用户使用 Gemini AI 聊天机器人进行网络搜索,支持自然语言多轮对话式搜索。 A

2025-04-12

国际电信联盟电信标准分局(ITU-T)于2025年3月正式发布ITU-T F.748.44 基础模型的评估标准:基准测试/ Assessment criteria for foundation models: Benchmark。 该项国际标准由中国信息通信研究院(简称“中国信通院”)牵头制定,规范了大模

2025-04-22

AI 编程工具 Cursor 近日发布了 0.49,主要变化: 支持从对话生成规则(Generate Cursor Rules),可以让AI将你与AI之间来回的对话归纳成规则。 Always 附加规则现在会在较长的对话中持续生效。 聊天历史记录已移至命令面板。您

2025-04-19

RustRover 和 RubyMine 也将很快获得支持。 除了 Junie 的公开发布之外,该公司还发布了 JetBrains AI Assistant 的新版本。包含多项重大改进,旨在加速编码工作流程并减少重复性任务,为开发者提供全程开发支持。 AI Assistant 现在拥有