谷歌 Gemini 2.5 Pro 新增“深度思考”模式,Gemini 2.5 Flash 模型全面上线


谷歌在 Google I/O 2025 大会上宣布为其旗舰AI模型Gemini 2.5 Pro引入名为“深度思考”(Deep Think)的增强推理模式。该模式允许模型在回应前考虑多个假设和答案,从而提升其在复杂查询,特别是数学和编码相关任务上的表现。

根据测试数据,Gemini 2.5 Pro Deep Think 版本在多个高难度基准上表现出色,超越了 OpenAI o3 和 o4-mini。其中包括:

  • 在 2025 年 USAMO(美国数学奥林匹克) 测试中取得了优异成绩;
  • 在面向竞赛级编程能力的高难度基准  LiveCodeBench 上领先;
  • 在 MMMU(多模态推理测试)中取得 84.0% 的高分,展现出卓越的多模态推理能力。

目前,“深度思考”模式仅供受信任的测试人员使用。

同时,谷歌宣布其Gemini 2.5 Flash模型已在Gemini应用程序中向所有用户提供,Google AI Studio中最新的gemini-2.5-flash-preview-05-20版本已可用。Gemini 2.5 Flash和2.5 Pro都将增加音频输出功能。

谷歌表示:

2.5 Flash 是我们最高效的主力模型,专为速度和低成本而设计——现在它在很多维度上都更优秀了。

它在推理、多模态、代码和长上下文的关键基准测试中都得到了改进,同时效率更高,在我们的评估中使用的令牌数量减少了 20-30%。

此外,谷歌为 Gemini API 添加了对模型上下文协议(Model Context Protocol, MCP)定义的原生 SDK 支持,以便更轻松地与开源工具集成。

详情查看:https://mp.weixin.qq.com/s/NCcmWcgZGEY6Qrg3yZSRCg


相關推薦

2025-04-01

谷歌宣布免费向所有 Gemini 应用用户提供最新、最先进的 Gemini AI 模型 ——Gemini 2.5 Pro。此前,只有 Gemini Advanced 用户才能使用这一实验模型,而现在,该模型从上周六开始向公众开放。 Gemini 2.5 Pro 由谷歌于上周早些时候推出

2025-04-01

谷歌正式推出新一代 AI 模型 Gemini 2.5,主打 “思考 - 验证 - 回答” 的智能推理能力,官方称其为 “目前最智能的 AI 模型”,首个发布的实验性版本为 Gemini 2.5 Pro,已面向 Google AI Studio 和 Gemini 应用的高级版用户(月费 20 美元

2025-06-07

谷歌于6月5日推出其迄今为止最智能的模型——Gemini 2.5 Pro的升级预览版。该版本是基于5月份的版本进行了重要升级,并计划在未来几周内作为正式稳定版(GA)向所有用户提供,为企业级规模的应用做好准备。 谷歌CEO Sundar Pich

2025-05-28

Gemini 2.5 Flash 的语音功能已上线 AI Studio,支持中文,效果自然。用户可以使用包含多种风格和语气标记(如慢速、诗意感、正常、快速、热情等)的复杂文本进行测试。 该语音功能能够较好地遵循这些风格指令,并生成听起

2025-05-22

2025 年 5 月 20 日,谷歌在 I/O 大会上正式宣布 Google 搜索「AI Mode」(AI 模式)面向美国市场全面上线。 AI Mode 是 Google 搜索中的一个新选项卡,允许用户使用 Gemini AI 聊天机器人进行网络搜索,支持自然语言多轮对话式搜索。 A

2025-06-07

谷歌搜索「AI 模式」现在可以提供数据可视化和自定义图表支持,让用户能用自然语言提示分析复杂数据集和创建自定义图表。 据介绍,更新后的「AI 模式」能比较分析特定时期的信息,生成交互式图表并提供全面解释,借助

2025-04-22

示之外,而无需每个项目进行配置。 新的模型,支持 Gemini 2.5 Pro、Gemini 2.5 Flash、Grok 3、Grok 3 Mini、GPT-4.1、o3 和 o4-mini。 支持将项目结构加入聊天上下文。 详情查看更新日志:https://www.cursor.com/cn/changelog/0-49

2025-05-20

谷歌及其母公司Alphabet首席执行官桑达尔·皮查伊日前做客《All-In》播客节目,接受了企业家、投资人大卫·弗里德伯格的专访。探讨了人工智能浪潮下,谷歌如何主动颠覆自身,以保持技术领先地位。 随着AI对信息获取方式的

2025-04-30

优于DeepSeek-R1、o1、Grok-3等模型,仅在AIME'25(81.5)略低于Gemini-2.5-Pro(86.7)。 Qwen3-30B-A3B:在ArenaHard(91.0)、AIME'24(80.4)等测试中,超越QwQ-32B(激活参数为其10倍)。 Qwen3-4B:性能可与Qwen2.5-72B-Instruct媲美,如在ArenaHard中为7

2025-06-12

。 在 GPQA Diamond 和 AIME测试中,Magistral Medium 的表现不及 Gemini 2.5 Pro 和 Anthropic 的 Claude Opus 4。在流行的编程基准 LiveCodeBench 上,Magistral Medium 也未能超越 Gemini 2.5 Pro。 或许正因如此,Mistral 在其博客文章中大力宣扬 Magistral 的其

2024-06-26

JetBrains 宣布将利用 Google Cloud 的 Vertex AI,将 Google 的 Gemini 模型集成到 AI 助手 (AI Assistant) 中。此举将使得 JetBrains AI Assistant 成为同类产品中第一个使用多个大语言模型的产品。 AI Assistant 是 JetBrains 推出的一款 AI 驱动的编程助

2025-04-18

造了开源多模态大模型的性能新标杆,性能接近闭源模型Gemini-2.5-Pro; 创新提出原生多模态预训练方法,将语言和多模态学习整合于同一个预训练阶段,提升及拓展多模态能力的同时,进一步提升纯语言能力; 提出混合偏好

2024-08-01

0.97(满分 1 分)。 成本表现最佳模型: Google 的 Gemini 1.5 Flash。Google 模型在所有任务上均表现出色,在短、中、长上下文场景中分别获得了 0.94、1 和 0.92 的准确率,因此成为性价比最高的机型。 最佳开源模型:阿里巴

2025-06-12

综合模型,是国内首个支持256K 上下文的思考模型,支持深度思考、多模态理解、图形界面操作等多项能力。支持选择开启或关闭深度思考、自适应思考三种方式,其中自适应思考模式可根据提示词难度自动决定是否开启思考,