谷歌在 Google I/O 2025 大会上宣布为其旗舰AI模型Gemini 2.5 Pro引入名为“深度思考”(Deep Think)的增强推理模式。该模式允许模型在回应前考虑多个假设和答案,从而提升其在复杂查询,特别是数学和编码相关任务上的表现。
根据测试数据,Gemini 2.5 Pro Deep Think 版本在多个高难度基准上表现出色,超越了 OpenAI o3 和 o4-mini。其中包括:
- 在 2025 年 USAMO(美国数学奥林匹克) 测试中取得了优异成绩;
- 在面向竞赛级编程能力的高难度基准 LiveCodeBench 上领先;
- 在 MMMU(多模态推理测试)中取得 84.0% 的高分,展现出卓越的多模态推理能力。
目前,“深度思考”模式仅供受信任的测试人员使用。
同时,谷歌宣布其Gemini 2.5 Flash模型已在Gemini应用程序中向所有用户提供,Google AI Studio中最新的gemini-2.5-flash-preview-05-20版本已可用。Gemini 2.5 Flash和2.5 Pro都将增加音频输出功能。
谷歌表示:
2.5 Flash 是我们最高效的主力模型,专为速度和低成本而设计——现在它在很多维度上都更优秀了。
它在推理、多模态、代码和长上下文的关键基准测试中都得到了改进,同时效率更高,在我们的评估中使用的令牌数量减少了 20-30%。
此外,谷歌为 Gemini API 添加了对模型上下文协议(Model Context Protocol, MCP)定义的原生 SDK 支持,以便更轻松地与开源工具集成。
详情查看:https://mp.weixin.qq.com/s/NCcmWcgZGEY6Qrg3yZSRCg