Google Kaggle 举办 AI 国际象棋锦标赛,评估领先模型的推理能力


OpenAI 的 o3 和 04-mini、Google LLC 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash、Anthropic 的 Claude Opus 4 以及 xAI Corp. 的 Grok 4 等全球性能最强的人工智能模型将在棋盘上展开正面交锋。

这场为期三天的人工智能象棋对决是Google数据科学社区 Kaggle 即将在新开发的 Game Arena 举办的一系列锦标赛的首场。在那里,模型将在一系列旨在评估其思维和推理能力的战略游戏中相互竞争。

Google DeepMind 和 Kaggle 将与 Chess.com、国际象棋应用程序 Take Take Take 以及传奇国际象棋直播主播 Levy Rozman 和 Hikaru Nakamura 合作举办此次比赛,首场模拟比赛将于明天开始。

Kaggle Game Arena是一个全新的 AI 基准测试平台,旨在测试大型语言模型在围棋和狼人杀等一系列战略游戏中的竞争力。首先登场的是 AI 国际象棋表演赛,该表演赛将于 8 月 5 日至 7 日举行,模拟比赛将在 Kaggle.com 上进行直播。

Hikaru Nakamura 将对每场比赛进行评论,而 Levy Rozman 将在GothamChess YouTube 频道上提供每日比赛的回顾和分析。比赛结束时,Magnus Carlsen 将在Take Take Take YouTube 频道上直播冠军对决和赛事回顾。

八位选手将角逐国际象棋霸主地位:Gemini 2.5 Pro、Gemini 2.5 Flash、Claude Opus 4、DeepSeek-R1、Moonshot 的 Kimi 2-K2-Instruct、o3、o4-mini 和 Grok 4。比赛将采用标准的单败淘汰赛制,每场比赛的胜负将通过四局两胜制决出。Kaggle Game Arena 每天将直播一轮比赛,因此第一轮四分之一决赛将进行四场八个模型的对决,第二天将进行两场半决赛,第三天将进行一场决赛。

Google在一篇博客文章中概述了一系列规则,称这些模型将响应基于文本的输入。所有参赛模型都不得访问任何第三方工具,因此它们无法直接使用 Stockfish 国际象棋引擎来识别任何情况下的最佳走法。相反,它们必须自行思考。

模型不会获得所有可能的合法走法列表,如果模型尝试走法,则允许重试三次。如果模型未能走法,则将弃权。此外,每步走法都有60分钟的时间限制。

直播将尝试展示每个竞争模型如何“推理”其下一步行动,以及对任何失败行动的反应。

除了比赛之外,Kaggle 还将创建一个更全面的排行榜,根据每个模型在数百场非直播的“幕后”比赛中的表现进行排名。每个模型将与竞争对手进行多次对决,对决双方随机选择。此举旨在帮助 Kaggle 创建一个更强大的排行榜,作为衡量每个模型棋艺的综合基准。

Kaggle 产品经理 Meg Risdal 表示:“虽然比赛是一种有趣的方式,可以观看并了解不同模型在游戏竞技场环境中如何下棋,但最终的排行榜将代表我们长期以来对模型下棋能力的严格基准。”

Google表示,推出 Kaggle 游戏竞技场是因为国际象棋等游戏是评估法学硕士推理能力的最佳方式之一。

这是因为游戏能够抵御Google所谓的“饱和度”,换句话说,可以用标准公式来解决。国际象棋、围棋和其他游戏极其复杂,每场比赛都是独一无二的,这意味着随着每个参赛者的进步,难度也会随之增加。而狼人杀游戏则能够考验企业的基本技能,例如在不完整信息中导航,以及在合作与竞争之间取得平衡。

此外,Google表示,游戏就像现实世界技能的代理,可以测试模型在战略规划、记忆、推理、适应、欺骗和“心智理论”(即预测对手想法的能力)方面的能力。同时,像“狼人杀”这样的团队游戏可以帮助评估每个模型的沟通和协调能力。

Kaggle 的全新 Game Arena 将展示当前和即将举行的直播比赛,每场比赛都将拥有专属页面,列出排名模型的排行榜、比赛结果以及开源游戏环境及其规则的具体细节。随着每个模型玩更多比赛,以及更新的模型添加到排名中,排行榜将动态更新。

未来,Kaggle Game Arena 将扩展到包括更复杂的多人视频游戏和真实世界模拟,以生成更全面的基准来评估不断扩展的 AI 模型技能。


相關推薦

2025-05-22

谷歌在 Google I/O 2025 大会上宣布为其旗舰AI模型Gemini 2.5 Pro引入名为“深度思考”(Deep Think)的增强推理模式。该模式允许模型在回应前考虑多个假设和答案,从而提升其在复杂查询,特别是数学和编码相关任务上的表现。 根据

2024-09-26

生态汇聚”主题论坛,也在华为全联接大会2024期间首次举办,业内专家在现场分享了以电信魔乐社区为主导的AI生态社区功能、技术亮点及关键优势。华为计算产品线昇腾领域人工智能生态总经理刘伟发表演讲并表示,openMind应

2024-08-16

GOTC × GOGC 全球开源极客嘉年华于上海张江科学会堂隆重举办。大会现场,开源生态网络共建暨张江节点正式揭牌;世纪互联与开源PHP宣布正式开启战略合作,共同推动智算互联的深化发展。主论坛总体围绕开源生态合作与发展

2023-10-28

训练及推理。 此外,昆仑万维在“华为全联接大会2023”举办期间,发布“天工大模型端云一体化方案”。该方案具备开箱即用、定制调优、服务保障三大优势,企业可以自主地训练模型,也可以基于天工模型定制,实现从应用

2025-06-28

Google宣布推出 Gemma 3n,这是其下一代的开放 AI 模型,与我们之前看到的相比有了显著的提升。继上个月在 Google I/O 大会上进行预览后,完整版现已发布,可直接在移动硬件上运行。 与 Gemini 的不同之处在于,Gemma 是为开发者

2025-04-08

的深层分歧。 3月28日,联合国裁军研究所在瑞士日内瓦举办了“全球人工智能安全与伦理”国际研讨会。中国裁军大使沈健在阐述中方对人工智能全球治理的看法及政策主张时说,主要大国在人工智能领域互信缺失,个别大国

2025-06-07

回复,提升了用户交互的体验。 开发者现在就可以通过Google AI Studio和Vertex AI中的Gemini API开始使用升级后的2.5 Pro预览版进行构建。 值得一提的是,谷歌在AI Studio和Vertex AI中新增了“思考预算(thinking budgets)”功能,这让开发

2025-06-11

训练配方、用于优化推理的技术,以及与同类模型相比的评估结果。在整个过程中,我们强调了如何在设备和私有云计算上实现速度和效率的提升,同时扩展了能力并提高了质量。最后,在我们持续致力于维护核心价值观的承诺

2025-04-01

I 模型”,首个发布的实验性版本为 Gemini 2.5 Pro,已面向 Google AI Studio 和 Gemini 应用的高级版用户(月费 20 美元)开放,面向规模化应用的定价策略则将在未来几周内公布。 据谷歌介绍,这个最新版本将 “显著增强的基础模型

2025-04-05

外测试与优化工作。为进一步完善开发流程,OpenAI 计划举办一系列开发者活动,以收集反馈并展示早期原型:首场活动将于数周后在旧金山启动,随后在欧洲和亚太地区陆续展开。 Sam Altman 刚刚还发文表示: 我们不会做任

2025-04-25

,这款即将发布的模型将经历严格的“红队测试”和安全评估流程。知情人士透露,OpenAI将为该模型发布“模型卡片”(Model Card),即一份全面的技术文档,详尽展示模型在内部与外部基准测试、安全性评估等方面的结果。 奥

2025-04-09

件急剧上升,但在主要工业模型开发者中,标准化的 RAI 评估仍然很少。然而,新的基准如 HELM Safety、AIR-Bench 和 FACTS 为评估事实性和安全性提供了有希望的工具。在公司中,识别 RAI 风险和采取有意义的行动之间存在差距。相比

2025-04-12

分局(ITU-T)于2025年3月正式发布ITU-T F.748.44 基础模型的评估标准:基准测试/ Assessment criteria for foundation models: Benchmark。 该项国际标准由中国信息通信研究院(简称“中国信通院”)牵头制定,规范了大模型基准测试的指标要求

2025-05-15

的模型架构、训练方法、数据处理、可扩展性以及全面的评估结果。 https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf Qwen3系列包括Qwen3-0.5B、Qwen3-1.8B、Qwen3-4B、Qwen3-7B、Qwen3-14B、Qwen3-32B、Qwen3-72B等多种参数规模的模型