2025 年 7 月《大模型 SQL 能力排行榜》发布

2025-08-07 發表於开源资讯

一、本月导览与核心看点

2025 年 7 月，AI 大模型在代码生成与理解领域，特别是数据库 SQL 能力上的竞争日趋白热化。

本期 SCALE 评测我们迎来了备受瞩目的 Claude 3.5 Sonnet 、Claude Sonnet 4 首次参评，同时 Gemini 2.5 系列也正式迈入稳定版。更重要的是，我们针对数据库现代化迁移的真实痛点，对评测基准进行了重要升级，旨在更深度地考验模型在复杂、真实场景下的 SQL 处理能力。

SCALE - 大模型 SQL 能力排行榜（202507）

本期核心看点：

新王登基还是实力搅局？

新晋选手 Claude 3.5 Sonnet 、Claude Sonnet 4 首次参评，它在 SQL 优化、方言转换与理解三大维度的综合表现如何？能否撼动现有第一梯队的格局？
方言转换测评基准升级

我们首次引入 大 SQL 转换 与 国产数据库转换 两大评测指标，全面考验模型在处理超长、复杂逻辑及存储过程、函数等高级数据库对象时的能力。
正式版实力验证

Gemini 2.5 Pro 与 Gemini 2.5 Flash 迎来正式版，相较于预览版，其性能与稳定性是否得到全面提升？

二、评测基准更新说明

为更精准地评估 AI 模型在企业级复杂数据库场景下的实用性，本月我们对 SQL 方言转换 维度的评测数据集进行了扩充和深化。

新增指标：大 SQL 转换

在数据库迁移的实际项目中，处理历史遗留的 大 SQL（通常指行数超百行、逻辑复杂的单条 SQL 语句）是一个常见且棘手的难题。我们发现，许多模型在面对此类长文本、高复杂度的转换任务时，容易出现上下文丢失、逻辑错乱、语法错误等问题。

评测目的：检验模型在处理超长、包含多层嵌套查询、复杂 JOIN 和临时表的 SQL 脚本时的转换准确性和逻辑保持能力。

新增指标：国产数据库转换

在国产化替代和信创背景下，企业核心业务系统正加速从传统商业数据库向国产数据库迁移。此过程中，深度依赖于数据库过程化编程能力（如存储过程、函数）的复杂应用，其迁移的准确性和效率成为关键瓶颈。

评测目的：评测模型将传统商业数据库向国产数据库进行自动化转换的能力。这不仅是 SQL 的翻译，更涉及到变量声明、流程控制、异常处理等编程逻辑的跨方言迁移。

本期支持的转换路径：从 Oracle 到 OceanBase（Oracle 模式）4.2.5。

基于以上更新的评测基准，本月的榜单呈现出一些值得关注的新变化。接下来，我们来揭晓本期榜单详细的评测结果与深度分析。

三、本月榜单与焦点分析

分项能力榜单

SQL 优化能力 Top 5

SQLFlash：88.5
DeepSeek-R1：71.6
Claude Sonnet 4：70.9
Qwen3-235B-A22B：69.1
GPT-o4-mini：68.4

SQL 方言转换 Top 5

GPT-o4-mini：83.3
Qwen3-235B-A22B：81.3
DeepSeek-R1：80.2
Gemini 2.5 Flash：79.3
Claude Sonnet 4：77.1

SQL 理解能力 Top 5

Gemini 2.5 Flash：82.3
Gemini 2.5 Pro：82.0
GPT-o1：81.3
GPT-o4-mini：80.8
DeepSeek-R1：80.5

焦点模型深度分析

专题 1：Claude Sonnet 4 首秀评测

作为 Anthropic 的最新力作，Claude Sonnet 4 在本月的评测中展现了均衡但尚未登顶的实力。其在 SQL 优化、方言转换、SQL 理解三大维度的得分分别为 70.9、77.1、79.3，位列总榜中上游。

SQL 优化能力分析：总分 70.9，排名第三。优势在于其出色的「逻辑等价」保证（89.5 分）和对语法及最佳实践的遵循（94.7 分），能生成高质量、规范的 SQL。然而，其在「优化深度」方面仅得到 60 分，说明在提供更深层次的 SQL 优化上仍有较大提升空间。
方言转换与 SQL 理解表现 ：分别以 77.1 分和 79.3 分位列第五和第六。在方言转换的细分项中，其 国产数据库转换能力 （97.4 分）表现亮眼，几乎达到顶尖水平。但在 大 SQL 转换 上仅得到 41.2 分，暴露了其在处理超长上下文时的明显短板。在 SQL 理解方面，其执行准确性（87.1 分）和语法及最佳实践（74.3 分）表现稳健，但在执行计划分析上仅有 46.4 分，说明其对 SQL 底层执行逻辑的理解能力有待加强。

总体来看，Claude Sonnet 4 是一位表现全面的均衡型选手，在 SQL 程式码的规范性和正确性上表现出色，但在性能优化的深度和处理极端复杂问题的能力上，与第一梯队模型相比仍存在一定差距。

Claude Sonnet 4

专题 2：Gemini 2.5 正式版 vs 预览版

本次评测中，Gemini 2.5 Pro 正式版相较于其 06-05 预览版，展现了全面的能力提升，模型综合得分从 80 分提升至 82 分。这表明其在稳定性和综合 SQL 处理能力上都进行了有效优化。具体来看：

语法错误检测能力显著增强：从 89.5 提升至 100 分。这意味着正式版模型不仅能生成更高效的 SQL，也更符合标准的开发规范。
方言转换能力稳中有升：分数从 67.1 提升至 72.2，保持了稳定的转换水准。

总体而言，Gemini 2.5 Pro 正式版 兑现了其从预览到稳定的承诺，特别是在 SQL 优化的深度和规范性上取得了突破性进展，使其成为一个更可靠、更高效的数据库开发辅助工具。

gemini-2.5-pro-preview-06-05

gemin-2.5-pro

专题 3：国产数据库转换能力大揭秘

在 Oracle 到 OceanBase（Oracle 模式）4.2.5 这条关键迁移路径上，各模型表现分化明显，评测揭示了当前 AI 在处理真实世界复杂迁移场景时的核心挑战：

挑战：复杂函数语法理解能力薄弱，易产生"事实性幻觉"。
评测表现：在一个关键的复杂函数转换测试中，整体题目的正确率仅为 25%，仅有 DeepSeek-R1、Claude Sonnet 4、Gemini 2.5 Flash 三个模型给出了正确答案。
问题根因 ：模型在进行方言转换时，容易对某些运算符的兼容性产生"幻觉"。例如，在处理 Oracle 的 CAST ({ expr | MULTISET (subquery) } AS type_name ) 语法时，大多数模型会想当然地认为目标端 OceanBase（Oracle 模式）不支持 MULTISET 运算符，从而错误地将其替换为 COLLECT 聚合函数。但事实恰恰相反：OceanBase 的 Oracle 模式支持 MULTISET，却不支持 COLLECT，详细参考。

这种基于不准确 "知识" 的推理，导致了转换逻辑的根本性错误，是 AI 辅助代码迁移走向生产可用必须攻克的障碍。

GPT-o4-mini

四、本期评测模型变更日志

为确保 SCALE 评测的及时性和前沿性，本月我们新增并升级了以下模型：

1. 新增评测模型

模型名称	备注
Claude 3.5 Sonnet	Anthropic 公司于 2024 年 6 月发布的最新模型
Claude Sonnet 4 thinking	Anthropic 公司于 2025 年 5 月发布的最新模型

2. 升级评测模型

模型名称	旧版本	新版本（本次测评使用）
Qwen3-235B-A22B-Thinking	2024-04-29	Qwen3-235B-A22B-Thinking-2507
Qwen3-235B-A22B-Instruct	2024-04-29	Qwen3-235B-A22B-Instruct-2507
Gemini 2.5 Pro	gemini-2.5-pro-preview-06-05	gemini-2.5-pro（稳定版）
Gemini 2.5 Flash	gemini-2.5-pro-preview-06-05	gemini-2.5-flash（稳定版）

五、总结与展望

本月评测结果显示，随着评测维度的深化，模型之间的能力差异被进一步放大。特别是在新增的 大 SQL 转换 评测中，仅有少数顶级模型能较好地完成任务，这为后续模型迭代指明了关键方向。Claude Sonnet 4 的加入为市场带来了新的活力，而 Gemini 2.5系列（稳定版） 的表现也验证了其持续优化的成果。

SCALE 下期展望：

我们将持续追踪各大厂商的最新模型进展，并计划在未来引入 SQLShift 方言转换应用的测评。
我们正在探索构建更具挑战性的混合场景数据集，模拟企业中数据分析、ETL 和数据库管理一体化的真实工作流。

六、专家点评

专家介绍

韩锋，CCIA（中国计算机协会）常务理事，前 Oracle ACE，腾讯 TVP，阿里云MVP，dbaplus 等多家社群联合创始人或专家团成员。著有《SQL优化最佳实践》、《数据库高效优化》、【韩锋频道】公众号主理人。

点评内容

韩峰：SCALE 榜单的发布，旨在建立起 "AI for SQL" 领域的标准化评测体系，这对于数据库行业具有非常正向意义。

通过科学测评维度（SQL 优化、方言翻译、深度理解）和严谨的加权评分（高难度、高价值任务权重更大），为市场提供了权威、客观的基准 "标尺"，使开发者、DBA 和技术决策者能清晰了解各模型的真实水平与相对优势，从而指导技术选型并消除市场混乱。

同时，公开透明的排行榜有力驱动模型提供商针对核心短板进行优化，尤其在高权重的复杂任务上持续投入，加速了关键技术的突破与模型能力的整体提升。对企业用户而言，标准评测显著降低了引入 AI 处理 SQL 的技术选型风险和试错成本，为项目落地提供了可靠决策依据。相信，这种标准化引领了整个 "AI for DB" 生态的发展方向，引导资源聚焦和工具开发，促进良性循环，加速 AI 与数据库的深度融合，释放智能化数据管理的巨大潜力。

感谢您的关注！我们致力于提供大语言模型（LLM）处理 SQL 的核心能力测评。如果您有任何建议或希望看到哪些模型的评测，欢迎随时与我们联系。

SCALE：为专业 SQL 任务，选专业 AI 模型。

✨ Github：https://github.com/actiontech/sql-llm-benchmark
💻 官网：https://sql-llm-leaderboard.com/

2025 年 7 月《大模型 SQL 能力排行榜》发布

一、本月导览与核心看点

二、评测基准更新说明

新增指标：大 SQL 转换

新增指标：国产数据库转换

三、本月榜单与焦点分析

分项能力榜单

焦点模型深度分析

专题 3：国产数据库转换能力大揭秘

四、本期评测模型变更日志

1. 新增评测模型

2. 升级评测模型

五、总结与展望

六、专家点评

相關推薦

华为发布准万亿模型盘古 Ultra MoE

昆仑万维「天工」大模型正式向全社会开放

腾讯混元官宣：3 月 21 日发布全新推理模型 T1

SCALE 正式开源：一个面向专业级任务的大语言模型 SQL 能力评测框架

欧洲首台百万兆次级超级计算机 JUPITER 启用

中国 AIGC APP 月活 TOP10 出炉：DeepSeek 第一、豆包第二

印度人工智能快速发展隐忧犹存

SuperCLUE 10 月榜单：vivo 自研大模型位列国内第一

RWKV 社区七月动态：RWKV7-G0 7.2B 模型发布，8 篇高质量论文

调问周更新 2025.4.4~2025.4.11：样式统一管理+DSL 全面升级+7 项新增功能+6 项优化

TIOBE 7 月榜单：高级编程语言争夺前十，Ada 胜出？

钉钉重注 AI：成立行业专属模型团队，向 CTO 汇报

阿里巴巴 2025 财年收入 9963 亿元

6 月数据库排行榜：排名稳定，Microsoft SQL 小涨