SCALE 正式开源:一个面向专业级任务的大语言模型 SQL 能力评测框架


随着大语言模型(LLM)在数据科学领域的应用日益广泛,学术界和工业界涌现出多种评测基准。然而,我们观察到,现有评测体系大多聚焦于 Text-to-SQL 的转换准确率,而这远不能全面反映模型在真实、复杂场景下的 SQL 处理能力。

为了弥补这一关键空白,我们经过深入研究,提出了 SCALE ------ 一个面向专业级任务的大语言模型 SQL 能力开源评测框架。我们致力于通过开放、透明和社区驱动的方式,建立一个行业公认的评估标准。

https://sql-llm-leaderboard.com/

背景:现有 LLM-SQL 评测的局限性

近年来,大语言模型处理结构化查询语言(SQL)的能力取得了长足进步。一系列公开的评测基准(Benchmark)也应运而生,它们在很大程度上推动了模型在 Text-to-SQL 任务上的发展。

尽管如此,我们发现现有的评测体系仍存在显著的局限性。在专业的数据库管理和软件开发实践中,开发者面临的挑战远比 "将一句话转为 SQL" 要复杂得多:

  • 性能是生命线:一个能返回正确结果但执行耗时数分钟的查询,在生产环境中是不可接受的。现有评测很少关注模型生成 SQL 的性能和效率。

  • 环境是多样的:数据库迁移和跨平台适配是常见需求。但模型能否精准处理不同数据库(如 MySQL,Oracle,PostgreSQL)之间的 "方言" 差异,现有评测也鲜有涉及。

  • 理解是深度的:维护、审查和重构遗留代码是开发者的日常。这要求模型不仅能 "写" 代码,更能深度 "理解" 代码的逻辑、意图和潜在风险。这一点同样是当前评测的薄弱环节。

现有评测的单一视角,使得开发者和决策者在面对真实、复杂的业务需求时,难以选择出真正合适的模型。

我们的解决方案:SCALE 评测框架

为了系统性地解决上述问题,我们设计并实现了 SCALE (SQL Capability Leaderboard for LLMs) 大模型 SQL 能力排行榜

SCALE 并非对现有评测的简单复现,而是一个从数据库专家和资深开发者真实工作流出发,构建的全新、完全开源的评测框架。我们相信,只有 开放源代码、开放数据、开放方法,才能建立最广泛的行业信任。

评测基石:一个高质量、多层次的数据集

一个评测框架的公信力,源于其评测数据的质量与广度。为此,我们构建了一个高质量、多层次、贴近真实世界的数据集,并将其向社区完全开放。

  • 真实世界案例:我们收集并脱敏了来自不同行业的真实查询案例。这些案例作为数据集的基础,确保了评测内容与生产环境的实际挑战保持一致。

  • AI 辅助的典型场景构造:为提升测试集的覆盖深度,我们针对容易引发逻辑错误或性能问题的复杂场景,如子查询、多表连接、嵌套查询、存储过程等,利用 AI 辅助构造了大量细粒度的测试用例,旨在精准评估模型在处理复杂查询时的逻辑稳健性与准确性。

  • 评分权重设计:为区分不同任务的复杂度,我们为测试用例设置了不同的评分权重。通常,技术复杂度更高的用例会获得更高的权重。

  • 答案验证:所有测试用例的参考答案均经过交叉验证,以确保其准确性。

三大核心评测维度

基于这一强大的数据集,SCALE 通过三个相互独立的核心维度,深入考察模型在处理高价值、高复杂度 SQL 任务时的真实水平。

⚡ SQL 优化能力 (SQL Optimization)

  • 研究问题:模型是否具备数据库专家(DBA)的性能优化意识?

  • 评估方法:我们为模型提供一系列典型的低性能查询,评估其能否在保证逻辑等价的前提下,改写出性能更优的版本。评测指标不仅包含语法正确性,更引入了对优化规则复杂度的量化评估,以衡量其优化策略的优劣。

  • 应用场景:当您需要进行数据库性能调优或代码重构时,此维度的评测结果将为您提供关键参考。

🔄 方言转换能力 (Dialect Conversion)

  • 研究问题:模型能否成为一个可靠的、跨数据库平台的 "代码翻译官"?

  • 评估方法:我们评估模型在多种主流数据库 "方言" 之间进行转换的逻辑保真度与语法准确性,确保其转换结果是 "开箱即用" 且完全可靠的。

  • 应用场景:对于面临数据库迁移、构建跨平台数据中台等挑战的团队,此维度的领先模型是首选。

📊 SQL 理解能力 (SQL Understanding)

  • 研究问题: 除了写代码,模型对 SQL 的理解有多深?

  • 评估方法: 我们从执行结果准确性、语法错误识别、执行计划分析、查询类型判断等多个角度,全面考察模型对 SQL 代码的深度分析能力。

  • 应用场景: 在进行代码审查(Code Review)、遗留系统维护、自动化代码分析等工作中,此维度的评测结果能帮您找到最 "懂"SQL 的 AI 助手。

SCALE 的价值与应用

我们相信,一个严谨、贴近实践的评测框架,能为不同角色的专业人士创造价值:

  • 对于数据与软件开发人员:提升开发效率,保障交付质量。SCALE 能帮您快速找到最称手的 AI 工具,处理优化、迁移、代码审查等专业任务,将宝贵的精力聚焦于更有创造性的工作上。

  • 对于 AI 研究员与模型开发者:精准定位坐标,指明迭代方向。SCALE 透明的评测方法和开源的数据集,能清晰揭示您模型在专业 SQL 任务上的长处与短板,为下一阶段的优化和训练提供明确的、可量化的目标。

  • 对于企业 CTO 与技术决策者:降低技术风险,驱动业务创新。基于 SCALE 客观、中立的数据做出技术选型,能确保您为企业引入的 AI 能力是真正可靠、高效的,从而赋能团队,构建更健壮的数据基础设施。

结论与展望

我们推出 SCALE,旨在为社区提供一个更专业、更深入、更贴近真实需求的 LLM SQL 能力评估标准。

作为一个开源项目,我们深知社区的力量是其生命力的源泉 。 我们不仅发布评测结果,更开放所有评测脚本、数据集和方法论。我们诚挚地邀请您探索 SCALE 的评测结果,利用这一工具为您的研究和工作做出更精准的技术判断。更重要的是,我们欢迎您 加入我们的社区,贡献代码、提交测试用例或提出宝贵建议。

让我们一同完善 SCALE 的评测体系,共同推动大语言模型在数据库领域的应用走向新的深度。

  • 探索 SCALE 实时排行榜 -> https://sql-llm-leaderboard.com/

  • 了解评测方法与技术细节 -> https://github.com/actiontech/sql-llm-benchmark

SCALE:为专业 SQL 任务,选专业 AI 模型。

更多技术文章,请访问:https://opensource.actionsky.com/


相關推薦

2023-03-02

动。经2个月集中攻关,开发出FlagOpen(飞智)大模型技术开源体系,旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,支持协同创新和开放竞争,共建共享大模型时代的“新Linux”开源开放生态。 北京

2025-04-11

字节跳动豆包大模型团队宣布开源首个多语言类 SWE 数据集——Multi-SWE-bench,可用于评估和提升大模型“自动修 Bug”能力。 据介绍,在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈

2024-08-27

数百,甚至数千。截至本文撰写之日,国内已有180家公司正式推出了自己的AI大模型服务。在开源社区中,用户可部署使用的大模型更是多如繁星,数不胜数。 这些模型按照功能可以分为通用语言处理、语音处理、图像处理以

2023-09-29

研发的电力行业人工智能创新平台及自主可控电力大模型正式公开发布。 电力行业人工智能创新平台提供模型即服务(MaaS),支持模型快速迭代开发,并支撑电力人工智能资源面向全社会开放共享。百度提供了昆仑芯AI芯片、

2023-07-08

23年7月7日】华为开发者大会2023(Cloud)7月7日在中国东莞正式揭开帷幕,并同时在全球10余个国家、中国30多个城市设有分会场,邀请全球开发者共聚一堂,就AI浪潮之下的产业新机会和技术新实践开展交流分享。 在7日下午举行

2023-11-06

程等多模态的AI内容生成能力。 2023年4月17日,昆仑万维正式发布自研千亿级大语言模型“天工”,同时宣布启动邀请测试。“天工”用过通过自然语言与用户进行问答式交互,AI生成能力可满足文案创作、知识问答、代码编程

2022-04-07

说,FlinkSQL 大大加快了 Flink 的应用推广,而本文将简述开源项目 Dinky 如何改善 Flink 的痛点来优化 FlinkSQL 应用体验。 https://github.com/DataLinkDC/dlink https://gitee.com/DataLinkDC/Dinky 二、简介 一个 开箱即用 、易扩展 ,以 Apache Flink 为

2025-05-23

而进行更具针对性的优化。 EVAC 与 EWMBench 组合方案,已正式入选 AgiBot World Challenge @ IROS 2025 – World Model赛道的官方基线系统与评测标准。对于致力于具身智能世界模型研究的开发者和团队而言,提供了一个宝贵的实践与验证平

2023-10-27

行榜 三大能力客观题OPT排行榜 十大基础能力榜单 开源模型排行榜 SuperCLUE 观点 国内第一梯队大模型经过11个月的努力,已经与GPT3.5极为接近。但与GPT4的距离依然巨大,尚未发现有对标和媲美GPT4的迹象。 国内大模

2025-06-17

最初于 2024 年 5 月发布首个 Milestone 版本,在 2025 年 5 月正式发布首个 1.0 GA 版本。Spring AI 侧重 AI 能力构建的底层原子能力抽象以及与 Spring Boot 生态的无缝集成,如模型通信(ChatModel)、提示词(Prompt)、检索增强生成(RAG)

2025-05-10

Meta 开源了名为 LlamaFirewall 的安全框架,用于应对 AI 智能体不断演变的威胁格局,为生产环境中的 AI 智能体提供系统级安全保护。 https://meta-llama.github.io/PurpleLlama/LlamaFirewall/ 随着大型语言模型(LLMs)嵌入 AI 智能体并被

2025-06-17

杂任务。 这一多智能体系统(multi-agent system)从原型到正式上线的过程,让我们在系统架构、工具设计和提示词工程(prompt engineering)等方面积累了重要经验。多智能体系统由多个智能体(即LLMs在循环中自主调用工具)协作完

2025-05-28

发的一站式数据中台解决方案——千数平台(qData)今日正式宣布开源,现已上线至 Gitee !该平台凭借全面的中台能力、精美的界面交互体验以及面向未来的数据治理体系,被誉为“全网最有诚意的数据中台”,现已面向全球开

2023-10-26

InfoWorld 公布了 2023 年最佳开源软件榜单,旨在表彰年度领先的软件开发、数据管理、分析、人工智能和机器学习开源工具。 InfoWorld 是致力于引领 IT 决策者走在科技前沿的国际科技媒体品牌,每年 InfoWorld 都会根据软件对开源