大模型基准测试 ITU 国际标准正式发布

2025-04-12 發表於开源资讯

国际电信联盟电信标准分局（ITU-T）于2025年3月正式发布ITU-T F.748.44 基础模型的评估标准：基准测试/ Assessment criteria for foundation models: Benchmark。

该项国际标准由中国信息通信研究院（简称“中国信通院”）牵头制定，规范了大模型基准测试的指标要求和测试方法。该标准旨在推动大模型基准测试体系架构形成国际共识，为大模型技术提供方和应用方提供高质量的能力评估依据，引导大模型技术及产业健康有序发展。

根据介绍，本次发布的国际标准基于当前产学研界500余项基准测试系统性研究，一方面确立了大模型基准测试的4项核心要素，包括测试维度（测试场景、测试能力、测试任务和测试指标）、测试数据集、测试方法和测试工具。

另一方面，针对通用场景的基础模型，提供了标准化的测试用例和范例流程，以支持企业规范开展大模型能力评估。

中国信通院人工智能研究所于2023年开始布局大模型基准测试研究，并于2023年底发布“方升”大模型基准测试体系，推出自适应动态测试方法，积累600万条数据集，构建FactTeting测试工具，支撑整个大模型测试过程的自动化实施。

自2024年以来，参照已发布的ITU大模型基准测试国际标准，对国内外标杆大模型以两个月为周期开展持续监测工作，包括OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max、百度文心大模型X1等上百个测试模型，目前已发布大语言通用能力、推理能力、代码能力，多模态理解能力、文生图能力、文生视频能力等多个轮次的评测结果。

国际标准ITU-T F.748.44的发布是大模型测试领域的重要标准化成果，对推动技术创新和发展、引领行业发展趋势、促进国际合作与交流等方面具有重要意义。

大模型基准测试 ITU 国际标准正式发布

相關推薦

信通院牵头的服务器无感知（Serverless）国际标准在 ITU 成功立项

智元机器人开源具身世界模型EVAC与评测基准EWMBench

2025 年 7 月《大模型 SQL 能力排行榜》发布

消息称 OpenAI 采用智谱标准评测最新模型

中国信通院发布“2025 智能体十大关键词”

SCALE 正式开源：一个面向专业级任务的大语言模型 SQL 能力评测框架

豆包团队开源多语言代码修复基准 Multi-SWE-bench

昆仑万维「天工」大模型正式向全社会开放

北京人形发布具身世界模型体系

多场景下 3-11 倍性能提升，Apache Doris 1.2 新版本性能揭秘！

开源多模态大模型“书生·万象 3.0”发布

《2025 年人工智能指数报告》发布

李沐发布开源 TTS 语言大模型 Higgs Audio v2

Google Kaggle 举办 AI 国际象棋锦标赛，评估领先模型的推理能力