大模型基准测试 ITU 国际标准正式发布


国际电信联盟电信标准分局(ITU-T)于2025年3月正式发布ITU-T F.748.44 基础模型的评估标准:基准测试/ Assessment criteria for foundation models: Benchmark。

该项国际标准由中国信息通信研究院(简称“中国信通院”)牵头制定,规范了大模型基准测试的指标要求和测试方法。该标准旨在推动大模型基准测试体系架构形成国际共识,为大模型技术提供方和应用方提供高质量的能力评估依据,引导大模型技术及产业健康有序发展。

根据介绍,本次发布的国际标准基于当前产学研界500余项基准测试系统性研究,一方面确立了大模型基准测试的4项核心要素,包括测试维度(测试场景、测试能力、测试任务和测试指标)、测试数据集、测试方法和测试工具。

另一方面,针对通用场景的基础模型,提供了标准化的测试用例和范例流程,以支持企业规范开展大模型能力评估。

中国信通院人工智能研究所于2023年开始布局大模型基准测试研究,并于2023年底发布“方升”大模型基准测试体系,推出自适应动态测试方法,积累600万条数据集,构建FactTeting测试工具,支撑整个大模型测试过程的自动化实施。

自2024年以来,参照已发布的ITU大模型基准测试国际标准,对国内外标杆大模型以两个月为周期开展持续监测工作,包括OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max、百度文心大模型X1等上百个测试模型,目前已发布大语言通用能力、推理能力、代码能力,多模态理解能力、文生图能力、文生视频能力等多个轮次的评测结果。

国际标准ITU-T F.748.44的发布是大模型测试领域的重要标准化成果,对推动技术创新和发展、引领行业发展趋势、促进国际合作与交流等方面具有重要意义。


相關推薦

2023-11-15

ents of function as a service(云计算-函数即服务功能要求)”国际标准成功立项,并计划于2025年正式发布。 本国际标准依托中国信通院牵头制定的行业标准YD/T 3764.9-2021《云计算服务客户信任体系能力要求 第9部分:函数即服务》提

2025-04-16

有消息称,OpenAI在刚刚发布的GPT-4.1系列模型中评测其函数调用能力时采用了ComplexFuncBench,这是由智谱团队提出的专用于评估大模型复杂函数调用能力的测试基准。 ComplexFuncBench主要评测大模型在128K的长上下文下进行多步带约

2025-04-11

字节跳动豆包大模型团队宣布开源首个多语言类 SWE 数据集——Multi-SWE-bench,可用于评估和提升大模型“自动修 Bug”能力。 据介绍,在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈

2023-11-06

2023年11月3日,昆仑万维“天工”大模型宣布通过《生成式人工智能服务管理暂行办法》备案,面向全社会开放服务! 用户在应用商店下载“天工APP”或登陆“天工官网”(www.tiangong.cn)均可直接注册使用。 官方介绍称,「天

2025-04-18

能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。 根据介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面测试中,10

2022-11-30

下的性能测试集。SSB 基于 TPC-H 提供了一个简化版的星型模型数据集,主要用于测试在星型模型下多表关联查询的性能表现。另外,业界内通常也会将 SSB 打平为宽表模型(以下简称:SSB-Flat),来测试查询引擎的性能。 在 SSB-Fl

2025-04-09

高质量视频方面也取得了重大进展,在某些场景下,语言模型智能体(language model agents)甚至在有限时间预算的编程任务中超越了人类。 图|选择的 Al 指数技术性能基准 vs. 人类表现 2.AI 正越来越多地融入到日常生活中 从

2023-07-19

继6月发布了7B预训练底座模型后,百川智能团队于近日最新开源了13B模型,包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat,同时支持商用。 目前为止中文社区已经陆续发布了大量的开源模型,主要集中在6B-13B之

2025-04-17

HiDream 智象未来团队宣布正式开源图像生成大模型 HiDream-I1 与交互编辑模型 HiDream-E1。 HiDream-I1 在权威榜单 Artificial Analysis 中 24 小时内登顶,成为首个跻身全球第一梯队的中国自研生成式 AI 模型,并在图像质量、语义理解、艺

2025-04-11

英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1,可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。 根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,

2024-07-11

中文大模型测评基准SuperCLUE发布2024上半年报告,披露针对国内外33个大模型的综合测评结果。 从代表通用能力的一级总分来看,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet与通义千问开源模型Qwen2-72B-Instruct并列第二,得分均为7

2023-03-01

在低代码平台上体验 AI 机器学习,满足从数据准备、模型训练、到模型发布的全链路需求 目前该项目已在多家金融企业场景中投入使用。以某金融机构为例,其数据平台 IT 部门希望提升数仓平台对资源的利用率,缩短数

2024-07-18

工智能初创公司 Mistral 以其强大的开源人工智能模型而闻名。今天,该公司在其不断壮大的大型语言模型 (LLM) 家族中推出了两个新产品:一个是基于数学的模型,另一个是面向程序员和开发人员的代码生成模型,其基础

2025-03-28

数据智能公司 Databricks 近日推出了一种全新的大语言模型微调方法 ——TAO(Test-time Adaptive Optimization)。通过运用无标注数据和强化学习,TAO 不仅在降低企业成本方面表现出色,更是在一系列基准测试中取得了令人瞩目的成绩。