国际电信联盟电信标准分局(ITU-T)于2025年3月正式发布ITU-T F.748.44 基础模型的评估标准:基准测试/ Assessment criteria for foundation models: Benchmark。
该项国际标准由中国信息通信研究院(简称“中国信通院”)牵头制定,规范了大模型基准测试的指标要求和测试方法。该标准旨在推动大模型基准测试体系架构形成国际共识,为大模型技术提供方和应用方提供高质量的能力评估依据,引导大模型技术及产业健康有序发展。
根据介绍,本次发布的国际标准基于当前产学研界500余项基准测试系统性研究,一方面确立了大模型基准测试的4项核心要素,包括测试维度(测试场景、测试能力、测试任务和测试指标)、测试数据集、测试方法和测试工具。
另一方面,针对通用场景的基础模型,提供了标准化的测试用例和范例流程,以支持企业规范开展大模型能力评估。
中国信通院人工智能研究所于2023年开始布局大模型基准测试研究,并于2023年底发布“方升”大模型基准测试体系,推出自适应动态测试方法,积累600万条数据集,构建FactTeting测试工具,支撑整个大模型测试过程的自动化实施。
自2024年以来,参照已发布的ITU大模型基准测试国际标准,对国内外标杆大模型以两个月为周期开展持续监测工作,包括OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max、百度文心大模型X1等上百个测试模型,目前已发布大语言通用能力、推理能力、代码能力,多模态理解能力、文生图能力、文生视频能力等多个轮次的评测结果。
国际标准ITU-T F.748.44的发布是大模型测试领域的重要标准化成果,对推动技术创新和发展、引领行业发展趋势、促进国际合作与交流等方面具有重要意义。