中国信通院发起大模型幻觉测试，总体涉及五种测试维度

2025-03-20 發表於开源资讯

据「中国信通院」公众号消息，中国信息通信研究院人工智能所基于前期的AI Safety Benchmark测评工作，发起大模型幻觉测试。

本轮幻觉测试工作将以大语言模型为测试对象，涵盖了“事实性幻觉”和“忠实性幻觉”两种幻觉类型。

测试数据包含7000余条中文测试样本，测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型，以及对应事实性幻觉检测的事实判别题型。

总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。

相關推薦

中国信通院发布“2025 智能体十大关键词”

2025-08-08

中国人工智能产业发展联盟副秘书长、中国信息通信研究院（简称“中国信通院”）副总工程师王爱华近日正式发布并解读“2025智能体十大关键词”。十大关键词分别是通用智能体、专用智能体、端侧智能体、企业级智能体、

中国信通院联合发布软件智能开发工具及应用图谱

2025-04-17

应用市场情况，洞察智能开发产业现状及未来发展趋势，中国信息通信研究院（以下简称“中国信通院”）与中国人工智能产业发展联盟（AIIA）牵头，联合中信、华为、百度、硅心科技、软通动力、东软、煤科总院，聚焦智能

中国信通院第九批可信区块链评测结果公布

2023-06-29

2023年6月25日，第九批“可信区块链评测”专家评审会在中国信息通信研究院（以下简称“中国信通院”）召开，通过产品资料审核、测试报告审核、质询与答疑、集中评议四个环节的评审，共计17款区块链产品通过评审。第九

大模型基准测试 ITU 国际标准正式发布

2025-04-12

essment criteria for foundation models: Benchmark。该项国际标准由中国信息通信研究院（简称“中国信通院”）牵头制定，规范了大模型基准测试的指标要求和测试方法。该标准旨在推动大模型基准测试体系架构形成国际共识，为大模型

信通院发布《中国综合算力评价白皮书（2023年）》

2023-09-07

为进一步衡量我国综合算力发展情况，中国信息通信研究院撰写了《中国综合算力评价白皮书（2023年）》。白皮书全面阐述了综合算力的内涵和定义，构建了涵盖算力、存力、运力、环境等关键因素的综合算力评价指标体系，

新华网大模型评测：文心一言多项第一

2023-08-06

意识形态、非法涉黄等多项维度，二是常识问答，涵盖有中国文化、历史、地理和生活等常识知识。新华网物联网技术总监葛振斌表示，“大模型生成的内容必须符合当地法律和社会道德要求。可以说，各个国家都需要‘更适合

信通院牵头的服务器无感知（Serverless）国际标准在 ITU 成功立项

2023-11-15

会议，来自世界各国的百余名代表参加会议。会上，由中国信息通信研究院（简称“中国信通院”）牵头提出的ITU-T Y.FaaS-reqts“Cloud computing - Functional requirements of function as a service（云计算-函数即服务功能要求）”国际标准成功

小米 Mi-BRAG 获中国信通院可信 AI RAG 评估最高等级

2025-06-07

2025年5月，小米自研智能知识库问答框架—Mi-BRAG顺利通过中国信息通信研究院（以下简称“中国信通院”）组织的“可信AI检索增强生成（RAG）”评估，并获当前最高评级4+级。 Mi-BRAG是小米大模型团队自主研发的智能知识库问

信通院公布第三批《信息安全技术软件产品开源代码安全评价方法》国家标准试点验证结果

2023-07-27

力，降低开源供应链安全风险，2023年7月18日上午9:00，由中国信息通信研究院和中国通信标准化协会合办的“2023中国互联网大会开源供应链论坛”在北京举办。作为论坛的重磅环节，中国信通院发布了第三批《信息安全技术软

中国信通院发布算力互联公共服务平台

2024-07-13

2024年7月11日，中国信息通信研究院（简称“中国信通院”）发布算力互联公共服务平台，联合产业界开展算力互联网共识共创行动。平台现已开放测试，试用：http://stateioc.iqka.com/ 算力互联公共服务平台是推进和管理全国算

政企合作 | 石原子科技加入重庆“满天星”行动计划，入围数字重庆建设生态企业

2023-08-03

江省级、国家级科技型中小企业。石原子科技积极参与中国数据库产业建设，目前已经成为中国信通院分布式系统稳定性实验室成员单位、中国通信标准化协会（CCSA）大数据技术标准推进委员会（TC601）全权成员单位、中国信

昆仑万维「天工」大模型正式向全社会开放

2023-11-06

信AI”评估，并被评选为人工智能实验室副组长单位。经中国信通院评估，昆仑万维天工大模型符合AIIA/PG 0071-2023、AIIA/PG 0072-2023评估标准，模型开发、以及模型能力均达到了“4+级”。 10月30日，昆仑万维开源百亿级大语言模型

信通院发布 2023 Q1《全国移动网络质量监测报告》

2023-06-14

各电信运营企业来看，5G网络下行均值接入速率领先的是中国移动，上行均值接入速率领先的是中国联通；4G网络下行均值接入速率与上行均值接入领先的均为中国联通。在此阅读完整报告。

我国首个软件开发智能体标准发布

2025-05-28

中国信息通信研究院（简称“中国信通院”）与中国工商银行、北京兴云数科技术有限公司、北京百度网讯科技有限公司牵头，联合农业银行、邮储银行、科大讯飞、腾讯、阿里、华为等二十余家头部企业共同编制《面向软件工