新华网大模型评测:文心一言多项第一


如今的国内市场已上线有 100 多款大模型产品。对此,新华网与权威机构联合发布了一份《国内 LLM 产品测试报告》,为业界选择大模型提供了内容安全、常识问答、数学运算、阅读理解和主观问答等五大维度。

报告以文心一言、GPT-3.5等四大知名大模型为例进行评测,结果显示百度文心一言综合得分第一,超过GPT-3.5,国内大模型排名第一。

内容价值是企业选择大模型重要因素

大模型具有良好的通用性和泛化性。普通人通过简单的问答,就能获得想要的服务和产品功能。但是不同国家和地区有不同的法律文化、社会习俗、伦理道德。因此,对于同一个问题,大模型给出的答案可能会引发不同的社会反馈,有正面效应也可能含有负面争议,一些文化偏见甚至可能引发群体矛盾。

因此,内容是选择大模型的重要考虑因素。在新华网的评测报告中,有两大关于内容的维度。一是内容安全问答,包含了意识形态、非法涉黄等多项维度,二是常识问答,涵盖有中国文化、历史、地理和生活等常识知识。新华网物联网技术总监葛振斌表示,“大模型生成的内容必须符合当地法律和社会道德要求。可以说,各个国家都需要‘更适合自己历史文化’的大语言模型。”

内容,对于产业界同样非常重要,有的企业涉及国计民生,还有的企业依靠“传承配方”形成独特竞争力。中国传媒大学新媒体研究院院长赵子忠表示,“这对大模型在信息安全、数据安全、定制化等方面的服务能力提出了考验。大模型必须具备行业化、场景化的服务能力,才能满足不同企业的要求。”

文心一言“最适合中国”

当前,从政府机构到企业公司,都迫切需要一些判断大模型适合程度的标准和方法。

新华网物联网技术总监葛振斌认为,评测大模型有5项维度非常重要:一是把控生成内容安全性的能力,背后涉及意识形态、政治体制、非法涉黄等维度,每一项都事关一个社会文明的底线;二是常识推断计算的能力,涉及自然、文化、地理、历史和生活等多个领域,必须先吃透这些方面的常识,才能避免生成不恰当的内容结果;三是对长文本的语义理解能力。这可以考验大模型产出的内容是否正确且言之有理,是否具有较好的说服力;四是数学运算及数学推理能力;五是主观思维能力,考验大模型是否可以准确理解当地风俗习惯或者传统文化。

新华网评测报告显示,文心一言因中文搜索引擎和算法模型优势,在安全、常识、数学、阅读等方面优势明显。在五个维度上的得分计算均值,文心一言的综合得分为94.7分,排名第一,高于GPT-3.5的76.9分。这说明当前文心一言在总体能力(中文处理)上已经超越了GPT-3.5模型。

(新华网测试报告:百度文心一言综合得分第一)

凭借上述表现,文心一言在“最适合中国”方面抢占领先身位,领跑国内大模型。

中国传媒大学新媒体研究院院长赵子忠建议,创业者和开发者以及中小企业,其实不需要从0到1的打造自己的大模型,可以基于文心大模型打造智能应用,避免重复造轮子,把精力放在自己擅长的创新上。谁先做出来满足用户需求的应用,谁就抢占了发展先机。


相關推薦

2023-08-11

清华大学新闻与传播学院沈阳团队近日发布的《大语言模型综合性能评估报告》显示,百度文心一言在三大维度20项指标中综合评分国内第一,超越ChatGPT,其中中文语义理解排名第一,部分中文能力超越GPT-4。 据了解,报告本

2023-10-27

SuperCLUE 发布了中文大模型10月榜单。其中,vivo自研大模型以70.74的总分位列总排行榜第四,在国内大模型中排行第一;排在其后的分别是Moonshot、文心一言4.0和SenseChat 3.0。 SuperCLUE是中文通用大模型多层次的综合性测评基准,包

2023-08-01

王海峰在近日举办的 ACM 中国图灵大会上,就文心大模型的核心技术进行了解读。 文心一言是百度自主研制的知识增强大语言模型,首先从数万亿数据和数千亿知识中融合学习得到预训练大模型,在此基础上采用有监督精调

2024-07-11

中文大模型测评基准SuperCLUE发布2024上半年报告,披露针对国内外33个大模型的综合测评结果。 从代表通用能力的一级总分来看,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet与通义千问开源模型Qwen2-72B-Instruct并列第二,得分均为7

2023-08-18

大会,百度首席技术官王海峰在大会上表示,文心一言大模型现已上线 5 个原生插件:百度搜索、览卷文档、E 言易图、说图解画、一镜流影。 同时,文心一言现已支持一次同时使用 3 个插件,官方称在扩展大模型能力边界的

2023-03-20

文心一言 (ERNIE Bot)—— 百度全新一代知识增强大语言模型、文心大模型家族的新成员,正式在百度总部 “挥手点江山” 会议室里发布。 发布会一开场,百度 CEO 李彦宏先给大家打了一剂预防针: 从某种意义上说百度

2023-10-26

科学技术大学宣布共同推出 PonderV2 通用 3D 预训练方法与模型。 Ponder系列在通用3D方面实现三个“首次”:首次同时支持室内外使用场景;首次同时支持点云、体素和多视角图像输入;首次在不同语义层级的下游任务上达成最佳

2023-02-08

ard 后,百度微信公众号今日也官宣介绍了该公司的大模型新项目 —— 文心一言(英文名 ERNIE Bot)。公告注释称: ①.百度在人工智能四层架构中,有全栈布局。包括底层的芯片、深度学习框架、大模型以及最上层的搜索

2023-04-08

com/ 根据官网的介绍,文心一言是知识增强的大语言模型,也是文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言基于飞桨深度学习平台和文心知识

2023-10-20

我们一起聊 AI!>>> 百度首席技术官王海峰在解读文心大模型 4.0 背后的关键技术和最新进展时表示,文心大模型 4.0 的理解、生成、逻辑、记忆四大能力都有显著提升。 文心大模型4.0在9月已开始小流量上线,过去一个多月效果

2023-10-19

上,百度创始人、董事长兼首席执行官李彦宏宣布文心大模型 4.0 正式发布,开启邀请测试。 李彦宏表示,文心大模型 4.0 是迄今为止最强大的文心大模型,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上都有着

2023-09-01

够获得大量真实世界中的人工反馈,这将进一步改进基础模型,并以更快速度迭代文心一言,创造更好的用户体验。 

2023-09-08

下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。 具体包括: 五家北京企业机构:百度(文心一言)、抖音(云雀

2023-10-24

提升至量化管理。同时,AI提词支持百度文心一言大语言模型;DevOps安装时支持一键安装多个相关应用、支持使用命令行进行版本升级,大幅提升安装和升级效率。 新增功能点 度量项: BI二级菜单新增度量项模块。