清华报告:文心一言稳坐国内第一,超越 ChatGPT


清华大学新闻与传播学院沈阳团队近日发布的《大语言模型综合性能评估报告》显示,百度文心一言在三大维度20项指标中综合评分国内第一,超越ChatGPT,其中中文语义理解排名第一,部分中文能力超越GPT-4。

据了解,报告本次评估选取了GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工7个大语言模型,围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等 20 项指标。

综合来看,文心一言语义理解能力突出,特别是具备更好的中文理解能力,更懂中国文化,同时时效性强、内容安全把握细微,这源于其知识增强、检索增强和对话增强的技术创新

生成质量方面,基于对语义理解、输出表达、适应泛化的综合评测,文心一言得分率76.98%,仅次于GPT-4,遥遥领先于包括ChatGPT在内的其他大语言模型。其中,在部分中文语义理解方面,文心一言以92%的得分率排名榜首,超越讯飞星火、GPT-4。凭借知识增强的核心特色,文心一言对本土语言特性把握更精准,同时由于训练语料中包含大量本土文本,对本土文化理解也更深刻,能够更好处理与本土文化相关的主题和背景,如诗歌、方言等,具备更强的国内落地空间。

安全合规方面,基于对内容安全性、偏见和公平性、隐私保护等综合评测,文心一言得分率78.18%,与GPT-4并列排名第一,远超其他大语言模型。报告显示,文心一言内容安全性好,注重用户隐私保护和版权保护。


相關推薦

2023-08-18

心一言在三大维度 20 项指标中综合评分国内第一,超越 ChatGPT,其中中文语义理解排名第一,部分中文能力超越 GPT-4。

2023-08-06

,新华网与权威机构联合发布了一份《国内 LLM 产品测试报告》,为业界选择大模型提供了内容安全、常识问答、数学运算、阅读理解和主观问答等五大维度。 报告以文心一言、GPT-3.5等四大知名大模型为例进行评测,结果显示

2023-03-20

延续。 但也不能说我们完全 ready 了,文心一言要对标 ChatGPT、甚至是对标 GPT-4 的门槛是很高的,全球大厂还没有一个做出来的,百度是第一个。我自己测试感觉还是有很多不完美的地方。 李彦宏指出:“无论是哪家公司,

2023-10-27

,在国内大模型中排行第一;排在其后的分别是Moonshot、文心一言4.0和SenseChat 3.0。 SuperCLUE是中文通用大模型多层次的综合性测评基准,包括多轮开放问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT。主要考察模型在中文能

2023-09-08

Google 开发者在线课程 开始学习 8 月 31 日,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服

2023-02-08

在谷歌宣布推出与 ChatGPT 竞争的 AI 产品 Bard 后,百度微信公众号今日也官宣介绍了该公司的大模型新项目 —— 文心一言(英文名 ERNIE Bot)。公告注释称: ①.百度在人工智能四层架构中,有全栈布局。包括底层的芯片、

2023-08-01

力边界。 根据 IDC 最新发布的《AI 大模型技术能力评估报告,2023》,百度文心大模型3.5在14个参评模型中拿下12项指标的7个满分,得到“综合评分第一,算法模型第一,行业覆盖第一”三个绝对第一。 此外,王海峰还在演讲中

2023-04-08

称,其公司就 App Store 和各种应用商店上存在大量盗版“文心一言”App 的问题,已向北京市海淀区人民法院对苹果公司及相关开发者团队发起诉讼。 百度官方声明: 目前文心一言没有任何官方APP!在我司官宣前,凡是在App

2023-09-01

F 到底是可观测领域的神器 or 鸡肋? 8月31日,百度宣布文心一言率先向全社会全面开放,可以在应用商店下载“文心一言APP”或登陆“文心一言官网”(https://yiyan.baidu.com)体验。  据悉,百度还将开放一批经过全新重构

2023-10-20

公室,我们一起聊 AI!>>> 百度首席技术官王海峰在解读文心大模型 4.0 背后的关键技术和最新进展时表示,文心大模型 4.0 的理解、生成、逻辑、记忆四大能力都有显著提升。 文心大模型4.0在9月已开始小流量上线,过去一个多

2023-10-19

23 大会上,百度创始人、董事长兼首席执行官李彦宏宣布文心大模型 4.0 正式发布,开启邀请测试。 李彦宏表示,文心大模型 4.0 是迄今为止最强大的文心大模型,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上

2023-11-07

验室(书生通用大模型)、“360 智脑”等等。 挑战 ChatGPT,国产有这 8 款 AI 大模型产品 据悉,今年 8 月 15 日正式施行的《生成式人工智能服务管理暂行办法》 ,提供具有舆论属性或者社会动员能力的生成式人工智能服务

2023-10-24

企业从经验管理提升至量化管理。同时,AI提词支持百度文心一言大语言模型;DevOps安装时支持一键安装多个相关应用、支持使用命令行进行版本升级,大幅提升安装和升级效率。 新增功能点 度量项: BI二级菜单新增

2023-02-10

微软将 AI 集成进必应搜索和 Edge 浏览器、百度也公布类 ChatGPT 项目文心一言,近日 LAION 也开源了一个类 ChatGPT 项目 —— Open Assistant。 LAION 是一个德国非营利组织,这个名字你可能不太熟悉,但 Stable Diffusion 和 Imagen 这两个知