清华报告:文心一言稳坐国内第一,超越 ChatGPT


清华大学新闻与传播学院沈阳团队近日发布的《大语言模型综合性能评估报告》显示,百度文心一言在三大维度20项指标中综合评分国内第一,超越ChatGPT,其中中文语义理解排名第一,部分中文能力超越GPT-4。

据了解,报告本次评估选取了GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工7个大语言模型,围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等 20 项指标。

综合来看,文心一言语义理解能力突出,特别是具备更好的中文理解能力,更懂中国文化,同时时效性强、内容安全把握细微,这源于其知识增强、检索增强和对话增强的技术创新

生成质量方面,基于对语义理解、输出表达、适应泛化的综合评测,文心一言得分率76.98%,仅次于GPT-4,遥遥领先于包括ChatGPT在内的其他大语言模型。其中,在部分中文语义理解方面,文心一言以92%的得分率排名榜首,超越讯飞星火、GPT-4。凭借知识增强的核心特色,文心一言对本土语言特性把握更精准,同时由于训练语料中包含大量本土文本,对本土文化理解也更深刻,能够更好处理与本土文化相关的主题和背景,如诗歌、方言等,具备更强的国内落地空间。

安全合规方面,基于对内容安全性、偏见和公平性、隐私保护等综合评测,文心一言得分率78.18%,与GPT-4并列排名第一,远超其他大语言模型。报告显示,文心一言内容安全性好,注重用户隐私保护和版权保护。


相關推薦

2023-08-18

心一言在三大维度 20 项指标中综合评分国内第一,超越 ChatGPT,其中中文语义理解排名第一,部分中文能力超越 GPT-4。

2023-08-06

,新华网与权威机构联合发布了一份《国内 LLM 产品测试报告》,为业界选择大模型提供了内容安全、常识问答、数学运算、阅读理解和主观问答等五大维度。 报告以文心一言、GPT-3.5等四大知名大模型为例进行评测,结果显示

2023-03-20

延续。 但也不能说我们完全 ready 了,文心一言要对标 ChatGPT、甚至是对标 GPT-4 的门槛是很高的,全球大厂还没有一个做出来的,百度是第一个。我自己测试感觉还是有很多不完美的地方。 李彦宏指出:“无论是哪家公司,

2023-10-27

,在国内大模型中排行第一;排在其后的分别是Moonshot、文心一言4.0和SenseChat 3.0。 SuperCLUE是中文通用大模型多层次的综合性测评基准,包括多轮开放问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT。主要考察模型在中文能

2023-09-08

Google 开发者在线课程 开始学习 8 月 31 日,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服

2024-07-11

中文大模型测评基准SuperCLUE发布2024上半年报告,披露针对国内外33个大模型的综合测评结果。 从代表通用能力的一级总分来看,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet与通义千问开源模型Qwen2-72B-Instruct并列第二,得分均为7

2023-02-08

在谷歌宣布推出与 ChatGPT 竞争的 AI 产品 Bard 后,百度微信公众号今日也官宣介绍了该公司的大模型新项目 —— 文心一言(英文名 ERNIE Bot)。公告注释称: ①.百度在人工智能四层架构中,有全栈布局。包括底层的芯片、

2023-08-01

力边界。 根据 IDC 最新发布的《AI 大模型技术能力评估报告,2023》,百度文心大模型3.5在14个参评模型中拿下12项指标的7个满分,得到“综合评分第一,算法模型第一,行业覆盖第一”三个绝对第一。 此外,王海峰还在演讲中

2023-04-08

称,其公司就 App Store 和各种应用商店上存在大量盗版“文心一言”App 的问题,已向北京市海淀区人民法院对苹果公司及相关开发者团队发起诉讼。 百度官方声明: 目前文心一言没有任何官方APP!在我司官宣前,凡是在App

2023-09-01

F 到底是可观测领域的神器 or 鸡肋? 8月31日,百度宣布文心一言率先向全社会全面开放,可以在应用商店下载“文心一言APP”或登陆“文心一言官网”(https://yiyan.baidu.com)体验。  据悉,百度还将开放一批经过全新重构

2024-07-05

应用需求。 支持 OPenAI,Azure,文心一言,讯飞星火,清华 ChatGLM等多个大语言模型。 支持 Suno 文生音乐 支持 MidJourney / Stable Diffusion AI 绘画集成,文生图,图生图,换脸,融图。开箱即用。 已集成支付宝支付功能,

2024-07-05

讲这个话是在2022年的夏天,5个月之后,大家都知道,ChatGPT发布了,而后来的事情大家就更清楚,所以两年的时间,恍若隔世,感觉整个世界都变了,人工智能可以说颠覆了绝大多数人的认知。 2023年国内出现了百模大战,造

2023-10-20

公室,我们一起聊 AI!>>> 百度首席技术官王海峰在解读文心大模型 4.0 背后的关键技术和最新进展时表示,文心大模型 4.0 的理解、生成、逻辑、记忆四大能力都有显著提升。 文心大模型4.0在9月已开始小流量上线,过去一个多

2024-07-06

时候,就会发现,你永远应该选择闭源模型。今天无论是ChatGPT、还是文心一言等闭源模型,一定比开源模型更强大,推理成本更低。” 谈及“AI超级应用什么时候出现”时,李彦宏表示,“不是说一定在等待一个超级应用的