GPT-4 越来越笨?准确率从 97.6% 降至 2.4%


斯坦福大学和加州大学伯克利分校合作进行的一项“How Is ChatGPT's Behavior Changing Over Time?”研究表明,随着时间的推移,GPT-4 的响应能力非但没有提高,反而随着语言模型的进一步更新而变得更糟糕。

研究小组评估了 2023 年 3 月和 2023 年 6 月版本的 GPT-3.5 和 GPT-4 在四个不同任务上的表现,分别为:解决数学问题、回答敏感/危险问题、代码生成以及视觉推理。

他们使用了一个包含 500 个问题的数据集评估模型,测试模型必须确定给定的整数是否是素数。结果表明,GPT-4(2023 年 3 月版)在识别质数方面表现非常出色,正确回答了其中的 488 个问题,准确率达 97.6%。但 GPT-4 (2023 年 6 月版)在这些问题上的表现却非常糟糕,只答对了 12 个问题,准确率仅为 2.4%。

而与之相反,GPT-3.5(2023 年 6 月版)在这项任务中的表现则要比 GPT-3.5(2023 年 3 月版)好得多。

研究团队还使用了"Chain-of-Thought"(思维链)来帮助模型进行推理,提出“17077是一个质数吗?一步一步地思考”的问题。但最新版本的 GPT-4 不仅错误地回答了"否",还没有生成解题的中间步骤。

与 3 月份相比,GPT-4 在 6 月份不太愿意回答敏感问题。而且与 3 月份相比,GPT-4 和 GPT-3.5 在 6 月份生成代码时也出现了更多格式错误,质量明显下降。

对于 GPT-4,可直接执行的生成代码百分比从 3 月份的 52.0% 降至 6 月份的 10.0%;GPT-3.5 也从 22.0% 降至了 2.0%。两种模型的冗余度也有小幅增加,其中 GPT-4 增加了 20%。

视觉推理方面,GPT-4 和 GPT-3.5 的性能都略有提高。但对于 90% 以上的视觉推理查询,3 月份和 6 月份版本生成的结果完全相同。这些服务的总体性能也很低:GPT-4 为 27.4%,GPT-3.5 为 12.2%。且在某些特定问题上,GPT-4 在 6 月份表现要比在 3 月份差。

研究人员认为,这些结果表明,"相同"的 LLM 服务的行为会在相对较短的时间内发生重大变化,凸显了对 LLM 质量进行持续监控的必要性。

“我们计划通过定期评估 GPT-3.5、GPT-4 和其他 LLM 在不同任务中的表现,在一项持续的长期研究中更新本文介绍的结果。对于依赖 LLM 服务作为其日常工作流程组成部分的用户或公司,我们建议他们对其应用程序进行类似的监控分析。”

更多详情可查看完整报告。


相關推薦

2023-04-04

用和复制......人工智能有可能改变世界经济,但它的访问越来越受到限制。最新的大型语言模型 —— OpenAI 的 GPT4 发布时没有关于其模型架构、训练数据、训练硬件或超参数的信息。公司越来越多地使用封闭数据集构建大型模型

2023-07-13

次的训练成本就高达 6300 万美元。不过今天的训练成本能降至 2150 万美元。 详情。

2023-03-20

目前大模型的训练还不够充分。将来随着真实用户的反馈越来越多,文心一言的效果和能力都会逐渐提升。 体验途径 百度已公布文心一言的邀请测试方案。 3 月 16 日起,首批用户即可通过邀请测试码,在文心一言官网体验产

2023-06-15

函数并生成对应的JSON对象作为输出。这让开发人员能更准确地从模型获取结构化数据,实现从自然语言到API调用或数据库查询的转换,也可以用于从文本中提取结构化数据。 这意味着经过OpenAI的微调后,你跟它说人话,它就能

2023-04-04

和 Vicuna 生成答案,然后要求 GPT-4 根据有用性、相关性、准确性和细节来评估答案质量。结果发现 GPT-4 不仅可以产生相对一致的分数,而且可以详细解释为什么给出这样的分数(详细示例链接)。但在判断编码/数学任务方面,G

2023-03-16

试 LLM 的世界知识和问题解答的能力),GPT-4 处理中文的准确度大约是 80%,已经优于其他 LLM 的英文表现,比如 GPT-3.5、Chinchilla、PALM。 试用方式 ChatGPT Plus 订阅用户可尝鲜体验,他们将在 chat.openai.com 上获得具有使用上限

2023-10-18

类反馈进行强化学习的威力; 在 LLaMa-1/2 的支持下,越来越多的人试图用更小的模型、更好的数据集、更长的上下文来克隆或击败专有模型; 目前还不清楚人类生成的数据能维持人工智能扩展趋势多久(有人估计,到 2025

2023-04-01

往会把一些对安全和道德的担忧视而不见。但这也表明,越来越多的人反对现在这种“ship it now and fix it later”的方法;这种反对派意见有可能进入政治领域,供实际的立法者考虑。 值得一提的是,微软公司联合创始人比尔·盖

2023-01-03

前两天我们回顾了过去一年,Mesa 的发展与变化。现在不妨再来看看过去这一年 X Window System 的变化与发展。 熟悉 Linux 的用户应该都知道,X11 已经是一个有点 “老龄化” 的技术了,由于历史遗留的问题以及系统臃肿,它的发

2024-09-26

千万级别。随着业务的快速发展,用户对计算资源的需求越来越大,除了增加物理资源之外,如何提高线上 Spark 作业的资源使用效率也是我们亟需解决的问题。 在对线上 Spark 作业做了统计分析发现作业的 CPU & Memory 利

2023-08-17

OpenAI 发文介绍了其最新的研究发现,即 GPT-4 可以帮助在线平台更有效地管理用户内容。 “使用 GPT-4 的内容审核系统可以更快地迭代政策变更,将周期从数月缩短至数小时。GPT-4 还能解释冗长的内容政策文档中的规则和

2023-10-08

助于揭示数据模式和关系,最终提高 AI/ML 模型的速度和准确性。Neo4j 还充当这些模型的长期存储器。 Neo4j 知识图谱:Neo4j 知识图谱为 LLM 提供更精确的 GenAI 预测和结果。 LangChain 编排:LangChain 促进了LLM、应用程序和数据库之

2024-08-01

qwen2- 72b -instruct,是该领域的新兴参与者,并且越来越受欢迎,代表了全球创建有效语言模型的努力。 改进空间:虽然 Google 的开源 Gemma-7b 表现最差,但他们的闭源 Gemini 1.5 Flash 模型始终名列前茅。 详情可查看 :htt

2023-03-18

p;Microsoft 365 Copilot,将大型语言模型 (LLM)(包括 Open AI 的 GPT-4)集成到 Microsoft 365 应用程序中。  微软董事长兼首席执行官 Satya Nadella 表示:“今天标志着我们与计算交互方式的演变迈出了重要的一步,这将从根本上改变我