OpenAI 正式发布 GPT-4


OpenAI 刚刚宣布正式推出 GPT-4。GPT-4 是 Generative Pre-trained Transformer 4 的缩写,即生成型预训练变换模型 4。

公告写道,GPT-4 是一个多模态大型语言模型(支持接受图像和文本输入,以文本形式输出),也是 OpenAI 努力扩展深度学习的最新里程碑。虽然 GPT-4 对于许多现实场景的处理比人类差,但它在各种体现专业和学术能力的 benchmark 上,已表现出和人类相当的水平。

例如,GPT-4 通过了模拟律师考试,其分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分却在倒数 10% 左右。OpenAI 表示,他们花了 6 个月的时间来使用对抗性测试程序,以及通过 ChatGPT 的经验教训迭代调整 GPT-4,从而在真实性和可控性等方面取得了有史以来最好的结果(尽管远非完美)。

使用示例

OpenAI 用一张梗图演示了 GPT-4 特有的「多模态」功能。

用户提问:解释下图的笑点是什么,并对图片中的每部分进行描述。

GPT-4:

The image shows a package for a "Lightning Cable" adapter with three panels.

Panel 1: A smartphone with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port.

Panel 2: The package for the "Lightning Cable" adapter with a picture of a VGA connector on it.

Panel 3: A close-up of the VGA connector with a small Lightning connector (used for charging iPhones and other Apple devices) at the end.

The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port.

翻译如下:

图片显示了一个"Lightning Cable"适配器的包装,总共包含三个部分。

面板1:一部智能手机,其充电端口插着一个 VGA 接口(大的蓝色 15 针接口,通常用于电脑显示器)。

面板2:"Lightning Cable"适配器的包装上有一张 VGA 接口的图片。

面板3:VGA 连接器的特写,末端是一个小的 Lightning 连接器(用于为 iPhone 和其他苹果设备充电)。

这张图片的笑点来自于:展示了将一个大的、过时的 VGA 连接器插入一个小的、现代的智能手机充电端口的荒谬性。

上面的例子看起来很简单,OpenAI 紧接着展示了高级用法——读论文。简单来说就是给 GPT-4 提供论文的图片格式文件,让它阅读并总结出要点。效果如下:

甚至直接让 GPT-4 回答图片中对应题号的问题:


GPT-4 局限性

尽管功能强大,但 GPT-4 与早期的 GPT 模型具有相似的局限性,即生成的结果不符合事实。因此它仍然不完全可靠(它会产生“幻觉”事实并出现推理错误)。

虽然这仍然是一个问题,但 GPT-4 相对于以前的模型(它们本身在每次迭代中都在改进)显着减少了“幻觉”。在内部的对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 高 40%:

 


与 GPT 3.5 的对比

据介绍,对于日常的谈话,GPT-3.5 和 GPT-4 之间的区别可能很微妙。但当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。

为了了解这两种模型之间的区别,OpenAI 通过各种 benchmark 进行了测试,包括最初为人类设计的模拟考试。从下图可以看出,GPT-4 的成绩大部分都比 GPT-3 好。

GPT-4 也在多项测试项目中取得了接近满分的成绩:

  • USABO Semifinal Exam 2020(美国生物奥林匹克竞赛)
  • GRE 口语

OpenAI 还将机器学习模型的传统 benchmark 用于评估 GPT-4。结果显示,GPT-4 已经远远超过现有的大型语言模型,以及大多数最先进的 (SOTA, state-of-the-art) 模型。benchmark 数据如下:

在 MMLU benchmark 中(一个基准数据集,包括来自于 STEM、人文、社科等 57 个学科的选择题,它用于测试 LLM 的世界知识和问题解答的能力),GPT-4 处理中文的准确度大约是 80%,已经优于其他 LLM 的英文表现,比如 GPT-3.5、Chinchilla、PALM。


试用方式

  1. ChatGPT Plus 订阅用户可尝鲜体验,他们将在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。
  2. 调用 API,访问 https://openai.com/waitlist/gpt-4 进入等待名单

相關推薦

2023-08-17

OpenAI 发文介绍了其最新的研究发现,即 GPT-4 可以帮助在线平台更有效地管理用户内容。 “使用 GPT-4 的内容审核系统可以更快地迭代政策变更,将周期从数月缩短至数小时。GPT-4 还能解释冗长的内容政策文档中的规则和

2023-06-15

OpenAI 昨晚宣布为其生成式 AI 模型 GPT-3.5 Turbo 和 GPT-4 发布重磅更新。 值得关注的亮点: Chat Completions API 中新的函数调用功能 更新并增加可控制性的gpt-4和gpt-3.5-turbo版本 gpt-3.5-turbo的新 16k 上下文版本(与标准 4k 版本对比

2024-08-08

OpenAI 在其 API 中引入了结构化输出功能,这意味着模型的输出可以可靠地遵循开发人员提供的 JSON 模式。 对复杂 JSON 模式进行评估时,具有结构化输出的新模型 gpt-4o-2024-08-06 得分为 100%。相比之下,gpt-4-0613 得分不到 40%。 这

2023-07-13

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。 文章作

2024-08-07

在 6 月份因不明原因撤回诉讼后,马斯克再次对 OpenAI 及其首席执行官 Sam Altman 提起了新的诉讼,声称 OpenAI 将利润和商业利益置于公众利益之上,还违背了免费共享或开源公司技术的承诺,选择向微软提供技术的独家许可。 马

2023-08-02

据商标律师Josh Gerben 透露,OpenAI 已经在7月18日申请注册“GPT-5”的商标。 目前尚不能确定该商标是否为保护性注册。从商标信息来看,GPT-5将提供文本生成、自然语言处理、语音转录、翻译等功能。 OpenAI 曾在今年6月份表

2023-09-12

p;Siliconangle 的报道,Meta 正在寻求在生成式 AI 领域与 OpenAI 展开竞争,将发布新的开源大模型,其性能或将与GPT-4 不相上下。 报道称,这款新模型比 Llama 2 强大数倍,将提供文本、图像生成以及分析等功能。目前该模型正

2023-03-31

者之间的长期竞争,联合起来对付共同的 “敌人” —— OpenAI。 Google 与 DeepMind 的这项合作在內部被成为 Gemini(双子座),由 Google Brain 的负责人 Jeff Dean 主管技术,力图开发出能够比肩 GPT-4 的模型。 自 ChatGPT 推出之后,AI 领

2023-08-16

度新闻媒体平台Analytics India Magazine近日的一份报告称, OpenAI可能在2024年底破产。 报告称,OpenAI仅运行其人工智能服务ChatGPT每天就要花费约70万美元。OpenAI目前正处于烧钱的状态,尽管该公司试图通过GPT-3.5和GPT-4来实现盈利,

2023-04-04

天机器人系统,从而实现了前所未有的智能水平,譬如 OpenAI 的 ChatGPT。但 ChatGPT 的训练和架构细节仍不清楚,阻碍了该领域的研究和开源创新。受 Meta LLaMA 和 Stanford Alpaca 项目的启发,来自加州大学伯克利分校、CMU、斯坦福大学

2023-09-27

Flutter + Golang 开发,代码完全开源,支持以下功能: OpenAI 的 GPT-3.5 ,GPT-4 大语言模型 Anthropic 的 Claude instant ,Claude 2.0 大语言模型 国产模型:通义千问,文心一言,讯飞星火,商汤日日新,腾讯混元大语言模型 开源大

2023-04-04

但它的访问越来越受到限制。最新的大型语言模型 —— OpenAI 的 GPT4 发布时没有关于其模型架构、训练数据、训练硬件或超参数的信息。公司越来越多地使用封闭数据集构建大型模型,并仅通过 API 访问提供模型输出。为了使 LLM

2023-09-06

福利 目前我的 OpenAI 账户还有大约 4900+ 美金的额度,为了感谢各位 V 友的关注,在满足以下几个条件之前(任意),GPT-4 使用价格调整为 10 个智慧果每 1K Token (约等于 1 毛钱,OpenAI 官

2024-08-10

于中国的AI发展,周鸿祎认为第一件就是还是要有人对抗OpenAI。 那么如何创造战机? 周鸿祎仍然坚定地认为要利用好开源的机制:“开源能聚集起比任何一家单独的商业公司更多的人才。而且在开源的基础之上,生态如果很健