Meta 开源新的“多标记预测”语言模型


Meta 今年 4 月曾在一篇论文中介绍了一种利用多标记预测(multi-token prediction)实现更好、更快 LLM 的新训练方法。为了便于研究人员进一步探索,该公司现如今在 HuggingFace 上发布了使用这种方法完成代码的预训练模型。

“大型语言模型(例如 GPT 和 Llama)都是通过下一个标记预测损失进行训练。在这项工作中,我们认为训练语言模型同时预测多个未来标记会带来更高的样本效率......我们的 13B 参数模型在 HumanEval 上多解决了 12% 的问题,在 MBPP 上多解决了 17% 的问题。另外一个好处是,即使批量规模很大,使用 4-token 预测训练的模型的推理速度也能提高 3 倍。”

Meta 此次共发布了 4 个经过代码训练的 7B 参数模型。其中有两个模型接受了 2000 亿个 token 的代码样本的训练,而另外两个模型则分别接受了 1 万亿个 token。在模型附带的一篇论文中,Meta 透还露了其正在开发但尚未发布的第五个 LLM,该模型拥有 130 亿个参数。

目前尚不清楚为什么这种方法产生的代码质量比传统的 LLM 设计更高。Meta 的研究人员在论文中指出,原因可能与语言模型的构建方式有关。

开发人员通常使用一种称为 Teacher-forcing 的技术来训练 LLM。包括给模型分配任务,例如生成一段代码,然后在模型出错时给它提供正确答案。这种方法有助于简化开发工作流程,但会限制所训练 LLM 的准确性。

Meta 研究人员认为,一次生成四个 token 的输出有可能减轻 Teacher-forcing 方法的局限性。“我们认为,'Teacher-forcing'鼓励模型专注于在短期内进行良好的预测,而忽略了生成序列整体结构中的长期依赖性。”

科技媒体 VentureBeat 认为,这一突破的影响可能十分深远。随着 AI 模型的规模和复杂性不断膨胀,它们对计算能力的贪婪需求引发了人们对成本和环境影响的担忧。Meta 的多标记预测方法或许能遏制这一趋势,使先进的 AI 更易于使用,并具有可持续性。


相關推薦

2022-07-08

的交流受到了阻碍。 马克·扎克伯格表示: 我们刚刚开源了一个我们建立的 AI 模型,它可以翻译 200 种不同的语言,其中有许多语言还是目前不被其他翻译系统所支持的。我们把这个项目称为 "No Language Left Behind",我们使用

2023-02-28

GPT-3 不同,我们只使用公开的数据集,使我们的工作与开源兼容并可重现,而大多数现有模型依赖的数据要么不公开,要么没有记录。 目前 LLaMA 的一个精简版可在 GitHub 上找到,Meta 暂时还没有要公开发布完整模型和权重的

2023-09-12

正在寻求在生成式 AI 领域与 OpenAI 展开竞争,将发布新的开源大模型,其性能或将与GPT-4 不相上下。 报道称,这款新模型比 Llama 2 强大数倍,将提供文本、图像生成以及分析等功能。目前该模型正处于开发之中,最终功能尚

2023-10-28

关人员转向从事AI工作。 上月曾报道过,Meta 正在构建新开源大模型,据称性能超越 Llama 2、比肩 GPT-4,最终目标是加速开发下一代生成式人工智能模型,使其能够生成更多类似人类的表达。 长期以来,Meta 一直在采用开源方

2023-08-26

创会」北京站,聊聊 AI 大模型与底层技术 >>> Meta 刚刚开源了号称是编程领域“最先进的大语言模型”——Code Llama,可根据代码和自然语言提示生成代码和有关代码的自然语言,支持多种主流编程语言,包括 Python、C++、Java、PH

2022-10-22

模型仍然为通用翻译开辟了更多的新语言。 Meta 未来将开源这个闽南语的模型、代码、基准数据和论文等资料,供其他人构建自己的 AI 实时翻译工具。Meta AI 的工程师除了希望这个 AI 翻译系统可以帮助用户跨越语言障碍更自如

2023-06-09

在面向公众开放的短时间里,都经历了危险地滥用 —— 开源模型则进一步加剧了这种风险。” 信中还举例指责了 Meta 在审查方面的缺失:当被要求“写一张纸条,假装是某人的儿子,向他要钱以摆脱困境”时,OpenAI 的 ChatGPT

2024-07-25

今天凌晨,Meta 正式发布新一代开源大模型 Llama 3.1 系列,提供 8B、70B 及 405B  参数版本。 Llama 3 使用了超过 1.6 万个 H100 GPU、以及超过 15T token 的公开数据进行训练。 架构方面,该模型选择标准的仅解码器 transformer 模型架

2023-07-14

一大优势是能运行在单张显卡上。 三位知情人士表示,新的商用版本将更广泛地提供给企业,并可由企业定制。还有一名了解 Meta 高层战略的人士称,他们的目标是“削弱 OpenAI 目前的主导地位”。 延伸阅读 马斯克宣布成

2024-03-01

划在7月发布Llama 3,但发布时间表仍可能调整。作为一款开源大语言模型,Llama 3不仅将支持Meta旗下的人工智能助手,还将向外部开发者免费提供,以便他们开发自己的聊天机器人。 Llama作为Meta人工智能战略的核心,对公司具有

2023-08-04

Facebook 母公司 Meta 宣布开源文本生成音乐工具 Audiocraft,该工具可以帮助用户根据文本提示创作音乐和音频。 Meta 表示,这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉,可用文本内容生成高质量、逼

2023-08-25

底层技术 >>> Meta 宣布推出 SeamlessM4T,一种基础的多语言和多任务模型,可以无缝翻译和转录语音和文本。SeamlessM4T 支持: 自动语音识别近百种语言 近 100 种输入和输出语言的语音到文本翻译 语音翻译,支持近 100 种

2023-09-05

Meta AI 宣布推出一款涵盖 122 种语言变体的多语言阅读理解数据集,名为 Belebele。“我们希望这项工作能够引发围绕 LLM 多语言性的新讨论”。 BELEBELE 是首个跨语言并行数据集,可以直接比较所有语言的模型性能。该数据集涵

2024-09-27

Meta 今天发布了 Llama 3.2 系列开源模型,其中包括小型和中型视觉 LLMs(11B 和 90B),以及适合边缘和移动设备的小型纯文本模型(1B 和 3B),包括预训练和指令调整版本。 LLaMA 3.2 支持同时处理文本、图像和视频,能够理解并生