Meta 今年 4 月曾在一篇论文中介绍了一种利用多标记预测(multi-token prediction)实现更好、更快 LLM 的新训练方法。为了便于研究人员进一步探索,该公司现如今在 HuggingFace 上发布了使用这种方法完成代码的预训练模型。
“大型语言模型(例如 GPT 和 Llama)都是通过下一个标记预测损失进行训练。在这项工作中,我们认为训练语言模型同时预测多个未来标记会带来更高的样本效率......我们的 13B 参数模型在 HumanEval 上多解决了 12% 的问题,在 MBPP 上多解决了 17% 的问题。另外一个好处是,即使批量规模很大,使用 4-token 预测训练的模型的推理速度也能提高 3 倍。”
Meta 此次共发布了 4 个经过代码训练的 7B 参数模型。其中有两个模型接受了 2000 亿个 token 的代码样本的训练,而另外两个模型则分别接受了 1 万亿个 token。在模型附带的一篇论文中,Meta 透还露了其正在开发但尚未发布的第五个 LLM,该模型拥有 130 亿个参数。
目前尚不清楚为什么这种方法产生的代码质量比传统的 LLM 设计更高。Meta 的研究人员在论文中指出,原因可能与语言模型的构建方式有关。
开发人员通常使用一种称为 Teacher-forcing 的技术来训练 LLM。包括给模型分配任务,例如生成一段代码,然后在模型出错时给它提供正确答案。这种方法有助于简化开发工作流程,但会限制所训练 LLM 的准确性。
Meta 研究人员认为,一次生成四个 token 的输出有可能减轻 Teacher-forcing 方法的局限性。“我们认为,'Teacher-forcing'鼓励模型专注于在短期内进行良好的预测,而忽略了生成序列整体结构中的长期依赖性。”
科技媒体 VentureBeat 认为,这一突破的影响可能十分深远。随着 AI 模型的规模和复杂性不断膨胀,它们对计算能力的贪婪需求引发了人们对成本和环境影响的担忧。Meta 的多标记预测方法或许能遏制这一趋势,使先进的 AI 更易于使用,并具有可持续性。