Meta 发布新一代开源大模型 Llama 3.1

2024-07-25 發表於开源资讯

今天凌晨，Meta 正式发布新一代开源大模型 Llama 3.1 系列，提供 8B、70B 及 405B 参数版本。

Llama 3 使用了超过 1.6 万个 H100 GPU、以及超过 15T token 的公开数据进行训练。

架构方面，该模型选择标准的仅解码器 transformer 模型架构进行调整，而不是混合专家模型，以最大化训练稳定性。

此外，Llama 3 采用了迭代的后训练程序，每一轮使用监督微调和直接偏好优化。

Meta 表示，Llama 3.1 系列在推理能力和多语言支持方面进行了改善，其上下文长度被提升至 128K，而模型参数也被提高到了 4050 亿规模，是近年来规模最大的大语言模型之一。该模型在通用常识、可引导性、数学、工具使用和多语言翻译等广泛任务中足以对标 GPT-4、Claude 3.5 Sonnet 等领先闭源模型。

Llama 3.1 现已于 Meta 官网和 Hugging Face 开放下载。

Llama 3.1 论文：https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
Llama 3.1 官方文档：https://llama.meta.com/docs/overview/

相關推薦

扎克伯格：开源是 AI 积极发展的必要条件

2024-07-25

Meta 在今天凌晨正式发布新一代开源大模型 Llama 3.1 系列。与此同时，Meta 创始人兼首席执行官马克·扎克伯格也发布了一封名为“Open Source AI Is the Path Forward”的公开信，描绘了 AI 发展的未来愿景。他以闭源版 Unix 和开源 Linux

英伟达开源 2530 亿参数推理大模型，效果直逼 DeepSeek-R1

2025-04-11

系列基准测试中，Llama-3.1-Nemotron-Ultra-253B-v1 优于 Meta 最新发布的 Llama 4 Behemoth 和 Llama 4 Maverick。

研究：Meta Llama 3.1 能回忆《哈利波特》42% 的内容

2025-06-18

就被标记为 “已记住”。令人惊讶的是，Meta 于2024年发布的 Llama3.170B 模型在回忆《哈利波特》第一部的表现中，竟能记住42% 的内容。而相比之下，Meta 在2023年发布的 Llama165B 模型仅能回忆起 4.4% 的内容。研究人员还发现，

Mistral AI 发布 1230 亿参数 Large 2 大模型 —— 狙击 Llama 3.1

2024-07-26

继 Meta 昨天发布最强开源大模型 Llama 3.1 后，法国 AI 初创公司 Mistral AI 也加入了竞争，今天发布了全新的旗舰开源模型 Mistral Large 2。该模型拥有 1230 亿个参数，可在单个 H100 节点上以高吞吐量运行，在代码生成、数学

Meta 正在构建新开源大模型，性能超越 Llama 2、比肩 GPT-4

2023-09-12

道，Meta 正在寻求在生成式 AI 领域与 OpenAI 展开竞争，将发布新的开源大模型，其性能或将与GPT-4 不相上下。报道称，这款新模型比 Llama 2 强大数倍，将提供文本、图像生成以及分析等功能。目前该模型正处于开发之中，最终

Meta 发布 Llama 3.2 多模态 AI 模型

2024-09-27

Meta 今天发布了 Llama 3.2 系列开源模型，其中包括小型和中型视觉 LLMs（11B 和 90B），以及适合边缘和移动设备的小型纯文本模型（1B 和 3B），包括预训练和指令调整版本。 LLaMA 3.2 支持同时处理文本、图像和视频，能够理解并生

扎克伯克：Meta 明年投入更多工程和计算资源到 AI 领域

2023-10-28

众所周知的最大贡献者之一。仅今年它就向人工智能社区发布了大量人工智能模型和训练数据集。其中包括针对编程任务优化的 Code Llama 大语言模型；可实现数百种语言通用按需翻译的 SeamlessM4T 模型；用于创作音乐和声音的生

OpenBuddy 发布基于 Llama 2 的新一代跨语言对话模型，开源可商用

2023-07-27

OpenBuddy-LLaMA2-13B 是一个基于 Llama 2 的全新跨语言对话模型。 Llama 2 是 Meta 最新发布的模型基座，它的数据比前一代模型更为充分，且对月活7亿以下的商用予以支持。这意味着，更多的公司和团队可以使用这个模型进行商业开发

Meta 开源基于 Llama 2 的 AI 代码生成大模型：Code Llama

2023-08-26

ode Llama 完全免费，可用于研究和商业用途，并已在 GitHub 发布：https://github.com/facebookresearch/codellama。 Code Llama 基于 Llama 2 大语言模型打造，提供了三种模型： Code Llama - 基础代码模型 Code Llama - Python - 专门针对 Python 进行优

Ollama 发布 v0.7.0，增强多模态能力并引入多项优化

2025-05-17

Ollama v0.7.0 已发布，带来了显著的功能增强和性能优化，引入了新引擎支持多模态模型，并支持 WebP 图像作为输入。 Meta Llama 4 Google Gemma 3 Qwen 2.5 VL Mistral Small 3.1 以及更多视觉模型其他更新内容包括：修复 Windows

清华开源的 LongCite 项目挺不错

2024-11-01

清华开源的这个叫 LongCite 的项目挺不错的，现在的大语言模型读取和检索文档内容，基本都是依靠 RAG，才能成为我们常说的知识库功能。 https://github.com/THUDM/LongCite 但 LongCite 有点不太一样，它的定位是信息检索工具，虽然也

美国参议员就 LLaMA 模型泄露事件致函质询扎克伯格

2023-06-09

其他不法行为，从而造成伤害。因此在信中质询了 Meta 在发布 LLaMA 之前是如何评估的风险、采取了哪些措施来防止该模型被滥用，以及如何根据其不受限制的可用性更新政策和实践。 “Meta 发布了其高级 AI 模型 LLaMA，似乎没有

Meta 计划 7 月发布 Llama 3

2024-03-01

根据 The Information 的报道，Meta 计划在 7 月发布最新版本的大语言模型 —— Llama 3。 Meta 的一位员工透露，由于研究人员尚未开始对模型进行微调，因此公司尚未决定Llama 3是否是多模态的。Meta员工还说，Llama 3最高可能拥有超过1

Meta 正在全力开发 Llama 4.X，计划今年年底前发布

2025-08-30

锣密鼓地推动其 AI 模型新进展，力求在今年年底前正式发布 Llama 4.X（内部可能称为 Llama 4.5）。据介绍，Meta超级智能实验室（MSL）内部一个名为“TBD”的团队正在全力开发Llama 4.X，目标是确保该模型能在年底前达到可投入生

熱門推薦