Meta 发布 Llama 3.2 多模态 AI 模型


Meta 今天发布了 Llama 3.2 系列开源模型,其中包括小型和中型视觉 LLMs(11B 和 90B),以及适合边缘和移动设备的小型纯文本模型(1B 和 3B),包括预训练和指令调整版本。

LLaMA 3.2 支持同时处理文本、图像和视频,能够理解并生成跨媒体内容。例如,用户可以在同一交互中结合文字和图像。

官方的评估结果显示,Llama 3.2 视觉模型在图像识别和一系列视觉理解任务上与 Claude 3 Haiku 和 GPT4o-mini 的性能相当。

Llama3.2-3B 文本模型在循指令、总结、提示重写和工具使用等任务上优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型。

多模态模型

Llama3.2的11B和90B模型多模态是基于Llama3.1-8B、70B文本模型上,增量增加图像模型。

pretrain阶段:

  • 文本模块由Llama3.1模型初始化,并初始化图像编码器,利用大规模噪声(图像、文本、6B数据对)对数据进行预训练

  • 再用中等规模的高质量的领域、知识增强的(图像、文本、3M数据对)数据预训练。

posting-train阶段:

  • 通过监督微调、拒绝采样和直接偏好优化进行多轮对齐

  • 使用 Llama 3.1 模型 过滤和增强 图像上的问题和答案,利用合成数据生成和奖励模型对所有候选答案打分排序,获取高质量的微调数据

  • 还添加了安全数据

端侧小模型

1B和3B模型都是基于8B模型裁剪后进行模型初始化,并且利用8B和70B模型进行模型蒸馏,9T数据预训练。

特别注意,这里蒸馏不是那种通过更大模型进行数据生成的蒸馏,而是再模型训练阶段,利用8B 和 70B 模型输出的 logits 影响模型loss,也就是传统的蒸馏方法

在post-traning阶段,训练方式语Llama3.1一致,采样监督微调、拒绝采样和直接偏好优化模型。

最后模型支持上下文扩展到 128K 个,同时也针对性优化了模型的多种能力,例如摘要、重写、指令遵循、语言推理和工具使用。


相關推薦

2024-04-10

划在下周推出两款小型的 Llama 3 模型,为即将在今年夏季发布的正式版 Llama 3 模型预热。 Meta 相信,这两款小模型的发布有助于激发人们对于Llama 3 模型的兴趣。Meta希望Llama 3能赶上OpenAI的GPT-4,后者能根据用户上传到聊天机器

2024-03-01

根据 The Information 的报道,Meta 计划在 7 月发布最新版本的大语言模型 —— Llama 3。 Meta 的一位员工透露,由于研究人员尚未开始对模型进行微调,因此公司尚未决定Llama 3是否是多模态的。Meta员工还说,Llama 3最高可能拥有超过1

2023-09-05

文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 L

2023-06-09

其他不法行为,从而造成伤害。因此在信中质询了 Meta 在发布 LLaMA 之前是如何评估的风险、采取了哪些措施来防止该模型被滥用,以及如何根据其不受限制的可用性更新政策和实践。 “Meta 发布了其高级 AI 模型 LLaMA,似乎没有

2023-08-26

ode Llama 完全免费,可用于研究和商业用途,并已在 GitHub 发布:https://github.com/facebookresearch/codellama。 Code Llama 基于 Llama 2 大语言模型打造,提供了三种模型: Code Llama - 基础代码模型 Code Llama - Python - 专门针对 Python 进行优

2023-10-28

众所周知的最大贡献者之一。仅今年它就向人工智能社区发布了大量人工智能模型和训练数据集。其中包括针对编程任务优化的 Code Llama 大语言模型; 可实现数百种语言通用按需翻译的 SeamlessM4T 模型; 用于创作音乐和声音的生

2023-08-16

报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。 “书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联盟成

2024-07-25

今天凌晨,Meta 正式发布新一代开源大模型 Llama 3.1 系列,提供 8B、70B 及 405B  参数版本。 Llama 3 使用了超过 1.6 万个 H100 GPU、以及超过 15T token 的公开数据进行训练。 架构方面,该模型选择标准的仅解码器 transformer 模型架

2023-02-28

A 的一个精简版可在 GitHub 上找到,Meta 暂时还没有要公开发布完整模型和权重的计划。Meta 提供了一个登记页面,感兴趣的开发者可以申请登记,从而获得完整的代码和权重。

2024-07-25

Meta 在今天凌晨正式发布新一代开源大模型 Llama 3.1 系列。与此同时,Meta 创始人兼首席执行官马克·扎克伯格也发布了一封名为“Open Source AI Is the Path Forward”的公开信,描绘了 AI 发展的未来愿景。 他以闭源版 Unix 和开源 Linux

2023-03-31

非营利组织  LAION-AI 发布了 OpenFlamingo,这是一个用于训练和评估大型多模态模型 (LMM)的框架,属于 DeepMind 的 Flamingo 模型(一种能够处理和推理图像、视频和文本的等多模态内容的框架)的开源复制品。 其数据集 OpenFlamingo-9

2023-09-12

道,Meta 正在寻求在生成式 AI 领域与 OpenAI 展开竞争,将发布新的开源大模型,其性能或将与GPT-4 不相上下。 报道称,这款新模型比 Llama 2 强大数倍,将提供文本、图像生成以及分析等功能。目前该模型正处于开发之中,最终

2023-06-22

天使轮融资,由蚂蚁集团领投。这是自去年 11 月 ChatGPT 发布至今,蚂蚁集团投资的第一个 AIGC 项目。 目前业内比较知名的多模态大模型有 VisualGLM-6B 和 ImageBind。VisualGLM-6B 由清华大学知识工程和数据挖掘小组发布,是一个开

2024-07-26

继 Meta 昨天发布最强开源大模型 Llama 3.1 后,法国 AI 初创公司 Mistral AI 也加入了竞争,今天发布了全新的旗舰开源模型 Mistral Large 2。 该模型拥有 1230 亿个参数,可在单个 H100 节点上以高吞吐量运行,在代码生成、数学