智源发布原生多模态世界模型 Emu3

2024-10-23 發表於开源资讯

智源研究院宣布正式发布原生多模态世界模型 Emu3。该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。

目前 Emu3 已开源了关键技术和模型。

公告称，Emu3在图像生成、视频生成、视觉语言理解等任务中超过了 SDXL 、LLaVA、OpenSora等知名开源模型，但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术，只需要预测下一个token。

Emu3提供了一个强大的视觉tokenizer，能够将视频和图像转换为离散token。这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中。与此同时，该模型输出的离散token可以被转换为文本、图像和视频，为Any-to-Any的任务提供了更加统一的研究范式。而在此前，社区缺少这样的技术和模型。

此外，受益于Emu3下一个token预测框架的灵活性，直接偏好优化(DPO)可无缝应用于自回归视觉生成，使模型与人类偏好保持一致。

Emu3研究结果证明，下一个token预测可以作为多模态模型的一个强大范式，实现超越语言本身的大规模多模态学习，并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到token本身，能在大规模训练和推理中释放巨大的潜力。下一个token预测为构建多模态AGI提供了一条前景广阔的道路。

智源发布原生多模态世界模型 Emu3

相關推薦

智源研究院推出 Emu3 等“悟界”系列大模型

FlagOpen 大模型技术开源体系，开启大模型时代“新 Linux”生态

中国开源 AI 社区 7 月高亮时刻回顾

智源联合南开大学开源 Chinese-LiPS 中文多模态语音识别数据集

智源全面开源 RoboBrain 2.0 与 RoboOS 2.0

开源多模态大模型“书生·万象 3.0”发布

全球首个可商用生物医药大模型 BioMedGPT-10B 开源

北京人形发布具身世界模型体系

清华博士带队，发布全球首个自回归视频生成大模型「Magi-1」

蚂蚁集团证实正研发语言和多模态大模型，命名“贞仪”

字节跳动旗下开源多模态智能体 Agent TARS 发布 Beta 版本

马斯克宣布 Grok V7 基础模型完成预训练，具备原生多模态能力

字节跳动 Seed 团队开源多模态基础模型 Bagel，支持视觉理解、文生图和图像编辑

李彦宏谈 DeepSeek 现存痛点，称 Deepseek又慢又贵