智源发布原生多模态世界模型 Emu3


智源研究院宣布正式发布原生多模态世界模型 Emu3。该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。

目前 Emu3 已开源了关键技术和模型。

公告称,Emu3在图像生成、视频生成、视觉语言理解等任务中超过了 SDXL 、LLaVA、OpenSora等知名开源模型,但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术,只需要预测下一个token。

Emu3提供了一个强大的视觉tokenizer,能够将视频和图像转换为离散token。这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中。与此同时,该模型输出的离散token可以被转换为文本、图像和视频,为Any-to-Any的任务提供了更加统一的研究范式。而在此前,社区缺少这样的技术和模型。

此外,受益于Emu3下一个token预测框架的灵活性,直接偏好优化(DPO)可无缝应用于自回归视觉生成,使模型与人类偏好保持一致。

Emu3研究结果证明,下一个token预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到token本身,能在大规模训练和推理中释放巨大的潜力。下一个token预测为构建多模态AGI提供了一条前景广阔的道路。


相關推薦

2023-03-02

tGPT成为现象级应用,人工智能进入普及应用的新时期。 智源研究院2020年搭建大模型攻关团队,2021年6月推出当时规模最大、性能领先多模态大模型“悟道2.0”。为了推动大模型方向的协同创新,在“科技创新2030”新一代人工

2023-08-19

商用、生物医药专用Llama 2大语言模型BioMedGPT-LM-7B。“AIR-智源健康计算联合研究中心” 合作开源了小分子药物基础模型DrugFM。此次开源的生物医药基础模型重科研、可商用,为生物医药研究与应用提供大模型底座。

2023-06-22

天使轮融资,由蚂蚁集团领投。这是自去年 11 月 ChatGPT 发布至今,蚂蚁集团投资的第一个 AIGC 项目。 目前业内比较知名的多模态大模型有 VisualGLM-6B 和 ImageBind。VisualGLM-6B 由清华大学知识工程和数据挖掘小组发布,是一个开

2023-08-16

报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。 “书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联盟成

2023-09-07

、认知两个总榜单以及14个子榜单。MME数据集是一个最近发布的多模态语言模型测评基准。MME通过评估大型多模态语言模型在涵盖感知和认知任务的 14 个子任务上的表现来全面评估它们。昆仑万维天工大模型多模态团队的Skywork-M

2023-09-05

文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 L

2024-08-16

两大高峰论坛,以及“开源数据库与 AI 协同创新”“云原生与微服务架构”“数据基础与 GenAI 开发范式 - 开源生态的机遇与探索”三大专题论坛,探讨开源未来,助力开源发展。

2023-10-26

类型的应用场景,正逐步成为可能。 灵活支持多种输入模态 PonderV2使用三维神经渲染模拟人类的三维感知,并能灵活地支持不同的输入模态,统一地将它们渲染到2D图像上进行训练,从而把2D和3D世界连接在一起。面对三维任务

2024-08-08

B 以下单图、多图、视频理解 3 SOTA 成绩,一举将端侧AI多模态能力拉升至全面对标 GPT-4V 水平。 面壁智能表示,MiniCPM-V 2.6 模型将实时视频理解、多图联合理解、多图 ICL 等能力首次搬上端侧多模态模型,更接近充斥着复杂、模

2023-11-04

由清华大学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发与探索大模型落地的创业公司之一。公司创始团队曾深度参与智源·悟道大模型的研发,目前已发布产品

2024-09-27

近日,智源研究院正式发布中文互联网语料库 CCI 3.0 (Chinese Corpora Internet,简称 CCI),包括 1000GB 的数据集以及 498GB 的高质量子集 CCI 3.0-HQ。 智源研究院于 2023 年 11 月首次开源 CCI 1.0,并在 2024 年 4 月发布 CCI 2.0。目前,CCI 系列

2024-09-27

Meta 今天发布了 Llama 3.2 系列开源模型,其中包括小型和中型视觉 LLMs(11B 和 90B),以及适合边缘和移动设备的小型纯文本模型(1B 和 3B),包括预训练和指令调整版本。 LLaMA 3.2 支持同时处理文本、图像和视频,能够理解并生

2023-08-26

模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL取得了远超同等规模通用模型的表现。 Qwen-VL是支持中英文等多种语言的视觉语言(Vision Langua

2023-09-13

(NExT++)近日公布新计划——开发一款可以突破输入端多模态理解限制的大模型 NExT-GPT。 项目主页:https://next-gpt.github.io/ 论文地址:https://arxiv.org/pdf/2309.05519.pdf Demo:https://89bb30ddbe725cdcd7.gradio.live/ 研究者表示,他们将大语言