新加坡国立大学计划推出多模态大模型 NExT-GPT

2023-09-13 發表於开源资讯

多元共进｜2023 Google 开发者大会精彩演讲回顾

新加坡国立大学下一代搜索技术联合研究中心（NExT++）近日公布新计划——开发一款可以突破输入端多模态理解限制的大模型 NExT-GPT。

项目主页：https://next-gpt.github.io/
论文地址：https://arxiv.org/pdf/2309.05519.pdf
Demo：https://89bb30ddbe725cdcd7.gradio.live/

研究者表示，他们将大语言模型与多模态适配器和不同的扩散解码器连接起来，使 NExT-GPT 能够感知不同的输入形式，并以文本、图像、视频和音频的任意组合方式生成输出内容。

NExT-GPT 架构：

通过利用现有训练有素的高性能编码器和解码器，NExT-GPT仅使用某些投影层的少量参数(1%)进行调整，这不仅有利于低成本训练，而且有利于将该模型扩展到更多潜在模态。

NExT++的研究者表示，他们的研究展示了建立一个能够模拟通用模态的人工智能代理的可能性。

相關推薦

清华系创企推出千亿参数生物医药大模型

2023-09-25

清华系创企水木分子宣布发布新一代对话式药物研发助手 ChatDD (Drug Design) 和全球首个千亿参数多模态生物医药对话大模型ChatDD-FM 100B。水木分子成立于今年6月，由清华大学智能产业研究院（AIR）孵化，专注于生物医药垂直行业

复旦大学与阶跃星辰合作推出最强 SVG 生成大模型：OmniSVG

2025-04-11

复旦大学和阶跃星辰将要出一款端到端多模态 SVG 生成模型：OmniSVG，核心是支持从简单图标到复杂动漫角色的生成。 OmniSVG 主页：https://omnisvg.github.io/ 论文地址：https://arxiv.org/abs/2504.06263v1 OmniSVG 支持三种生成模式：

挑战 ChatGPT，国产有这 8 款 AI 大模型产品

2023-09-08

即可以与 “商量 SenseChat” 进行对话。 4 月 10 日，商汤推出大模型 “日日新”，包括自然语言处理模型 “商量”、文生图模型 “秒画” 和数字人视频生成平台 “如影” 等。其中，商量 SenseChat1.0 也是国内最早推出基于千亿

昆仑万维「天工」大模型正式向全社会开放

2023-11-06

信息化局公布第一批《北京市通用人工智能产业创新伙伴计划成员名单》。昆仑万维成为第一批模型伙伴和投资伙伴。 2023年8月23日，昆仑万维推出国内第一款AI搜索产品——“天工AI搜索”，并开启内测申请。“天工AI搜索”深

蚂蚁集团证实正研发语言和多模态大模型，命名“贞仪”

2023-06-22

》的独家消息，蚂蚁集团技术研发团队正在自研语言和多模态大模型——内部命名为“贞仪”，该项目获得了蚂蚁集团管理层高度重视，已启动数月。多模态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行

中英双语多模态对话模型 LLaSM，李开复零一万物参与

2023-09-05

Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司，曾推出过首个开源 Llama 2 的中文语言大模型；零一万物则是李开复旗下的大模型公司。 “多模态大型语言模型近来备受关注。不过，大多数研究都集中在视觉-语言多模态

FlagOpen 大模型技术开源体系，开启大模型时代“新 Linux”生态

2023-03-02

开放合作十分重要” “数据飞轮”开源数据互助计划启动大模型前沿训练营推动顶尖人才培养时不我待，十年一遇信息技术产业变革席卷世界。高质量数据与系统性人才是这一轮计算机范式转变的关键要素。本次发

腾讯混元大模型矩阵全面升级并推出多款新品

2025-05-23

术与术语的混元游戏视觉生成模型及平台。腾讯混元还计划推出大规模、可漫游的3D场景生成模型。腾讯重申拥抱开源，已实现图像、视频、3D、文本等全模态开源，未来将持续推出多尺寸模型并开源更多多模态基础模型及

昆仑万维天工大模型登顶多模态榜单

2023-09-07

万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型（Multimodal Large Language Model，简称“MLLM”）测评中，综合得分排名第一。公告称，“这标志着昆仑万维天工大模型在多模态方面跻身世界领先水平，未来将

九章云极 DataCanvas 公司完成 D1 轮融资！

2023-10-11

时，为了支撑多模态数据的对齐，九章云极DataCanvas公司推出的开源产品DingoDB多模向量数据库，配合元识大模型，可以为向量数据提供存储和分析，为多模态数据的利用和管理提供必备工具载体。当前，九章云极DataCanvas公司已

化- Instruct / Thinking / Coder模型跨越30B - 480B参数规模 ✨ 多模态浪潮： GLM-4.1V-Thinking: Image+Text > Text Intern-S1: Image+Text > Text Wan 2.2 - Text +Image > video Skywork-R1V3: Image+Text > Text Skywork-UniPic: Text > Image / Image > Tex

智源联合南开大学开源 Chinese-LiPS 中文多模态语音识别数据集

2025-05-14

究院宣布已开源与南开大学共同构建的 Chinese-LiPS 中文多模态语音识别数据集。作为首个“唇读信息+幻灯片语义信息”结合的中文多模态语音识别数据集，Chinese-LiPS数据集面向中文讲解、科普、教学、知识传播等复杂语境，

字节视觉大模型负责人今日内部官宣“暂时休息”

2025-07-18

技的独家报道，7月17日上午，字节跳动豆包大模型视觉多模态生成方向负责人杨建朝在公司内部宣布“暂时休息”，相关工作已完成交接，其职务由周畅（花名“时光”）接手。周畅所在架构为“多模态交互与世界模型”部门

上海 AI 实验室联合多所高校推出 PonderV2 预训练方法与模型

2023-10-26

）联合香港大学、浙江大学和中国科学技术大学宣布共同推出 PonderV2 通用 3D 预训练方法与模型。 Ponder系列在通用3D方面实现三个“首次”：首次同时支持室内外使用场景；首次同时支持点云、体素和多视角图像输入；首次在不