新加坡国立大学计划推出多模态大模型 NExT-GPT


多元共进|2023 Google 开发者大会精彩演讲回顾

新加坡国立大学下一代搜索技术联合研究中心(NExT++)近日公布新计划——开发一款可以突破输入端多模态理解限制的大模型 NExT-GPT。

项目主页:https://next-gpt.github.io/
论文地址:https://arxiv.org/pdf/2309.05519.pdf
Demo:https://89bb30ddbe725cdcd7.gradio.live/

研究者表示,他们将大语言模型与多模态适配器和不同的扩散解码器连接起来,使 NExT-GPT 能够感知不同的输入形式,并以文本、图像、视频和音频的任意组合方式生成输出内容。

NExT-GPT 架构:

通过利用现有训练有素的高性能编码器和解码器,NExT-GPT仅使用某些投影层的少量参数(1%)进行调整,这不仅有利于低成本训练,而且有利于将该模型扩展到更多潜在模态。

NExT++的研究者表示,他们的研究展示了建立一个能够模拟通用模态的人工智能代理的可能性。


相關推薦

2023-09-25

清华系创企水木分子宣布发布新一代对话式药物研发助手 ChatDD (Drug Design) 和全球首个千亿参数多模态生物医药对话大模型ChatDD-FM 100B。水木分子成立于今年6月,由清华大学智能产业研究院(AIR)孵化,专注于生物医药垂直行业

2023-09-08

即可以与 “商量 SenseChat” 进行对话。 4 月 10 日,商汤推出大模型 “日日新”,包括自然语言处理模型 “商量”、文生图模型 “秒画” 和数字人视频生成平台 “如影” 等。其中,商量 SenseChat1.0 也是国内最早推出基于千亿

2023-09-05

Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 Llama 2 的中文语言大模型;零一万物则是李开复旗下的大模型公司。 “多模态大型语言模型近来备受关注。不过,大多数研究都集中在视觉-语言多模态

2023-06-22

》的独家消息,蚂蚁集团技术研发团队正在自研语言和多模态大模型——内部命名为“贞仪”,该项目获得了蚂蚁集团管理层高度重视,已启动数月。 多模态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行

2023-11-06

信息化局公布第一批《北京市通用人工智能产业创新伙伴计划成员名单》。昆仑万维成为第一批模型伙伴和投资伙伴。 2023年8月23日,昆仑万维推出国内第一款AI搜索产品——“天工AI搜索”,并开启内测申请。“天工AI搜索”深

2023-09-07

万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型(Multimodal Large Language Model,简称“MLLM”)测评中,综合得分排名第一。公告称,“这标志着昆仑万维天工大模型在多模态方面跻身世界领先水平,未来将

2023-03-02

开放合作十分重要”   “数据飞轮”开源数据互助计划启动 大模型前沿训练营推动顶尖人才培养 时不我待,十年一遇信息技术产业变革席卷世界。 高质量数据与系统性人才是这一轮计算机范式转变的关键要素。 本次发

2023-10-11

时,为了支撑多模态数据的对齐,九章云极DataCanvas公司推出的开源产品DingoDB多模向量数据库,配合元识大模型,可以为向量数据提供存储和分析,为多模态数据的利用和管理提供必备工具载体。 当前,九章云极DataCanvas公司已

2024-10-15

MM1.5 模型在多项基准测试中取得了优秀表现,苹果团队仍计划通过进一步融合文本、图像和用户交互数据,设计更复杂的架构,来提升模型对移动设备 UI 的理解能力,加强“苹果牌”AI 的实力。 论文地址:https://arxiv.org/abs/2409

2023-06-17

大模型的创新。会上,中国科学院自动化研究所基于昇思推出的全模态大模型“紫东·太初2.0”正式发布。 该大模型是在千亿参数三模态大模型“紫东·太初”1.0基础上的升级,在语音、图像和文本之外,加入了视频、传感信号

2023-10-26

)联合香港大学、浙江大学和中国科学技术大学宣布共同推出 PonderV2 通用 3D 预训练方法与模型。 Ponder系列在通用3D方面实现三个“首次”:首次同时支持室内外使用场景;首次同时支持点云、体素和多视角图像输入;首次在不

2023-08-19

华大学智能产业研究院(AIR)宣布开源全球首个可商用多模态生物医药百亿参数大模型 BioMedGPT-10B,可用于提升药物研发各个环节的效率,包括新药立项评估、药物设计和优化、临床试验设计、适应症拓展等。 此外,该模型在

2023-08-16

模型和书生·天际实景三维大模型等三大基础模型,并且推出了书生·浦语开源体系(https://github.com/InternLM/InternLM),它不仅开放了一个高质量的语言大模型 InternLM-7B,在多项主流评测中性能领先于Llama-2-7B,还提供了覆盖从数据

2023-08-26

源创会」北京站,聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/models/qwen