新加坡国立大学下一代搜索技术联合研究中心(NExT++)近日公布新计划——开发一款可以突破输入端多模态理解限制的大模型 NExT-GPT。
项目主页:https://next-gpt.github.io/
论文地址:https://arxiv.org/pdf/2309.05519.pdf
Demo:https://89bb30ddbe725cdcd7.gradio.live/
研究者表示,他们将大语言模型与多模态适配器和不同的扩散解码器连接起来,使 NExT-GPT 能够感知不同的输入形式,并以文本、图像、视频和音频的任意组合方式生成输出内容。
NExT-GPT 架构:
通过利用现有训练有素的高性能编码器和解码器,NExT-GPT仅使用某些投影层的少量参数(1%)进行调整,这不仅有利于低成本训练,而且有利于将该模型扩展到更多潜在模态。
NExT++的研究者表示,他们的研究展示了建立一个能够模拟通用模态的人工智能代理的可能性。