继“悟道”系列大模型之后,智源研究院推出“悟界”系列大模型。其中包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。
其中,Emu3 旨在让机器更好地理解和感知世界,通过整合不同类型的数据,如视觉、听觉和触觉等,为未来的智能应用提供更为丰富的基础。Brainμ 基于Emu3架构,引入脑信号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。
RoboOS 2.0与RoboBrain 2.0在初代版本基础上,原有性能大幅提升,并新增多机协作规划与物理常识驱动的空间推理能力。OpenComplex2可在原子分辨率层面捕捉分子相互作用及平衡构象,探索微观构象波动与宏观生物功能的跨尺度关联。
根据介绍,Emu3基于下一个token预测范式统一多模态学习,无需扩散模型或组合式架构的复杂性,通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。
Emu3支持多模态输入、多模态输出的端到端映射,验证了自回归框架在多模态领域的普适性与先进性,为跨模态交互提供了强大的技术基座。
基于Emu3的底层架构,将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化,利用预训练模型多模态对齐的优势,可以实现多模态脑信号与文本、图像等模态的多向映射,并实现跨任务、跨模态、跨个体的统一通用建模,以单一模型完成多种神经科学的下游任务。
Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据,完成了超过100万单位的神经信号预训练,模型可以支持神经科学领域从基础研究到临床研究和脑机接口应用的不同方向,有望成为脑科学的 “AlphaFold”模型。
更多详情可查看官方公告。