开源多模态大模型“书生·万象 3.0”发布


上海人工智能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。

根据介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面测试中,10亿~780亿参数的全量级版本在开源模型中性能均位列第一,同时大幅提升了图形用户界面(GUI)智能体、建筑场景图纸理解、空间感知推理以及通识学科推理等方面的能力。

  • 在专家级多学科领域知识推理基准测试MMMU中再次突破开源模型极限,取得72.2分;
  • 基于司南OpenCompass开源评测框架,研究团队对InternVL3进行了全面系统的评估,包括多学科推理、文档理解、多图像 / 视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及以语言为中心的基准测试。评测结果显示,InternVL3在开源多模态大模型中性能表现最优,创造了开源多模态大模型的性能新标杆,性能接近闭源模型Gemini-2.5-Pro;
  • 创新提出原生多模态预训练方法,将语言和多模态学习整合于同一个预训练阶段,提升及拓展多模态能力的同时,进一步提升纯语言能力;
  • 提出混合偏好优化算法以及多模态测试阶段增强,通过负监督修正模型响应分布,大幅提升模型推理能力。

公测版本:https://chat.intern-ai.org.cn/ 


相關推薦

2023-08-16

上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。 “书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联

2023-06-22

alGLM-6B 由清华大学知识工程和数据挖掘小组发布,是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模

2023-08-26

>>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary 模型体验:https://modelscope.c

2023-09-05

LLaSM 是一个开源可商用的中英文双语语音 - 语言助手,其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均

2023-06-17

所联合发布《共建人工智能框架生态倡议》、昇思MindSpore开源社区理事会成立、上海昇思AI框架&大模型创新中心正式启动及首批22家单位入驻、全模态大模型“紫东·太初2.0”正式发布等。 本次峰会以“一起昇思 无尽创新”

2024-01-13

中国电信宣布将自研星辰 AI 大型模型全面开源,公开其底层代码、算法逻辑及其预制的各种基础大模型、开发模块、训练工具等核心产品能力。 用户既可以直接调用大模型,也可以根据自身业务需求对大模型进行微调或个性化

2025-05-17

及修复模型卸载后进程持续运行的问题 Ollama 是一个开源的本地大语言模型运行框架,简化了利用 llama.cpp 后端运行各种 LLM 以及与其他桌面软件方便集成的过程,为普通用户提供简单易用的大语言模型(LLM)的本地部署和管

2023-08-19

水木分子联合清华大学智能产业研究院(AIR)宣布开源全球首个可商用多模态生物医药百亿参数大模型 BioMedGPT-10B,可用于提升药物研发各个环节的效率,包括新药立项评估、药物设计和优化、临床试验设计、适应症拓展等。

2023-09-07

万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型(Multimodal Large Language Model,简称“MLLM”)测评中,综合得分排名第一。公告称,“这标志着昆仑万维天工大模型在多模态方面跻身世界领先水平,未来将

2025-05-23

推出大规模、可漫游的3D场景生成模型。 腾讯重申拥抱开源,已实现图像、视频、3D、文本等全模态开源,未来将持续推出多尺寸模型并开源更多多模态基础模型及插件。 腾讯也正在推广其AI IDE“Genie IDE”,目前已开放预约

2025-05-30

模型」(CongRong-v2.0)在国际评测平台OpenCompass最新全球多模态榜单中,以80.7分的综合成绩登顶榜首。 https://rank.opencompass.org.cn/leaderboard-multimodal/?m=REALTIME 据介绍,面对涵盖视觉感知、认知理解与跨领域应用的8大核心数据集

2025-04-10

Jina AI 正式发布jina-reranker-m0,一款多模态、多语言重排器(reranker),核心能力在于 对包含丰富视觉元素的文档进行重排和精排,同时兼容跨语言场景。 根据介绍,当用户输入一个查询(query)以及一堆包含文本、图表

2023-09-13

(NExT++)近日公布新计划——开发一款可以突破输入端多模态理解限制的大模型 NExT-GPT。 项目主页:https://next-gpt.github.io/ 论文地址:https://arxiv.org/pdf/2309.05519.pdf Demo:https://89bb30ddbe725cdcd7.gradio.live/ 研究者表示,他们将大语言

2024-10-15

苹果近日发布多模态大模型 MM1.5,旨在增强对文本丰富的图像的理解、视觉指代和接地,以及多图像推理的能力。 据悉, MM1.5在在 MM1 架构的基础上训练而成,MM1.5 采用了以数据为中心的模型训练方法,在整个模型训练生命周