开源多模态大模型“书生·万象 3.0”发布

2025-04-18 發表於开源资讯

上海人工智能实验室（上海 AI 实验室）升级并开源了通用多模态大模型书生·万象3.0（InternVL3）。

根据介绍，通过采用创新的多模态预训练和后训练方法，InternVL3 多模态基础能力全面提升，在专家级基准测试、多模态性能全面测试中，10亿~780亿参数的全量级版本在开源模型中性能均位列第一，同时大幅提升了图形用户界面（GUI）智能体、建筑场景图纸理解、空间感知推理以及通识学科推理等方面的能力。

在专家级多学科领域知识推理基准测试MMMU中再次突破开源模型极限，取得72.2分；
基于司南OpenCompass开源评测框架，研究团队对InternVL3进行了全面系统的评估，包括多学科推理、文档理解、多图像 / 视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及以语言为中心的基准测试。评测结果显示，InternVL3在开源多模态大模型中性能表现最优，创造了开源多模态大模型的性能新标杆，性能接近闭源模型Gemini-2.5-Pro；
创新提出原生多模态预训练方法，将语言和多模态学习整合于同一个预训练阶段，提升及拓展多模态能力的同时，进一步提升纯语言能力；
提出混合偏好优化算法以及多模态测试阶段增强，通过负监督修正模型响应分布，大幅提升模型推理能力。

公测版本：https://chat.intern-ai.org.cn/

相關推薦

高质量多模态语料“书生·万卷”开源发布

2023-08-16

上海报业集团、上海文广集团等语料数据联盟成员，共同开源发布“书生·万卷” 1.0多模态预训练语料。 “书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分，本次开源的数据总量超过2TB。集合语料数据联

蚂蚁集团证实正研发语言和多模态大模型，命名“贞仪”

2023-06-22

alGLM-6B 由清华大学知识工程和数据挖掘小组发布，是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模

小红书开源多模态大模型 dots.vlm1

2025-08-08

小红书 Hi Lab 开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器和 DeepSeek V3大语言模型，从零开始完全训练，其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型，

>>> 阿里云推出大规模视觉语言模型Qwen-VL，并宣布直接开源。开源地址 ModelScope魔搭社区： Qwen-VL：https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat：https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary 模型体验：https://modelscope.c

中英双语多模态对话模型 LLaSM，李开复零一万物参与

2023-09-05

LLaSM 是一个开源可商用的中英文双语语音 - 语言助手，其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括：LinkSoul.AI、北京大学和 01.ai (零一万物)，其中共同一作 Yu Shu 和 Siwei Dong 均

快手开源多模态大模型 Kwai Keye-VL

2025-06-28

快手宣布并开源其最新自研的多模态大语言模型 Kwai Keye-VL。根据介绍，Kwai Keye-VL 以 Qwen3-8B 语言模型为基础，引入了基于开源 SigLIP 初始化的 VisionEncoder，能够深度融合并处理文本、图像、视频等多模态信息，凭借其创新的自适

苹果 WWDC 25 视觉智能 AI 升级开放，微美全息以多模态模型驱动场景革新提升竞争力

2025-06-11

头同业陆续已展开军备竞赛，如Meta主要依赖自主研发与开源策略推进AI技术发展，微软向OpenAI注资逾130亿美元，谷歌母公司Alphabet则向竞争对手Anthropic投入数十亿美元。与此同时，资料

中国电信星辰 AI 大模型开源

2024-01-13

中国电信宣布将自研星辰 AI 大型模型全面开源，公开其底层代码、算法逻辑及其预制的各种基础大模型、开发模块、训练工具等核心产品能力。用户既可以直接调用大模型，也可以根据自身业务需求对大模型进行微调或个性化

基于昇思 AI 框架的全模态大模型“紫东·太初 2.0”正式发布

2023-06-17

所联合发布《共建人工智能框架生态倡议》、昇思MindSpore开源社区理事会成立、上海昇思AI框架&大模型创新中心正式启动及首批22家单位入驻、全模态大模型“紫东·太初2.0”正式发布等。本次峰会以“一起昇思无尽创新”

Ollama 发布 v0.7.0，增强多模态能力并引入多项优化

2025-05-17

及修复模型卸载后进程持续运行的问题 Ollama 是一个开源的本地大语言模型运行框架，简化了利用 llama.cpp 后端运行各种 LLM 以及与其他桌面软件方便集成的过程，为普通用户提供简单易用的大语言模型（LLM）的本地部署和管

全球首个可商用生物医药大模型 BioMedGPT-10B 开源

2023-08-19

水木分子联合清华大学智能产业研究院（AIR）宣布开源全球首个可商用多模态生物医药百亿参数大模型 BioMedGPT-10B，可用于提升药物研发各个环节的效率，包括新药立项评估、药物设计和优化、临床试验设计、适应症拓展等。

中国开源 AI 社区 7 月高亮时刻回顾

2025-08-05

中国AI社区7月高亮时刻，回溯这一个月来令人眼花缭乱的开源浪潮。包括： ✨ 另一个“DeepSeek时刻”——Kimi K2 ✨ Qwen完全矩阵化- Instruct / Thinking / Coder模型跨越30B - 480B参数规模 ✨ 多模态浪潮： GLM-4.1V-Thinking: Image+Text &

腾讯混元大模型矩阵全面升级并推出多款新品

2025-05-23

推出大规模、可漫游的3D场景生成模型。腾讯重申拥抱开源，已实现图像、视频、3D、文本等全模态开源，未来将持续推出多尺寸模型并开源更多多模态基础模型及插件。腾讯也正在推广其AI IDE“Genie IDE”，目前已开放预约

昆仑万维天工大模型登顶多模态榜单

2023-09-07

万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型（Multimodal Large Language Model，简称“MLLM”）测评中，综合得分排名第一。公告称，“这标志着昆仑万维天工大模型在多模态方面跻身世界领先水平，未来将