昆仑万维天工大模型登顶多模态榜单

2023-09-07 發表於开源资讯

昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型（Multimodal Large Language Model，简称“MLLM”）测评中，综合得分排名第一。公告称，“这标志着昆仑万维天工大模型在多模态方面跻身世界领先水平，未来将有力支撑公司旗下AI业务矩阵取得关键性突破。”

腾讯优图实验室联合厦门大学在新建的评测基准MME上首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜，包含感知、认知两个总榜单以及14个子榜单。MME数据集是一个最近发布的多模态语言模型测评基准。MME通过评估大型多模态语言模型在涵盖感知和认知任务的 14 个子任务上的表现来全面评估它们。昆仑万维天工大模型多模态团队的Skywork-MM模型位列综合榜单第一，其中，感知榜单排名第一、认知榜单排名第二.

感知榜单排名第一

认知榜单排名第二

昆仑万维天工大模型多模态团队最新一篇论文指出，在数据侧，为了解决幻觉问题，团队构造了更加多样和精细的微调数据，加强大模型对于图片特征的理解能力，增强多模态语言模型的指令跟随能力并减少“幻觉”。Skywork-MM在减少幻觉方面提升显著。

Skywork-MM还通过适当的数据构造，增强了中文的指令追随能力、中文相关场景的识别能力，减轻了文化偏差对于多模态理解的影响。例如，对于典型的中文场景中的电视节目《非诚勿扰》，现有大模型难以准确识别，但Skywork-MM中文场景识别能力很强。

在模型侧，在模型设计上团队将视觉模型和大语言模型完全冻结，保持视觉模型在前置CLIP训练中学习到的视觉特征不损失，大语言模型的语言能力不损失。同时为了更好的关联视觉特征和语言特征，模型整体包含了一个可学习的视觉特征采样器和语言模型的LoRA适配器。Skywork-MM模型的训练上，分为两个阶段，第一阶段使用双语的大规模图文pair数据进行图像概念和语言概念的关联学习；第二阶段使用多模态微调数据进行指令微调。

此外，Skywork-MM实际上使用的图文数据并不多（约50M），远远小于其他现有的MLLM使用的图文数据量（大于100M）。

昆仑万维天工大模型登顶多模态榜单

相關推薦

昆仑万维「天工」大模型正式向全社会开放

昆仑万维 Q3 报告：实现经营性现金流 7.6 亿

昆仑万维 2024 年前三季度营收 38.3 亿

昆仑万维发布「天工 SkyAgents」平台，零代码打造 AI 智能体

昆仑万维开源 Skywork-R1V 3.0

昆仑万维开源第二代奖励模型 Skywork-Reward-V2 系列

Skywork-R1V 2.0 版本再开源，最强高考数理解题利器

AI 专区上新啦！豆包、通义、360 AI、天工 AI、澜舟智库等入驻麒麟软件商店

昆仑万维开源「天工」Skywork-13B 系列大模型，0 门槛商用

昆仑万维发布 AI 短剧平台 SkyReels

昆仑万维发布全球首款音乐推理大模型 Mureka O1

昆仑万维正式上线音乐模型 Mureka V7

中国开源 AI 社区 7 月高亮时刻回顾

昆仑万维旗下通用 Agent 产品 Skywork.ai 限时免费