阿里通义开源多模态推理模型 HumanOmniV2


阿里巴巴通义实验室开源了一款名为HumanOmniV2的多模态推理模型,旨在解决现有模型在全局上下文理解不足和推理路径简单化的问题。该模型能够更精准地捕捉图像、视频、音频中的隐藏信息,从而更好地理解人类的复杂意图和“话外音”。

HumanOmniV2引入了三项关键技术:

  • 强制上下文总结机制,要求模型在生成最终答案前先输出对多模态输入的系统性分析;
  • 由大模型驱动的多维度奖励体系,从上下文、格式、准确性和逻辑四个维度进行评估;
  • 以及基于GRPO(Generative Reasoning Policy Optimization)的优化训练方法。

同时,团队还推出了一个名为IntentBench的评测基准,包含633个视频和2689个相关问题,HumanOmniV2在此基准上实现了69.33%的准确率。

相关链接

https://arxiv.org/abs/2506.21277
https://github.com/HumanMLLM/HumanOmniV2
https://modelscope.cn/models/iic/humanomniv2
https://huggingface.co/PhilipC/HumanOmniV2
https://huggingface.co/datasets/PhilipC/IntentBench


相關推薦

2023-08-26

26 日「源创会」北京站,聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/m

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2025-07-08

通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。 该模型首次把多模态大模型的思维链推理引入音频生成领域,让AI可以像专业音效师一样逐步思考,捕捉视觉细节,生成与画面同步的

2025-04-03

Hugging Face 发布了最新的大模型榜单,阿里巴巴通义千问所推出的端到端全模态大模型 Qwen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频

2025-03-27

今年以来,中国大模型开源的消息一个接一个。 阿里云通义千问从除夕夜开源全新的视觉模型Qwen2.5-VL,再到本月初发布并开源了全新推理模型QwQ-32B,在开源当日就登顶全球主流AI开源社区Hugging Face的趋势榜。 DeepSeek(深度求索)

2025-05-08

知情人士透露,阿里巴巴通义实验室应用视觉团队负责人薄列峰已于4月30日低调离职。 有消息称他已经加入刚刚进行架构调整的某互联网大厂,担任多模态模型部副总经理,向公司副总裁汇报。 薄列锋2007年博士毕业于西安

2024-08-14

等多个领域,为用户带来更加丰富、智能的应用体验。 阿里通义 通义是一款超大规模与训练模型,为您提供全方位协助,包括知识问答、AI创作、文档作画、涂鸦绘画、AI搜索、千万字长文档解析、AI翻译、AI会议纪要等等,

2025-06-28

6月26日晚,阿里巴巴集团发布2025财年年报显示,2025财年阿里巴巴集团收入达9963.47亿元,净利润同比增长77%至1259.76亿元,展现出强劲的盈利能力。在AI需求的推动下,阿里云财年收入突破双位数增长,AI相关产品收入连续七个季

2025-06-11

阿里通义实验室发布并开源了 MaskSearch 预训练框架,声称能让 AI 学会“主动搜索 + 多步推理”,从而更准确、更智能地回答复杂问题。 根据介绍,MaskSearch 的核心在于它提出的一种全新预训练任务——检索增强掩码预测(RAMP

2025-04-02

国家天文台联合阿里云发布国际首个太阳大模型——“金乌”。“金乌”基于通义千问系列开源模型打造,目前在M5级太阳耀斑预报上准确率超91%,为该级别太阳预报最高水平。 根据介绍,基于Qwen-VL等模型,“金乌”太阳大

2023-09-26

阿里云宣布开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,免费可商用。据阿里云CTO周靖人介绍,Qwen-14B在多个权威评测中超越同等规模模型,部分指标甚至接近Llama2-70B。 Qwen-14B是一款支持多种语言的高性能开源模

2025-07-08

阿里通义开源了网络智能体WebSailor,该智能体具备强大的推理和检索能力,在高难度智能体评测集BrowseComp上,WebSailor的成绩超越了DeepSeek R1、Grok-3等模型和智能体,一举登顶开源网络智能体榜单。 在构建数据集阶段,通义实验

2025-06-04

技术,可直接从 360° 视频生成 FOA 空间音频 5 月 29 日,阿里通义大模型公布了「空间音频生成」模型——OmniAudio。据通义团队介绍,OmniAudio 能够直接从 360° 视频生成空间音频。 为了解决「如何利用全景视频生成与之匹配的

2025-03-28

榜认为,中国互联网巨头即将拉开AI 超级应用争夺战,而阿里夸克凭借MAU优势取得领先身位。 AI产品榜指出,以阿里、腾讯、字节为代表的中国互联网巨头纷纷将战略重心转向 AI,他们将重燃战火,争夺 AI 时代的超级应用。