阿里通义开源多模态推理模型 HumanOmniV2

2025-07-10 發表於开源资讯

阿里巴巴通义实验室开源了一款名为HumanOmniV2的多模态推理模型，旨在解决现有模型在全局上下文理解不足和推理路径简单化的问题。该模型能够更精准地捕捉图像、视频、音频中的隐藏信息，从而更好地理解人类的复杂意图和“话外音”。

HumanOmniV2引入了三项关键技术：

强制上下文总结机制，要求模型在生成最终答案前先输出对多模态输入的系统性分析；
由大模型驱动的多维度奖励体系，从上下文、格式、准确性和逻辑四个维度进行评估；
以及基于GRPO（Generative Reasoning Policy Optimization）的优化训练方法。

同时，团队还推出了一个名为IntentBench的评测基准，包含633个视频和2689个相关问题，HumanOmniV2在此基准上实现了69.33%的准确率。

相关链接

https://arxiv.org/abs/2506.21277
https://github.com/HumanMLLM/HumanOmniV2
https://modelscope.cn/models/iic/humanomniv2
https://huggingface.co/PhilipC/HumanOmniV2
https://huggingface.co/datasets/PhilipC/IntentBench

相關推薦

阿里云开源通义千问多模态大模型 Qwen-VL

2023-08-26

26 日「源创会」北京站，聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL，并宣布直接开源。开源地址 ModelScope魔搭社区： Qwen-VL：https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat：https://modelscope.cn/m

阿里云开源通义千问 720 亿参数模型 Qwen-72B

2023-12-02

今天，阿里云举办通义千问发布会，开源通义千问720亿参数模型Qwen-72B。地址：https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍，Qwen-72B在10个权威基准测评创下开源模型最优成绩，成为业界最强开源大模型，性能超越开源标杆Llama 2-70

阿里通义开源实首个音频生成模型 ThinkSound

2025-07-08

通义实验室首个音频生成模型 ThinkSound 现已正式开源，将打破“静音画面”的想象力局限。该模型首次把多模态大模型的思维链推理引入音频生成领域，让AI可以像专业音效师一样逐步思考，捕捉视觉细节，生成与画面同步的

Qwen2.5-Omni 登顶全球开源模型榜单

2025-04-03

Hugging Face 发布了最新的大模型榜单，阿里巴巴通义千问所推出的端到端全模态大模型 Qwen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型，旨在感知文本、图像、音频

中国大模型密集开源，影响几何？

2025-03-27

今年以来，中国大模型开源的消息一个接一个。阿里云通义千问从除夕夜开源全新的视觉模型Qwen2.5-VL，再到本月初发布并开源了全新推理模型QwQ-32B，在开源当日就登顶全球主流AI开源社区Hugging Face的趋势榜。 DeepSeek(深度求索)

前阿里通义视觉负责人薄列峰加入腾讯混元团队

2025-07-29

2025年7月27日，前阿里通义实验室应用视觉团队负责人薄列峰确认加入腾讯混元大模型团队，直接向腾讯副总裁蒋杰汇报，负责多模态技术研发。据悉，薄列峰于2025年4月30日从阿里离职，此前曾主导阿里图像与视频AIGC技术，包

阿里通义应用视觉团队负责人薄列峰离职

2025-05-08

知情人士透露，阿里巴巴通义实验室应用视觉团队负责人薄列峰已于4月30日低调离职。有消息称他已经加入刚刚进行架构调整的某互联网大厂，担任多模态模型部副总经理，向公司副总裁汇报。薄列锋2007年博士毕业于西安

阿里财报：AI 收入连续 8 季度三位数增长

2025-08-30

8月29日，阿里巴巴集团发布2026财年第一季度财报，业绩表现远超市场预期。剔除已出售业务影响，集团整体收入同比稳健增长10%，净利润同比大幅增长76%，充分展现了AI+云与消费两大战略领域投入的显著成效。阿里云本季度表

AI 专区上新啦！豆包、通义、360 AI、天工 AI、澜舟智库等入驻麒麟软件商店

2024-08-14

等多个领域，为用户带来更加丰富、智能的应用体验。阿里通义通义是一款超大规模与训练模型，为您提供全方位协助，包括知识问答、AI创作、文档作画、涂鸦绘画、AI搜索、千万字长文档解析、AI翻译、AI会议纪要等等，

阿里巴巴 2025 财年收入 9963 亿元

2025-06-28

6月26日晚，阿里巴巴集团发布2025财年年报显示，2025财年阿里巴巴集团收入达9963.47亿元，净利润同比增长77%至1259.76亿元，展现出强劲的盈利能力。在AI需求的推动下，阿里云财年收入突破双位数增长，AI相关产品收入连续七个季

阿里通义实验室开源检索增强预训练框架 MaskSearch

2025-06-11

阿里通义实验室发布并开源了 MaskSearch 预训练框架，声称能让 AI 学会“主动搜索 + 多步推理”，从而更准确、更智能地回答复杂问题。根据介绍，MaskSearch 的核心在于它提出的一种全新预训练任务——检索增强掩码预测（RAMP

阿里通义 Qwen3 模型拿下全球第三

2025-08-05

国际知名大模型评测 Chatbot Arena 日前公布最新榜单，Qwen3-235B-A22B-Instruct-2507 斩获 1433分，超越顶尖闭源模型 Grok4、Claude4、GPT4.1，Qwen3 位列总榜「全球第三」。据悉，Chatbot Arena 采用盲测评价机制，是 AI 大模型领域最具影响力

国家天文台基于通义千问打造国际首个太阳大模型“金乌”

2025-04-02

国家天文台联合阿里云发布国际首个太阳大模型——“金乌”。“金乌”基于通义千问系列开源模型打造，目前在M5级太阳耀斑预报上准确率超91%，为该级别太阳预报最高水平。根据介绍，基于Qwen-VL等模型，“金乌”太阳大

阿里云通义千问 14B 模型开源

2023-09-26

阿里云宣布开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat，免费可商用。据阿里云CTO周靖人介绍，Qwen-14B在多个权威评测中超越同等规模模型，部分指标甚至接近Llama2-70B。 Qwen-14B是一款支持多种语言的高性能开源模

熱門推薦