通义千问发布多模态统一理解与生成模型 Qwen VLo

2025-07-01 發表於开源资讯

通义千问宣布正式推出 Qwen VLo——一个多模态统一理解与生成模型，目前 Qwen VLo 还属于预览阶段，可在 Qwen Chat（chat.qwen.ai）上直接体验。

“这一全新升级的模型不仅能够看懂世界，更能基于理解进行高质量的再创造，真正实现了从感知到生成的跨越。”

根据介绍，Qwen VLo 以一种渐进式生成方式，从左到右、从上到下逐步清晰地构建整幅图片。在生成过程中，模型会对预测的内容不断调整和优化，从而确保最终结果更加和谐一致。这种生成机制不仅提升了视觉效果，还为用户带来了更灵活、更可控的创作体验。

Qwen VLo 在原始多模态理解与生成能力上进行了全面升级，显著增强了对图像内容的理解深度，并在此基础上实现了更加准确和一致的生成效果。核心亮点如下：

更精准的内容理解与再创造

以往的多模态模型在生成过程中容易出现语义不一致的问题，例如将汽车误生成其他类型的物体，或者无法保留原图的关键结构特征。而 Qwen VLo 通过更强大的细节捕捉能力，能够在生成过程中保持高度的语义一致性。例如，当用户输入一张汽车的照片并要求“更换颜色”时，Qwen VLo 不仅能准确识别车型，还能保留其原有的结构特征，同时完成色彩风格的自然转换，让生成结果既符合预期又不失真实感。

支持开放指令编辑修改生成

用户可以通过自然语言提出各种创意性指令，如“将这张画风改为梵高风格”、“让这张照片看起来像19世纪的老照片”或“给这张图片添加一个晴朗的天空”。Qwen VLo 能够灵活响应这些开放性指令，并生成符合用户预期的结果。无论是艺术风格迁移、场景重构还是细节修饰，模型都能轻松应对。甚至一些传统的视觉感知人物如预测深度图、分割图、检测图以及边缘信息等也可以通过编辑指令轻松完成。更进一步，像很多更复杂的指令，比如一条指令中同时包含修改物体、修改文字、更换背景，模型也能轻松完成。

多语言指令支持

Qwen VLo 支持包括中文、英文在内的多种语言指令，打破了语言壁垒，为全球用户提供了统一且便捷的交互体验。无论你使用哪种语言，只需简单描述你的需求，模型便能快速理解并输出理想结果。

Qwen VLo 采用动态分辨率训练，支持动态分辨率生成。无论是输入端还是输出端，模型都支持任意分辨率和长宽比的图像生成。这意味着用户不再受限于固定的格式，可以根据实际需求生成适配不同场景的图像内容，无论是海报、插图、网页Banner还是社交媒体封面，都能轻松应对。

此外，Qwen VLo 还创新性地引入了一种全新的生成机制：从上到下、从左到右逐步清晰的生成过程。这一机制不仅提升了生成效率，还特别适用于需要精细控制的长段落文字生成任务。例如，在生成带有大量文本的广告设计或漫画分镜时，Qwen VLo 逐步生成慢慢修改。这种渐进式的生成方式让用户可以实时观察生成过程，并根据需要进行调整，从而获得最佳的创作效果。

通义千问发布多模态统一理解与生成模型 Qwen VLo

相關推薦

阿里云开源通义千问多模态大模型 Qwen-VL

阿里云开源通义千问 720 亿参数模型 Qwen-72B

Qwen2.5-Omni 登顶全球开源模型榜单

国家天文台基于通义千问打造国际首个太阳大模型“金乌”

通义千问 APP 上线，通义千问 720 亿参数模型下月开源

中国大模型密集开源，影响几何？

中文大模型基准测评上半年报告：GPT-4o 排名第一、通义千问“国服最强”

阿里通义千问 Qwen3 全系适配 MLX

阿里云通义千问 14B 模型开源

阿里通义开源音频语言模型 Qwen2-Audio

阿里巴巴 2025 财年收入 9963 亿元

通义千问 QwenChat 新增 Deep Research 功能

阿里云最新财报：AI 收入实现三位数增长

通义千问 Qwen-TTS 新增支持北京话、上海话和四川话中文方言