通义千问发布多模态统一理解与生成模型 Qwen VLo


通义千问宣布正式推出 Qwen VLo——一个多模态统一理解与生成模型,目前 Qwen VLo 还属于预览阶段,可在 Qwen Chat(chat.qwen.ai)上直接体验。

“这一全新升级的模型不仅能够看懂世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。”

根据介绍,Qwen VLo 以一种渐进式生成方式,从左到右、从上到下逐步清晰地构建整幅图片。在生成过程中,模型会对预测的内容不断调整和优化,从而确保最终结果更加和谐一致。这种生成机制不仅提升了视觉效果,还为用户带来了更灵活、更可控的创作体验。

Qwen VLo 在原始多模态理解与生成能力上进行了全面升级,显著增强了对图像内容的理解深度,并在此基础上实现了更加准确和一致的生成效果。核心亮点如下:

  • 更精准的内容理解与再创造

以往的多模态模型在生成过程中容易出现语义不一致的问题,例如将汽车误生成其他类型的物体,或者无法保留原图的关键结构特征。而 Qwen VLo 通过更强大的细节捕捉能力,能够在生成过程中保持高度的语义一致性。例如,当用户输入一张汽车的照片并要求“更换颜色”时,Qwen VLo 不仅能准确识别车型,还能保留其原有的结构特征,同时完成色彩风格的自然转换,让生成结果既符合预期又不失真实感。

  • 支持开放指令编辑修改生成

用户可以通过自然语言提出各种创意性指令,如“将这张画风改为梵高风格”、“让这张照片看起来像19世纪的老照片”或“给这张图片添加一个晴朗的天空”。Qwen VLo 能够灵活响应这些开放性指令,并生成符合用户预期的结果。无论是艺术风格迁移、场景重构还是细节修饰,模型都能轻松应对。甚至一些传统的视觉感知人物如预测深度图、分割图、检测图以及边缘信息等也可以通过编辑指令轻松完成。更进一步,像很多更复杂的指令,比如一条指令中同时包含修改物体、修改文字、更换背景,模型也能轻松完成。

  • 多语言指令支持

Qwen VLo 支持包括中文、英文在内的多种语言指令,打破了语言壁垒,为全球用户提供了统一且便捷的交互体验。无论你使用哪种语言,只需简单描述你的需求,模型便能快速理解并输出理想结果。


Qwen VLo 采用动态分辨率训练,支持动态分辨率生成。无论是输入端还是输出端,模型都支持任意分辨率和长宽比的图像生成。这意味着用户不再受限于固定的格式,可以根据实际需求生成适配不同场景的图像内容,无论是海报、插图、网页Banner还是社交媒体封面,都能轻松应对。

此外,Qwen VLo 还创新性地引入了一种全新的生成机制:从上到下、从左到右逐步清晰的生成过程。这一机制不仅提升了生成效率,还特别适用于需要精细控制的长段落文字生成任务。例如,在生成带有大量文本的广告设计或漫画分镜时,Qwen VLo 逐步生成慢慢修改。这种渐进式的生成方式让用户可以实时观察生成过程,并根据需要进行调整,从而获得最佳的创作效果。


相關推薦

2023-08-26

技术论文地址: https://arxiv.org/abs/2308.12966 Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL取得了远超同等规

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2025-04-03

Hugging Face 发布了最新的大模型榜单,阿里巴巴通义千问所推出的端到端全模态大模型 Qwen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频

2025-04-02

云发布国际首个太阳大模型——“金乌”。“金乌”基于通义千问系列开源模型打造,目前在M5级太阳耀斑预报上准确率超91%,为该级别太阳预报最高水平。 根据介绍,基于Qwen-VL等模型,“金乌”太阳大模型以超过90万张太阳

2023-11-01

在10月31日2023云栖大会现场,作为通义大模型基础模型的通义千问2.0千亿参数模型正式发布。 据介绍,通义千问2.0模型参数达到千亿级别,不管是在阅读理解还是逻辑思维、数据等方面,都有大幅度提升,能够全面达到国际先

2025-03-27

今年以来,中国大模型开源的消息一个接一个。 阿里云通义千问从除夕夜开源全新的视觉模型Qwen2.5-VL,再到本月初发布并开源了全新推理模型QwQ-32B,在开源当日就登顶全球主流AI开源社区Hugging Face的趋势榜。 DeepSeek(深度求索)

2024-07-11

总分来看,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet与通义千问开源模型Qwen2-72B-Instruct并列第二,得分均为77。 通义千问(Qwen2-72B)既是排名最高的中国大模型,也是全球最强的开源大模型,性能超越文心一言4.0、讯飞星火V4.0、L

2023-09-26

阿里云宣布开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,免费可商用。据阿里云CTO周靖人介绍,Qwen-14B在多个权威评测中超越同等规模模型,部分指标甚至接近Llama2-70B。 Qwen-14B是一款支持多种语言的高性能开源模

2025-06-18

阿里通义千问团队宣布正式开源 Qwen3 全系列 32 款 MLX 量化模型。 MLX 是开源机器学习框架,专为苹果芯片深度适配。MLX 框架可高效地训练和部署 AI 大模型,被越来越多的 AI 开发者采用。   为更好服务开发者,通义团队推

2024-08-14

通义千问团队开源音频语言模型 Qwen2-Audio。这是 Qwen-Audio 的下一代版本,它能够接受音频和文本输入,并生成文本输出。具有以下特点: 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)

2025-06-28

型,覆盖全尺寸、全模态、多场景。4月最新发布的阿里通义Qwen3(简称“千问3”)大模型,开源仅一个月全球累计下载量突破1250万。截至4月底,阿里通义已开源200余款模型,全球下载量超过3亿次,千问系列衍生模型数量超10万

2025-05-15

阿里 Qwen 团队宣布 QwenChat 已对所有人免费开放 Deep Research(深入研究)功能。 官方介绍,QwenChat 中的 Deep Research (深入研究)是由 Qwen 团队打造的一个智能助理系统,能够逐步规划复杂的研究任务,综合大量在线信息

2024-08-17

多国内外闭源模型”,“引领全球的开源生态”。目前,通义千问开源模型下载量已突破2000万。 同时,阿里云对通义千问9款主力大模型大幅降价。其中,通义千问GPT-4级主力模型Qwen-Long的API输入价格低至1块钱可以买200万tokens

2025-07-02

通义千问团队更新并上线了Qwen-TTS文本转语音服务, 新增支持生成三种中文方言,包括北京话、上海话和四川话。 据介绍,Qwen-TTS 使用了超过 300 万小时的大规模语料库进行训练,合成效果达到了人类级别的自然度和表现力