阿里云开源通义千问多模态大模型 Qwen-VL


8 月 26 日「源创会」北京站,聊聊 AI 大模型与底层技术 >>>

阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。

开源地址

ModelScope魔搭社区:

  • Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary
  • Qwen-VL-Chat:https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary
  • 模型体验:https://modelscope.cn/studios/qwen/Qwen-VL-Chat-Demo/summary

HuggingFace:

  • Qwen-VL:https://huggingface.co/Qwen/Qwen-VL
  • Qwen-VL-Chat:https://huggingface.co/Qwen/Qwen-VL-Chat

GitHub:

  • https://github.com/QwenLM/Qwen-VL

技术论文地址:

  • https://arxiv.org/abs/2308.12966

Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL取得了远超同等规模通用模型的表现。

Qwen-VL是支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。

用户可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问调用Qwen-VL和Qwen-VL-Chat,阿里云为用户提供包括模型训练、推理、部署、精调等在内的全方位服务。

Qwen-VL可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。

比如,一位不懂中文的外国游客到医院看病,不知怎么去往对应科室,他拍下楼层导览图问Qwen-VL“骨科在哪层”“耳鼻喉科去哪层”,Qwen-VL会根据图片信息给出文字回复,这是图像问答能力;再比如,输入一张上海外滩的照片,让Qwen-VL找出东方明珠,Qwen-VL能用检测框准确圈出对应建筑,这是视觉定位能力。

Qwen-VL是业界首个支持中文开放域定位的通用模型,开放域视觉定位能力决定了大模型“视力”的精准度,也即,能否在画面中精准地找出想找的事物,这对于VL模型在机器人操控等真实应用场景的落地至关重要。

Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,并通过设计训练过程,让模型具备对视觉信号的细粒度感知和理解能力。Qwen-VL支持的图像输入分辨率为448,此前开源的LVLM模型通常仅支持224分辨率。在Qwen-VL 的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。

在四大类多模态任务(Zero-shot Caption/VQA/DocVQA/Grounding)的标准英文测评中,Qwen-VL取得了同等尺寸开源LVLM的最好效果。

为了测试模型的多模态对话能力,通义千问团队构建了一套基于GPT-4打分机制的测试集“试金石”,对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。

8月初,阿里云开源通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat,成为国内首个加入大模型开源行列的大型科技企业。


相關推薦

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2023-11-01

Android 版本),用户开始可以下载相关APP进行体验。 阿里云CTO周靖人宣布,将在11月开源通义千问720亿参数模型,继续支持全球开发者开展模型和应用创新。 阿里云是国内最早开源自研大模型的头部科技企业,已先后开源

2023-09-14

多元共进|2023 Google 开发者大会精彩演讲回顾 阿里云9月13日宣布,通义千问大模型已首批通过备案,正式向公众开放。 用户可登录通义千问官网 (https://qianwen.aliyun.com) 体验,企业用户可以通过阿里云调用通义千问 API (https:/

2023-09-26

阿里云宣布开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,免费可商用。据阿里云CTO周靖人介绍,Qwen-14B在多个权威评测中超越同等规模模型,部分指标甚至接近Llama2-70B。 Qwen-14B是一款支持多种语言的高性能开源模

2023-09-27

OpenAI 的 GPT-3.5 ,GPT-4 Anthropic 的 Claude instant, Claude 2.0 阿里的通义千问 百度的文心一言 科大讯飞的讯飞星火 商汤日日新 腾讯混元大模型 开源大模型 Llama2 70B 开源大模型 Llama2 7B 中文版 开源大模型 ChatGLM2 6B 开源

2023-09-06

言模型以及绘图模型的 APP, 采用 Flutter 开发,代码完全开源,支持以下功能: 支持 GPT-3.5/4 问答聊天 支持国产模型:通义千问,文心一言 支持文生图、图生图、超分辨率、黑白图片上色等功能,集成 Stable Diffusion 模型,

2023-11-08

于 POE,它是一款集成了主流大语言模型以及绘图模型的开源 APP。如果你还不知道它,那么可以简单看看这篇文章 花了小半年开发了一个 AI 套壳 APP,然而大势已过,直接开源了。 AIdea 项目前后端所有代码均采用 MIT 协议开源。

2023-08-11

了解,报告本次评估选取了GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工7个大语言模型,围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型上下文理解、中文语义理解、误导信息识别、逻

2022-09-06

户带来高效的从训练到落地的完整体验。 EasyNLP 已经在阿里巴巴内部支持 10 多个 BU 的业务,同时在阿里云上提供了 NLP 解决方案和 ModelHub 模型帮助用户解决业务问题,也提供用户自定义模型服务方便用户打造自研模型。在经过

2023-06-17

所联合发布《共建人工智能框架生态倡议》、昇思MindSpore开源社区理事会成立、上海昇思AI框架&大模型创新中心正式启动及首批22家单位入驻、全模态大模型“紫东·太初2.0”正式发布等。 本次峰会以“一起昇思 无尽创新”

2023-10-22

(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 阿里达摩院宣布发布业内首个遥感 AI 大模型(AIE-SEG),号称“率先在遥感领域实现了图像分割的任务统一,一个模型实现‘万物零样本’的快速提取”,并可识别农田、

2023-10-11

IDC中国机器学习开发平台厂商全国Top3。在全球人工智能开源领域,自主研发的多项全球首个开源项目,填补AI领域技术空白,引领人工智能行业跨时代发展。作为中国信通院的战略合作单位、标准核心参编单位,共同编订发布

2022-09-08

非常大的想象空间。为推进自监督学习和视觉Transformer在阿里集团、阿里云上的落地,阿里云机器学习平台PAI 打造了 EasyCV all-in-one视觉建模工具,搭建了丰富完善的自监督算法体系,提供了效果SOTA的视觉Transformer预训练模型,mod

2023-08-16

上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。 “书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联