阿里通义 Qwen3 模型拿下全球第三


国际知名大模型评测 Chatbot Arena 日前公布最新榜单,Qwen3-235B-A22B-Instruct-2507 斩获 1433分,超越顶尖闭源模型 Grok4、Claude4、GPT4.1,Qwen3 位列总榜「全球第三」。

据悉,Chatbot Arena 采用盲测评价机制,是 AI 大模型领域最具影响力的榜单之一。

此次 Qwen3 的 1433 分,是全球开源大模型和中国大模型的历史最高分。同时,Qwen3 还在 5 个关键能力子项中摘得「全球第一」,包括数学(math)、代码(coding)、复杂提示(hard prompts)、长文本检索(longer query)和指令遵循(instruction following)。

除 Qwen3 Instruct 模型外,Qwen3 家族多款模型也取得优秀成绩:

  • 推理模型 Qwen3-235B-A22B-Thinking-2507 也闯进榜单前十,数学能力并列全球第一;
  • 在 Chatbot Arena 专门评估编程能力的 WebDev Arena 子榜单中,编程模型 Qwen3-Coder 性能与 Gemini2.5 Pro、DeepSeek-R1、Claude4 并列第一。


相關推薦

2025-06-18

阿里通义千问团队宣布正式开源 Qwen3 全系列 32 款 MLX 量化模型。 MLX 是开源机器学习框架,专为苹果芯片深度适配。MLX 框架可高效地训练和部署 AI 大模型,被越来越多的 AI 开发者采用。   为更好服务开发者,通义团队推

2025-06-28

6月26日晚,阿里巴巴集团发布2025财年年报显示,2025财年阿里巴巴集团收入达9963.47亿元,净利润同比增长77%至1259.76亿元,展现出强劲的盈利能力。在AI需求的推动下,阿里云财年收入突破双位数增长,AI相关产品收入连续七个季

2025-07-31

Qwen3-30B-A3B 模型迎来了新版本:Qwen3-30B-A3B-Instruct-2507。 这是一个非思考模式(non-thinking mode)的新模型,仅激活3B参数,就能取得可媲美 Gemini 2.5-Flash(non-thinking)、GPT-4o等顶尖闭源模型的超强性能。 Qwen3-30B-A3B-Instruct-2507&nb

2025-06-10

根据《科创板日报》的报道,阿里通义Qwen3大模型开源一个月全球累计下载量突破1250万。 在Hugging Face、魔搭社区和Ollama等主流AI开源平台上,Qwen3的0.6B、8B、30B和32B四种尺寸模型下载量均突破百万。Hugging Face数据还显示,千问系

2025-08-06

商银行发布《软件开发中心智能研发平台》中标结果。 阿里云凭借通义灵码独家中标,根据中标公告,通义灵码将为工商银行智能研发平台提供代码补全、代码问答及单测智能体等服务。此前,工商银行已将阿里 Qwen 模型应用

2025-05-15

复。 亮点更新 ■ MaxKB支持接入Qwen3 2025年4月29日,阿里巴巴开源新一代通义千问模型Qwen3。Qwen3系列模型包含2个混合专家(MoE)模型和6个稠密(Dense)模型,覆盖6亿、17亿、40亿、80亿、140亿、320亿、300亿、2350亿全尺寸参数

2025-06-10

能模型也参与了挑战,分别是字节的豆包、腾讯的元宝、阿里的通义、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。 此次测试采用的是2025年新课标 Ⅰ 卷的14道客观题,总分为73分,涵盖了单选题、多选题和填空题。

2025-05-15

根据「通义大模型」公众号消息,通义灵码已全面支持 Qwen3,并正式上线编程智能体。 只需 2 步即可一键启用通义灵码的智能体模式: 打开 VS Code 或 JetBrains 系列 IDE; 将通义灵码插件升级至 2.5.0 或以上版本; 通义

2023-11-01

Android 版本),用户开始可以下载相关APP进行体验。 阿里云CTO周靖人宣布,将在11月开源通义千问720亿参数模型,继续支持全球开发者开展模型和应用创新。 阿里云是国内最早开源自研大模型的头部科技企业,已先后开源

2024-08-17

8月15日晚间,阿里巴巴集团发布最新季度业绩,AI推动阿里云重回增长,季度营收增长6%至265.49亿元,其中AI相关产品收入实现三位数增长,公共云业务实现两位数增长。同时,阿里云利润大涨,经调整EBITA利润同比增长155%,单季

2024-08-22

阿里大语言模型通义千问宣布启用新域名「tongyi.ai」,并带来多项新功能。 除了域名更新,网页版通义千问还在聊天页面中增加了深度搜索功能,该功能支持更多内容源索引,搜索结果更加深度、专业和结构化,数字角标悬

2025-03-27

今年以来,中国大模型开源的消息一个接一个。 阿里云通义千问从除夕夜开源全新的视觉模型Qwen2.5-VL,再到本月初发布并开源了全新推理模型QwQ-32B,在开源当日就登顶全球主流AI开源社区Hugging Face的趋势榜。 DeepSeek(深度求索)

2025-04-02

国家天文台联合阿里云发布国际首个太阳大模型——“金乌”。“金乌”基于通义千问系列开源模型打造,目前在M5级太阳耀斑预报上准确率超91%,为该级别太阳预报最高水平。 根据介绍,基于Qwen-VL等模型,“金乌”太阳大

2025-07-25

7月24日,全球知名AI搜索Perplexity CEO Aravind Srinivas发推盛赞阿里开源的Qwen3-Coder,称“令人惊叹的成绩!开源赢爆了。” Qwen3-Coder具备全球顶级的Agent能力,在SWE-Bench Multilingual、Aider-Polyglot、Spider2、Mind2Web等多项Agent能力指标中超