国际知名大模型评测 Chatbot Arena 日前公布最新榜单,Qwen3-235B-A22B-Instruct-2507 斩获 1433分,超越顶尖闭源模型 Grok4、Claude4、GPT4.1,Qwen3 位列总榜「全球第三」。
据悉,Chatbot Arena 采用盲测评价机制,是 AI 大模型领域最具影响力的榜单之一。
此次 Qwen3 的 1433 分,是全球开源大模型和中国大模型的历史最高分。同时,Qwen3 还在 5 个关键能力子项中摘得「全球第一」,包括数学(math)、代码(coding)、复杂提示(hard prompts)、长文本检索(longer query)和指令遵循(instruction following)。
除 Qwen3 Instruct 模型外,Qwen3 家族多款模型也取得优秀成绩:
- 推理模型 Qwen3-235B-A22B-Thinking-2507 也闯进榜单前十,数学能力并列全球第一;
- 在 Chatbot Arena 专门评估编程能力的 WebDev Arena 子榜单中,编程模型 Qwen3-Coder 性能与 Gemini2.5 Pro、DeepSeek-R1、Claude4 并列第一。