Qwen3 技术报告发布,详细介绍模型架构、训练方法与评估结果


阿里巴巴正式发布了Qwen3系列大型语言模型的技术报告。报告详细阐述了Qwen3的模型架构、训练方法、数据处理、可扩展性以及全面的评估结果。

https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

Qwen3系列包括Qwen3-0.5B、Qwen3-1.8B、Qwen3-4B、Qwen3-7B、Qwen3-14B、Qwen3-32B、Qwen3-72B等多种参数规模的模型,其中部分模型已开源。

报告指出,Qwen3的预训练分为三个阶段:

  1. 通用阶段(S1)在超过30万亿token上训练,序列长度4096,构建通用知识基础;
  2. 推理阶段(S2)在约5万亿更高质量的STEM、代码、推理和合成数据上进一步训练,序列长度4096,提升推理能力;
  3. 长文本阶段(S3)在数千亿长文本数据上训练,将上下文长度从4096扩展到32768,并采用了ABF、YARN和DCA(Dual Chunk Attention)等技术,实现了推理时4倍序列长度的扩展。

Qwen3模型在多项基准测试中表现出色,包括自然语言理解、代码生成、数学推理和多语言能力。

例如,Qwen3-72B在MMLU、GSM8K、HumanEval等多个权威评测中取得了领先成绩。报告还强调了Qwen3在多模态能力、Agent能力以及与外部工具和API集成方面的进展。

此外,Qwen Chat在最新更新中上线了“深度研究”(Deep Research)功能,用户提出问题后,Qwen会引导用户明确研究方向,并在后台生成详细报告。


相關推薦

2025-07-23

型的详细报告,名为《Apple Intelligence基础语言模型2025年技术报告》,该报告深入介绍了最新人工智能模型的关键要素,几乎涵盖了所有内容,从模型架构到训练阶段、训练后阶段,以及如何对模型进行微调。报告还探讨了用于

2025-07-30

,模型进一步强化了可控生成能力,通过精确流程内置等技术细节,实现了专业场景下的零幻觉,破解了沉浸式角色演绎难题。 基于最新的语言大模型,中国移动还同步推出了多个专项模型: 九天代码大模型:采用两阶段持

2025-05-23

阶段的 tokens 增训,以及后训练阶段引入长短思维链融合技术。 近日,腾讯混元 TurboS 发布了技术报告,其模型架构如下: 据介绍,腾讯混元 TurboS 核心创新体现在以下几个方面: 架构协同:巧妙地融合了Mamba架构处理长序

2025-06-11

、用于训练的数据、所采用的训练配方、用于优化推理的技术,以及与同类模型相比的评估结果。在整个过程中,我们强调了如何在设备和私有云计算上实现速度和效率的提升,同时扩展了能力并提高了质量。最后,在我们持续

2023-04-04

模型提供更好的响应。 LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细对比如下: Vicun 团队展示了 Alpaca 和 Vicuna 对基准问题的回答示例。在使用 70K 用户共享的 ChatGPT 对话对 Vicuna 进行微调后,其发现与 Alpaca 相比,Vicuna 能够生成更

2025-07-17

样性。 针对长上下文训练的挑战,POLARIS引入了长度外推技术,通过位置编码RoPE的调整,使模型能够处理超出训练时所见的更长序列。这一创新策略有效补偿了长文本训练中的不足,提升了模型在长文本生成任务上的性能。 此

2025-05-23

扩增的高效利用机制,限制了多样性生成与泛化训练。 技术突破:EVAC—— 全球首个机器人动作序列驱动的世界模型 EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型,标志着从传统仿真到生成式模拟的跃迁。 ▍核

2023-04-03

模型。“BloombergGPT 代表了为金融行业开发和应用这种新技术的第一步”。 该模型将协助彭博改进现有的金融 NLP 任务,如情感分析、命名实体识别、新闻分类和问答等。此外,BloombergGPT 将为彭博终端上的大量数据释放新的机会

2025-04-30

2025年4月29日,Qwen家族新成员Qwen3正式发布,包含多种模型版本。 1. 模型类型与参数 MoE 模型:有Qwen3-235B-A22B(总参数2350亿,激活参数220亿)和Qwen3-30B-A3B(总参数300亿,激活参数30亿)。 密集模型:包括Qwen3-32B、14B、8B、4B

2022-09-08

像任务繁重的标注工作,节省大量人力成本,而transormer技术在NLP领域的巨大成功也为CV模型效果进一步提升提供了非常大的想象空间。为推进自监督学习和视觉Transformer在阿里集团、阿里云上的落地,阿里云机器学习平台PAI 打造

2025-06-17

体 Claude Opus 4提升了90.2%。例如,当系统被要求列举信息技术 S&P 500指数成分企业全部董事会成员时,多智能体系统能够将任务拆解分配给各子智能体,从而找到正确答案,而单智能体系统因采用缓慢、串行的检索流程,未能

2025-08-07

市场提供了权威、客观的基准 "标尺",使开发者、DBA 和技术决策者能清晰了解各模型的真实水平与相对优势,从而指导技术选型并消除市场混乱。 同时,公开透明的排行榜有力驱动模型提供商针对核心短板进行优化,尤其在高

2025-03-27

研究团队近日开源了其最新的研究成果——Video-T1。这项技术的核心在于测试时缩放 (Test-Time Scaling, TTS),旨在通过在视频生成过程的推理阶段投入更多的计算资源,显著提升生成视频的质量和与文本提示的一致性,而无需重

2025-07-26

KV7-G0 13.3B 模型,以及使用更多 tokens、使用 DeepEmbed 和 DEA 技术的 RWKV-7s 模型。 加入 RWKV 社区 欢迎大家加入 RWKV 社区,可以从 RWKV 中文官网了解 RWKV 模型,也可以加入 RWKV 论坛、QQ 频道和 QQ 群聊,一起探讨 RWKV 模型。  RW