Qwen3 技术报告发布，详细介绍模型架构、训练方法与评估结果

2025-05-15 發表於开源资讯

阿里巴巴正式发布了Qwen3系列大型语言模型的技术报告。报告详细阐述了Qwen3的模型架构、训练方法、数据处理、可扩展性以及全面的评估结果。

https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

Qwen3系列包括Qwen3-0.5B、Qwen3-1.8B、Qwen3-4B、Qwen3-7B、Qwen3-14B、Qwen3-32B、Qwen3-72B等多种参数规模的模型，其中部分模型已开源。

报告指出，Qwen3的预训练分为三个阶段：

通用阶段（S1）在超过30万亿token上训练，序列长度4096，构建通用知识基础；
推理阶段（S2）在约5万亿更高质量的STEM、代码、推理和合成数据上进一步训练，序列长度4096，提升推理能力；
长文本阶段（S3）在数千亿长文本数据上训练，将上下文长度从4096扩展到32768，并采用了ABF、YARN和DCA（Dual Chunk Attention）等技术，实现了推理时4倍序列长度的扩展。

Qwen3模型在多项基准测试中表现出色，包括自然语言理解、代码生成、数学推理和多语言能力。

例如，Qwen3-72B在MMLU、GSM8K、HumanEval等多个权威评测中取得了领先成绩。报告还强调了Qwen3在多模态能力、Agent能力以及与外部工具和API集成方面的进展。

此外，Qwen Chat在最新更新中上线了“深度研究”（Deep Research）功能，用户提出问题后，Qwen会引导用户明确研究方向，并在后台生成详细报告。

相關推薦