Qwen3 技术报告发布,详细介绍模型架构、训练方法与评估结果


阿里巴巴正式发布了Qwen3系列大型语言模型的技术报告。报告详细阐述了Qwen3的模型架构、训练方法、数据处理、可扩展性以及全面的评估结果。

https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

Qwen3系列包括Qwen3-0.5B、Qwen3-1.8B、Qwen3-4B、Qwen3-7B、Qwen3-14B、Qwen3-32B、Qwen3-72B等多种参数规模的模型,其中部分模型已开源。

报告指出,Qwen3的预训练分为三个阶段:

  1. 通用阶段(S1)在超过30万亿token上训练,序列长度4096,构建通用知识基础;
  2. 推理阶段(S2)在约5万亿更高质量的STEM、代码、推理和合成数据上进一步训练,序列长度4096,提升推理能力;
  3. 长文本阶段(S3)在数千亿长文本数据上训练,将上下文长度从4096扩展到32768,并采用了ABF、YARN和DCA(Dual Chunk Attention)等技术,实现了推理时4倍序列长度的扩展。

Qwen3模型在多项基准测试中表现出色,包括自然语言理解、代码生成、数学推理和多语言能力。

例如,Qwen3-72B在MMLU、GSM8K、HumanEval等多个权威评测中取得了领先成绩。报告还强调了Qwen3在多模态能力、Agent能力以及与外部工具和API集成方面的进展。

此外,Qwen Chat在最新更新中上线了“深度研究”(Deep Research)功能,用户提出问题后,Qwen会引导用户明确研究方向,并在后台生成详细报告。


相關推薦

2025-04-30

2025年4月29日,Qwen家族新成员Qwen3正式发布,包含多种模型版本。 1. 模型类型与参数 MoE 模型:有Qwen3-235B-A22B(总参数2350亿,激活参数220亿)和Qwen3-30B-A3B(总参数300亿,激活参数30亿)。 密集模型:包括Qwen3-32B、14B、8B、4B

2023-04-04

模型提供更好的响应。 LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细对比如下: Vicun 团队展示了 Alpaca 和 Vicuna 对基准问题的回答示例。在使用 70K 用户共享的 ChatGPT 对话对 Vicuna 进行微调后,其发现与 Alpaca 相比,Vicuna 能够生成更

2023-04-03

模型。“BloombergGPT 代表了为金融行业开发和应用这种新技术的第一步”。 该模型将协助彭博改进现有的金融 NLP 任务,如情感分析、命名实体识别、新闻分类和问答等。此外,BloombergGPT 将为彭博终端上的大量数据释放新的机会

2022-09-08

像任务繁重的标注工作,节省大量人力成本,而transormer技术在NLP领域的巨大成功也为CV模型效果进一步提升提供了非常大的想象空间。为推进自监督学习和视觉Transformer在阿里集团、阿里云上的落地,阿里云机器学习平台PAI 打造

2025-05-01

RWKV-7 进行创业、科研,我们也会为基于 RWKV 的项目提供技术支持。 如果您的团队正在基于 RWKV 创业或开展研究,请联系我们!(在"RWKV元始智能"微信公众号留言您的联系方式,或发送邮件到"[email protected]"。)

2025-05-15

el Django Django 链接 下载 文档 技术栈 springboot-3.x for 后端 react for web前端 flutter for 移动客户端(ios&android) electron for 桌面客户端(windows&mac&linux) 联系 微语技术支持群: 服务号

2025-03-27

研究团队近日开源了其最新的研究成果——Video-T1。这项技术的核心在于测试时缩放 (Test-Time Scaling, TTS),旨在通过在视频生成过程的推理阶段投入更多的计算资源,显著提升生成视频的质量和与文本提示的一致性,而无需重

2025-05-08

el Django Django 链接 下载 文档 技术栈 springboot-3.x for 后端 react for web前端 flutter for 移动客户端(ios&android) electron for 桌面客户端(windows&mac&linux) 联系 服务号 订阅号  

2023-04-04

访问提供模型输出。为了使 LLM 成为一种开放和可访问的技术,我们认为重要的是能够访问对研究和商业应用开放、可重现且免版税的最先进模型。” 根据介绍,这些模型使用 Chinchilla 公式进行训练,可为给定的计算预算提供

2025-03-25

蚂蚁集团使用中国制造的半导体开发训练人工智能模型的技术,可将成本降低20%。对此,蚂蚁方面回应称:蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开源分享。 事件背景: 蚂

2023-02-24

开源PHP等产业和学术界的中坚力量,共同开展学术研究和技术开发。开源指南针平台立足开源,针对开源生态的健康开展度量和分析,有望为构建可持续健康发展的开源生态提供支持,是一个积极、重要的尝试。希望各合作单位

2025-04-12

在推动大模型基准测试体系架构形成国际共识,为大模型技术提供方和应用方提供高质量的能力评估依据,引导大模型技术及产业健康有序发展。 根据介绍,本次发布的国际标准基于当前产学研界500余项基准测试系统性研究

2023-03-31

数据集的细节。 OpenFlamingo 的整体架构图如下,可以看出技术细节上很大程度上是跟着 DeepMind 的 Flamingo 模型走,Flamingo 模型在包含交叉文本和图像的大规模网络语料库上进行训练,OpenFlamingo 同样是使用交叉注意力层来融合预训

2024-06-04

导言 目前人工智能已经成为热门的方向,大量的科研和技术人员投入其中。在科研人员中,大部分人的工作是深度学习算法设计,即利用开源的PyTorch或其他深度学习训练库,设计不同的深度网络结构,并在各种数据集上进行