阿里通义Qwen团队宣布,Qwen3-30B-A3B-2507 和 Qwen3-235B-A22B-2507 系列模型现已支持高达100万token的超长上下文处理。
此次升级集成了两项关键技术:Dual Chunk Attention (DCA) 和 MInference。
DCA 是一种长度外推方法,能将长序列分割成可管理的小块同时保持全局连贯性;MInference 则是一种稀疏注意力机制,通过聚焦关键token交互来降低计算开销。这些技术结合,使得模型在处理接近100万token的序列时,推理速度相比标准注意力实现可提升高达3倍。用户可以通过更新模型仓库中的 config.json 文件为 config_1m.json 来启用此功能。
官方指出,要有效处理100万token的上下文,用户将需要大约1000GB的总GPU显存。新版本与 vLLM 和 SGLang 完全兼容,便于高效部署。在1M版本的 RULER 基准测试中,更新后的模型在不同长度的上下文处理上均表现出优异的性能。
https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507