阿里开源 WebSailor，检索性能超 DeepSeek R1、Grok-3 等模型

2025-07-08 發表於开源资讯

阿里通义开源了网络智能体WebSailor，该智能体具备强大的推理和检索能力，在高难度智能体评测集BrowseComp上，WebSailor的成绩超越了DeepSeek R1、Grok-3等模型和智能体，一举登顶开源网络智能体榜单。

在构建数据集阶段，通义实验室大规模合成了具有高不确定性的复杂任务数据SailorFog-QA，并基于Qwen模型进行冷启动微调，让模型学到超越人类的复杂推理模式；该团队还提出了高效的强化学习算法 DUPO，基于双阶段动态采样策略，大幅提高了训练效率，确保即使在密集工具交互的情境中，也能快速迭代模型，DUPO 将复杂Agent的强化学习训练速度提升了约2–3倍。

英文版和中文版BrowseComp评测集的实测结果显示，WebSailor跨越了开源和闭源系统之间的鸿沟，WebSailor-32B、WebSailor-72B不仅在开源模型和Agent阵营里实现了断层领先，甚至超越了DeepSeek R1、Grok-3等闭源模型，仅次于闭源的OpenAI DeepResearch。

尽管WebSailor仅基于高难度数据训练，但在聚焦普通任务SimpleQA的数据集上，WebSailor的表现也超越了其他方法，展现出极强的兼容性和有效性，验证了WebSailor方法的泛化能力。

自今年以来，通义实验室已开源WebWalker、WebDancer和WebSailor三个检索和推理智能体，并全部斩获 SOTA（State-of-the-Art）。

阿里开源 WebSailor，检索性能超 DeepSeek R1、Grok-3 等模型

相關推薦

英伟达开源 2530 亿参数推理大模型，效果直逼 DeepSeek-R1

Hugging Face 发布开放权重模型贡献榜：Qwen 与 DeepSeek 跻身 TOP15

微软开源 DeepSeek-R1 魔改版「MAI-DS-R1」：响应 99% 敏感提示、风险降 50%

华为在 WAIC 现场展示昇腾 384 超节点真机（Atlas 900 A3 SuperPoD）

微软开源 Phi-4 系列小参数模型，推理能力媲美 DeepSeek

曝国行版苹果 AI 渐近，阿里百度提供支持但分工不尽相同

阿里蔡崇信：被 DeepSeek 逼急，工程师春节彻夜留守搞研发

DeepSeek R1 模型完成小版本试升级，逻辑理解能力提升

DeepSeek V3 模型更新，大幅提升编程能力

Qwen3 全球下载量破千万

DeepSeek R2 推迟发布：因 H20 算力短缺、以及梁文锋对其性能尚不满意

阿里通义 Qwen3 模型拿下全球第三

快手搜索已全面接入 DeepSeek R1

字节 Trae 宣布月活突破 100 万，交付超 60 亿行代码