阿里开源 WebSailor,检索性能超 DeepSeek R1、Grok-3 等模型


阿里通义开源了网络智能体WebSailor,该智能体具备强大的推理和检索能力,在高难度智能体评测集BrowseComp上,WebSailor的成绩超越了DeepSeek R1、Grok-3等模型和智能体,一举登顶开源网络智能体榜单。

在构建数据集阶段,通义实验室大规模合成了具有高不确定性的复杂任务数据SailorFog-QA,并基于Qwen模型进行冷启动微调,让模型学到超越人类的复杂推理模式;该团队还提出了高效的强化学习算法 DUPO,基于双阶段动态采样策略,大幅提高了训练效率,确保即使在密集工具交互的情境中,也能快速迭代模型,DUPO 将复杂Agent的强化学习训练速度提升了约2–3倍。

英文版和中文版BrowseComp评测集的实测结果显示,WebSailor跨越了开源和闭源系统之间的鸿沟,WebSailor-32B、WebSailor-72B不仅在开源模型和Agent阵营里实现了断层领先,甚至超越了DeepSeek R1、Grok-3等闭源模型,仅次于闭源的OpenAI DeepResearch。

 

尽管WebSailor仅基于高难度数据训练,但在聚焦普通任务SimpleQA的数据集上,WebSailor的表现也超越了其他方法,展现出极强的兼容性和有效性,验证了WebSailor方法的泛化能力。

自今年以来,通义实验室已开源WebWalker、WebDancer和WebSailor三个检索和推理智能体,并全部斩获 SOTA(State-of-the-Art)。


相關推薦

2025-04-11

关注的是,英伟达新模型的性能逼近拥有 6710 亿参数的 DeepSeek R1,但只用了不到一半的参数量。 测试结果显示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 编码任务(66.3 vs. 65.9)。并且,Llama-3.1-Nemotron-Ultra-25

2025-06-12

Hugging Face 近日发布开放权重模型贡献榜,中国团队Qwen和DeepSeek成功入围前15名。该榜单表彰为开源社区提供高质量模型权重的团队,其模型广泛应用于学术与产业创新。 由阿里巴巴云智能集团支持的Qwen团队,以Qwen3系列模型

2025-04-19

微软今天开源了一款“魔改版”的 DeepSeek-R1 模型「MAI-DS-R1」,其在保留原有推理性能的基础上进行了大幅度增强,尤其是在响应和屏蔽词方面有了显著改进: MAI-DS-R1 可以响应 99.3% 的敏感话题提示,比原版 R1 提升了2倍,这

2025-05-13

测试数据显示,Phi-4-Reasoning-plus版本只有140亿参数,但与DeepSeek开源的R1 6710亿参数相比性能几乎差不多,例如,在美国数学奥林匹克竞赛资格赛2025中,Reasoning-plus得分为78,R1为70.4; 哈佛-麻省理工数学竞赛Reasoning-plus为53.6,R1为

2025-06-13

彭博社报道称,DeepSeek 在 今年 1 月推出低成本、功能强大的人工智能模型震惊全球科技行业后,也给阿里巴巴带来了巨大的紧迫感。为迅速追赶这一技术突破,阿里巴巴的工程师们甚至取消了最重要的中国传统节日——春节的

2025-05-07

后者为深度推理模型,官方测试结果显示其整体效果领先DeepSeek R1、V3最新版,价格为DeepSeek R1调用价格的25%。 关于国行版苹果AI的上线时间,苹果计划于本月下旬启动iOS 18.6的测试(目前最新版本为iOS 18.4.1),该版本预计于今

2025-05-30

DeepSeek 发布官方消息,称 DeepSeek R1 模型已完成小版本试升级,用户可通过官方网页、APP以及小程序参与测试。 https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main 据悉,升级后的 DeepSeek R1 在语义理解精准性、复杂逻辑推理、长

2025-03-27

北京时间 3 月 24 日晚,DeepSeek 「突然」发布了模型更新。 但暂时还不是 DeepSeek V4 或 R2,而是 DeepSeek V3 模型的一次更新。 目前,其开源版本目前已经上架开源网站。其开源版本模型体积为 6850 亿参数。 https://huggingface.co/dee

2025-06-10

单的全球开源冠军、国产模型冠军。 Qwen3推理成本仅为DeepSeek R1三分之一,在产业链上下游引发新浪潮,吸引包括英伟达、英特尔、ARM、联发科、AMD 等多家头部芯片厂商,北上津杭等十余地算力平台,以及华为昇腾、百度千帆

2025-06-28

根据《The Information》的报道,DeepSeek 工程师在过去几个月一直致力于完善 R2 模型,但梁文锋对 R2 现在的性能还不满意,工程师团队仍在全力优化和打磨,发布时间待定。梁文峰要求模型达到更出色的结果才批准发布。 此外,

2025-03-22

快手搜索官方宣布已全面接入DeepSeek R1的大模型能力,优化搜索效果与用户体验,未来也会持续探索智能搜索场景的商业化变现能力。 此前,快手已宣布可灵AI已全面接入DeepSeek-R1,在视频生成、图片生成等场景下,用户可通过D

2025-06-13

25年1月正式推出,3 月推出国内版本,集成了豆包1.5-pro及DeepSeek R1和V3等先进模型,为中国开发者提供定制化支持。Trae的多模态功能尤为突出,能够根据Figma设计文件或手绘草图生成前端代码,代码生成准确率高达91%,复杂系统

2025-04-25

负责人梁志辉介绍,MCP让大模型可调用工具,大家熟悉的Deepseek大模型过去只能做文本理解、内容生成的事情,但现在在纳米AI客户端里给DeepSeek 加上MCP 工具,DeepSeek 能帮你作图、编辑视频,或者调用其他工具来帮你办到过去大

2025-04-05

在 AI 领域的一种延伸和部分实现,包括此前宣称开源的 DeepSeek V3/R1 同样只开放了权重。 在正式发布前,OpenAI 将依据其「准备框架」对模型进行评估,确保其安全性与可靠性。考虑到模型发布后可能被修改,团队还将开展额