字节跳动旗下开源多模态智能体 Agent TARS 发布 Beta 版本


字节跳动正式发布了 Agent TARS 的 Beta 版本,将其定位为一个开源的多模态 AI Agent 工具,旨在提供与各种现实世界工具的无缝集成能力,并实现“随时随地可用”。

Agent TARS 的早期预览版已于三月份开源。此次 Beta 版本的发布得益于 Seed 多模态模型(如 UI-TARS 1.5 和 Doubao 1.5 VL)的逐步增强,并解决了早期架构中 Agent UI 未解耦等挑战。

新版本引入了全新的多层分层架构,其核心构建在一个基于事件流驱动的 Agent Kernel 上。Agent TARS 的设计原则包括:

  • 上下文工程 (Context Engineering):为构建长时间运行的 Agent,新版本对 Agent Loop 的内存进行了动态优化,针对不同模态内容采用不同的滑动窗口,并面向上下文窗口进行优化和计算,以解决上下文溢出问题。
  • MCP (多模态通信协议) 的洞察:Agent TARS 团队认为 MCP 应作为标准化的工具分发协议,而非自由拓展工具的方式,并计划建立 MCP 工具的基准测试,以评估其模型兼容性、上下文压缩率和性能等。
  • 上下文压缩 (Context Compress):正在推动多级内存设计(L0 永久记忆、L1 会话记忆、L2 循环记忆、L3 临时记忆),并结合选择性上下文和 LLM/SLM 摘要等策略进行压缩。
  • 可观测与可评估 (Observable and Evaluable):引入了 Snapshot 框架,能够在运行时将 Agent 依赖的环境保存为快照,用于回放和调试,已驱动持续集成和测试。同时,通过 Agent 与 UI 分层的新架构,实现了 Headless 运行模式,使得自动化评测成为可能,并参考 OpenAI 的 simple-evals 实现了 browsecomp 评测方案。
  • 易于构建应用 (Easy to build applications):引入了 Agent Event Stream,将 Agent 的状态、工具调用细节、最终回复和环境信息等以流式方式输出,使得用户可以轻松构建自定义 Agent UI。Agent TARS Server 与 Web UI 的架构设计也因此变得简洁。

同时,Agent TARS 关注并学习了 AG-UI 协议,并说明了 Agent Event Stream 在构建上下文方面的差异化优势。

新版本的主要特性包括:

  • Agent TARS CLI:取代了 Electron 应用,具有更容易更新迭代和显著减小的安装体积优势。

  • 混合浏览器 GUI Agent:结合了基于 DOM 分析的 Browser Use 和基于 UI-TARS/Doubao 1.5 VL 的视觉控制方案,操作逻辑更接近人类理解屏幕的方式。提供了 domvisual-grounding 和 hybrid 三种操作方案。

  • 更好的跨模型兼容性:完全重写了 Model Provider 层,现在支持 Volcengine (Seed1.5-VL)Anthropic (Claude-3.7-Sonnet) 和 OpenAI (GPT-4o) 等模型提供商。

  • 原生流式传输 (Native Streaming):整个架构构建在流式传输之上,显著提升了复杂任务的交互体验。

  • Web UI:得益于 Agent Event StreamWeb UI 可以完全独立开发,支持 GUI Grounding Transition(实时鼠标追踪)、Replay 保存与分享,并实现了通用的多模态内容渲染器。

Agent TARS 团队还展示了多项内部开发者示例,包括 UI 复刻、先写游戏再玩游戏,以及图文并茂的报告生成等,这些都得益于模型能力和上下文工程的提升。Agent TARS 仍在快速发展中,未来将推出带有动态规划推理的版本,并致力于成为随时随地可用的 Agent 开发者工具。


相關推薦

2025-06-04

    ​​字节跳动开源Computer Use Agent:引领人机交互新革命​​ 在人工智能技术日新月异的今天,字节跳动再次以创新者的姿态,宣布开源其自主研发的Computer Use Agent(以下简称CUA)。这一举措不仅标志着字节跳动

2025-04-23

字节跳动旗下的 AI 原生集成开发环境(AI IDE)Trae 已发布 v1.3.0 版本,具体变更细节如下: 合并 Chat 与 Builder 面板。你可以通过 @Builder 方式将 Builder 作为智能体使用。详情参考《智能体》。 支持将文档内容和网页内容作为

2023-09-08

Google 开发者在线课程 开始学习 8 月 31 日,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服

2025-05-24

字节跳动 Seed 团队发布并开源了多模态基础模型BAGEL,该模型拥有70亿个活跃参数,总参数量达140亿。 BAGEL集视觉理解、文生图、图像编辑于一体,在标准多模态理解基准测试中表现出色,优于现有顶级开源视觉语言模型如Qwen2

2025-06-13

Hugging Face 开源了专用于评估 GUI 智能体的综合测试套件 ScreenSuite。 什么是 GUI Agent?简单说,就是“能像人一样操作屏幕”的 AI!它能识别界面内容、点击按钮、输入文字、滚动页面……实现真实的“虚拟助手”体验。

2024-08-14

公,效率翻倍。 豆包 抖音旗下的人工智能产品,基于字节跳动推出的自研豆包大模型。豆包电脑版以“豆包”主智能体为核心,集合AI搜索、写作、阅读总结、图像生成功能于一体,能够在工作、学习等各种场景为你提供帮

2025-06-04

是,Telegram 创始人 Pavel Durov 在一周前曾表示其与马斯克旗下的 xAI 签署了合作协议,并在 Telegram 中接入了 xAI 的 AI 聊天机器人 Grok。 端到端加密:消息、通话内容只有通信双方能看到,第三方(包括 X 平台)无法窥探;

2025-05-10

字节跳动宣布正式开源其全新研发的社区驱动深度研究框架 DeerFlow。作为一款基于LangChain和LangGraph框架构建的智能研究助手,DeerFlow 深度整合了语言模型与网络搜索、爬虫、Python代码执行等专业工具。 DeerFlow旨在通过AI技术提

2025-06-19

在近期的人工智能视频生成领域,字节跳动悄然发布了一款名为 Seedance1.0的新模型,该模型在独立的评测中已经超越了谷歌最新推出的 Veo3。 Seedance1.0的研究论文中详细介绍了该模型的创新之处。字节跳动的团队通过对空间和时

2025-06-17

ing 信息兼容 OpenTelemetry,因此理论上可接入市面上主流的开源平台如 Langfuse,或者阿里云 ARMS。 从聊天机器人、工作流到多智能体 聊天机器人(ChatBot) AI 应用开发不只是无状态大模型的 API 调用过程,由于大模型预训练的特

2025-04-26

字节跳动方面宣布,其火山引擎边缘大模型网关已全面支持豆包 1.5・深度思考模型。 即日起,用户可以在边缘大模型网关使用豆包全系列模型,并享受 200 万 tokens 免费额度,只要在网关访问密钥使用了本次新增的豆包大模型

2025-06-25

2025年6月23日,Linux基金会在北美开源峰会宣布启动Agent2Agent(A2A)项目。该项目由谷歌于2025年4月发起并获得100多家领先技术公司支持,旨在创建一个开放协议,实现AI智能体间的安全通信与协作。Linux基金会将负责A2A项目的管理

2025-06-06

2025年6月5日,高德地图旗下高德开放平台正式发布智能眼镜解决方案,标志着其在空间计算与智能穿戴领域的技术创新迈入新阶段。 作为专业领先的出行和位置服务解决方案提供商,阿里巴巴集团旗下高德地图依托AI大模型、

2024-06-26

有消息称字节跳动为削减采购成本并确保高端 AI 芯片供应稳定,与美国博通(Broadcom)合作开发先进AI处理器。针对该消息,字节跳动方面对第一财经记者回应称:消息不实。 据媒体报道,字节跳动与博通合作开发的处理器为