字节跳动正式发布了 Agent TARS 的 Beta 版本,将其定位为一个开源的多模态 AI Agent 工具,旨在提供与各种现实世界工具的无缝集成能力,并实现“随时随地可用”。
Agent TARS 的早期预览版已于三月份开源。此次 Beta 版本的发布得益于 Seed 多模态模型(如 UI-TARS 1.5 和 Doubao 1.5 VL)的逐步增强,并解决了早期架构中 Agent UI 未解耦等挑战。
新版本引入了全新的多层分层架构,其核心构建在一个基于事件流驱动的 Agent Kernel 上。Agent TARS 的设计原则包括:
- 上下文工程 (Context Engineering):为构建长时间运行的 Agent,新版本对 Agent Loop 的内存进行了动态优化,针对不同模态内容采用不同的滑动窗口,并面向上下文窗口进行优化和计算,以解决上下文溢出问题。
- MCP (多模态通信协议) 的洞察:Agent TARS 团队认为 MCP 应作为标准化的工具分发协议,而非自由拓展工具的方式,并计划建立 MCP 工具的基准测试,以评估其模型兼容性、上下文压缩率和性能等。
- 上下文压缩 (Context Compress):正在推动多级内存设计(L0 永久记忆、L1 会话记忆、L2 循环记忆、L3 临时记忆),并结合选择性上下文和 LLM/SLM 摘要等策略进行压缩。
- 可观测与可评估 (Observable and Evaluable):引入了 Snapshot 框架,能够在运行时将 Agent 依赖的环境保存为快照,用于回放和调试,已驱动持续集成和测试。同时,通过 Agent 与 UI 分层的新架构,实现了 Headless 运行模式,使得自动化评测成为可能,并参考 OpenAI 的 simple-evals 实现了 browsecomp 评测方案。
- 易于构建应用 (Easy to build applications):引入了 Agent Event Stream,将 Agent 的状态、工具调用细节、最终回复和环境信息等以流式方式输出,使得用户可以轻松构建自定义 Agent UI。Agent TARS Server 与 Web UI 的架构设计也因此变得简洁。
同时,Agent TARS 关注并学习了 AG-UI 协议,并说明了 Agent Event Stream 在构建上下文方面的差异化优势。
新版本的主要特性包括:
-
Agent TARS CLI:取代了
Electron
应用,具有更容易更新迭代和显著减小的安装体积优势。 -
混合浏览器 GUI Agent:结合了基于
DOM
分析的Browser Use
和基于UI-TARS
/Doubao 1.5 VL
的视觉控制方案,操作逻辑更接近人类理解屏幕的方式。提供了dom
、visual-grounding
和hybrid
三种操作方案。 -
更好的跨模型兼容性:完全重写了
Model Provider
层,现在支持Volcengine (Seed1.5-VL)
、Anthropic (Claude-3.7-Sonnet)
和OpenAI (GPT-4o)
等模型提供商。 -
原生流式传输 (Native Streaming):整个架构构建在流式传输之上,显著提升了复杂任务的交互体验。
-
Web UI:得益于
Agent Event Stream
,Web UI
可以完全独立开发,支持GUI Grounding Transition
(实时鼠标追踪)、Replay
保存与分享,并实现了通用的多模态内容渲染器。
Agent TARS 团队还展示了多项内部开发者示例,包括 UI 复刻、先写游戏再玩游戏,以及图文并茂的报告生成等,这些都得益于模型能力和上下文工程的提升。Agent TARS 仍在快速发展中,未来将推出带有动态规划推理的版本,并致力于成为随时随地可用的 Agent 开发者工具。