字节跳动旗下开源多模态智能体 Agent TARS 发布 Beta 版本

2025-06-28 發表於开源资讯

字节跳动正式发布了 Agent TARS 的 Beta 版本，将其定位为一个开源的多模态 AI Agent 工具，旨在提供与各种现实世界工具的无缝集成能力，并实现“随时随地可用”。

Agent TARS 的早期预览版已于三月份开源。此次 Beta 版本的发布得益于 Seed 多模态模型（如 UI-TARS 1.5 和 Doubao 1.5 VL）的逐步增强，并解决了早期架构中 Agent UI 未解耦等挑战。

新版本引入了全新的多层分层架构，其核心构建在一个基于事件流驱动的 Agent Kernel 上。Agent TARS 的设计原则包括：

上下文工程 (Context Engineering)：为构建长时间运行的 Agent，新版本对 Agent Loop 的内存进行了动态优化，针对不同模态内容采用不同的滑动窗口，并面向上下文窗口进行优化和计算，以解决上下文溢出问题。
MCP (多模态通信协议) 的洞察：Agent TARS 团队认为 MCP 应作为标准化的工具分发协议，而非自由拓展工具的方式，并计划建立 MCP 工具的基准测试，以评估其模型兼容性、上下文压缩率和性能等。
上下文压缩 (Context Compress)：正在推动多级内存设计（L0 永久记忆、L1 会话记忆、L2 循环记忆、L3 临时记忆），并结合选择性上下文和 LLM/SLM 摘要等策略进行压缩。
可观测与可评估 (Observable and Evaluable)：引入了 Snapshot 框架，能够在运行时将 Agent 依赖的环境保存为快照，用于回放和调试，已驱动持续集成和测试。同时，通过 Agent 与 UI 分层的新架构，实现了 Headless 运行模式，使得自动化评测成为可能，并参考 OpenAI 的 simple-evals 实现了 browsecomp 评测方案。
易于构建应用 (Easy to build applications)：引入了 Agent Event Stream，将 Agent 的状态、工具调用细节、最终回复和环境信息等以流式方式输出，使得用户可以轻松构建自定义 Agent UI。Agent TARS Server 与 Web UI 的架构设计也因此变得简洁。

同时，Agent TARS 关注并学习了 AG-UI 协议，并说明了 Agent Event Stream 在构建上下文方面的差异化优势。

新版本的主要特性包括：

Agent TARS CLI：取代了 Electron 应用，具有更容易更新迭代和显著减小的安装体积优势。
混合浏览器 GUI Agent：结合了基于 DOM 分析的 Browser Use 和基于 UI-TARS/Doubao 1.5 VL 的视觉控制方案，操作逻辑更接近人类理解屏幕的方式。提供了 dom、visual-grounding 和 hybrid 三种操作方案。
更好的跨模型兼容性：完全重写了 Model Provider 层，现在支持 Volcengine (Seed1.5-VL)、Anthropic (Claude-3.7-Sonnet) 和 OpenAI (GPT-4o) 等模型提供商。
原生流式传输 (Native Streaming)：整个架构构建在流式传输之上，显著提升了复杂任务的交互体验。
Web UI：得益于 Agent Event Stream，Web UI 可以完全独立开发，支持 GUI Grounding Transition（实时鼠标追踪）、Replay 保存与分享，并实现了通用的多模态内容渲染器。

Agent TARS 团队还展示了多项内部开发者示例，包括 UI 复刻、先写游戏再玩游戏，以及图文并茂的报告生成等，这些都得益于模型能力和上下文工程的提升。Agent TARS 仍在快速发展中，未来将推出带有动态规划推理的版本，并致力于成为随时随地可用的 Agent 开发者工具。

相關推薦