Meta 开源 LlamaFirewall，面向 AI 智能体的安全框架

2025-05-10 發表於开源资讯

Meta 开源了名为 LlamaFirewall 的安全框架，用于应对 AI 智能体不断演变的威胁格局，为生产环境中的 AI 智能体提供系统级安全保护。

https://meta-llama.github.io/PurpleLlama/LlamaFirewall/

随着大型语言模型（LLMs）嵌入 AI 智能体并被广泛应用于高权限场景，安全隐患随之增加。这些智能体可以读取邮件、生成代码、调用 API，一旦被恶意利用，后果不堪设想。

传统的安全机制，如聊天机器人内容审核或硬编码模型限制，已无法满足具备广泛能力的 AI 智能体需求。Meta AI 针对提示注入攻击、智能体行为与用户目标不一致、以及不安全的代码生成三大核心挑战，开发了 LlamaFirewall。

LlamaFirewall 采用分层框架，包含三个专门的防护模块：

PromptGuard 2 是一个基于 BERT 架构的分类器，能实时检测越狱行为和提示注入，支持多语言输入，其 86M 参数模型性能强劲，22M 轻量版本则适合低延迟部署。
AlignmentCheck 是一种实验性审计工具，通过分析智能体内部推理轨迹，确保行为与用户目标一致，特别擅长检测间接提示注入。
CodeShield 则是一个静态分析引擎，检查 LLM 生成代码中的不安全模式，支持多种编程语言，能在代码提交或执行前捕获 SQL 注入等常见漏洞。

Meta 在 AgentDojo 基准测试中评估了 LlamaFirewall，模拟了 97 个任务领域的提示注入攻击。

结果显示，PromptGuard 2（86M）将攻击成功率（ASR）从 17.6% 降至 7.5%，任务实用性损失极小；AlignmentCheck 进一步将 ASR 降至 2.9%；整体系统将 ASR 降低 90% 至 1.75%，实用性略降至 42.7%。CodeShield 在不安全代码数据集上也表现出色，精准度达 96%，召回率（recall） 79%，响应时间适合生产环境实时使用。

Meta 开源 LlamaFirewall，面向 AI 智能体的安全框架

相關推薦

Spring AI Alibaba 1.0 GA 正式发布，Java 智能体开发进入新时代

InfiniEdge AI 2.0 发布：将 AI 扩展至边缘

谷歌开源智能体通信协议 Agent2Agent (A2A) 已被 Linux 基金会接管

中国信通院发布“2025 智能体十大关键词”

智谱 AI 发布 GLM-4.5 技术报告

Meta 开发了实时翻译闽南语的 AI

微软构建开放智能体网络，以 AI 智能体重塑企业竞争力

《智能体网络协议技术报告》发布

涂鸦智能发布 TuyaOpen，面向 AIoT 行业的开源框架

红杉中国发布测评大模型工具 xbench

Anthropic 构建多智能体研究系统的工程挑战和经验教训

我国首个软件开发智能体标准发布

阿里巴巴开源 WebAgent：自主搜索 AI 智能体

ONLYOFFICE AI 智能体上线：与编辑器、新的 AI 提供商等进行智能交互