Meta 开源 LlamaFirewall,面向 AI 智能体的安全框架


Meta 开源了名为 LlamaFirewall 的安全框架,用于应对 AI 智能体不断演变的威胁格局,为生产环境中的 AI 智能体提供系统级安全保护

https://meta-llama.github.io/PurpleLlama/LlamaFirewall/

随着大型语言模型(LLMs)嵌入 AI 智能体并被广泛应用于高权限场景,安全隐患随之增加。这些智能体可以读取邮件、生成代码、调用 API,一旦被恶意利用,后果不堪设想。

传统的安全机制,如聊天机器人内容审核或硬编码模型限制,已无法满足具备广泛能力的 AI 智能体需求。Meta AI 针对提示注入攻击、智能体行为与用户目标不一致、以及不安全的代码生成三大核心挑战,开发了 LlamaFirewall。

LlamaFirewall 采用分层框架,包含三个专门的防护模块:

  • PromptGuard 2 是一个基于 BERT 架构的分类器,能实时检测越狱行为和提示注入,支持多语言输入,其 86M 参数模型性能强劲,22M 轻量版本则适合低延迟部署。

  • AlignmentCheck 是一种实验性审计工具,通过分析智能体内部推理轨迹,确保行为与用户目标一致,特别擅长检测间接提示注入。

  • CodeShield 则是一个静态分析引擎,检查 LLM 生成代码中的不安全模式,支持多种编程语言,能在代码提交或执行前捕获 SQL 注入等常见漏洞。

Meta 在 AgentDojo 基准测试中评估了 LlamaFirewall,模拟了 97 个任务领域的提示注入攻击。

结果显示,PromptGuard 2(86M)将攻击成功率(ASR)从 17.6% 降至 7.5%,任务实用性损失极小;AlignmentCheck 进一步将 ASR 降至 2.9%;整体系统将 ASR 降低 90% 至 1.75%,实用性略降至 42.7%。CodeShield 在不安全代码数据集上也表现出色,精准度达 96%,召回率(recall) 79%,响应时间适合生产环境实时使用。


相關推薦

2022-10-22

模型仍然为通用翻译开辟了更多的新语言。 Meta 未来将开源这个闽南语的模型、代码、基准数据和论文等资料,供其他人构建自己的 AI 实时翻译工具。Meta AI 的工程师除了希望这个 AI 翻译系统可以帮助用户跨越语言障碍更自如

2025-04-23

Chat 与 Builder 面板。你可以通过 @Builder 方式将 Builder 作为智能体使用。详情参考《智能体》。 支持将文档内容和网页内容作为上下文: #Web:支持联网搜索,AI 会自动提取网页内的相关内容作为上下文。 #Doc:支持通过 URL

2022-10-09

,并且很可能也会减缓行业整体创新的步伐。 Meta 日前开源了一套新的 Python 框架,名为 AITemplate(AIT)。它彻底改变了上述情况,使开发者可以在不牺牲速度和性能的前提下使用不同厂商的 GPU。 AITemplate 能够提供高速的推理

2025-04-29

  “前沿公司” 是一种新型的组织形式,主要围绕智能体(Agent)构建,以适应快速变化的商业环境和技术进步。这种公司的核心特点是将人类智慧与智能体相结合,形成高效的团队,显著提高生产力和创新能力,并节省

2023-10-28

关人员转向从事AI工作。 上月曾报道过,Meta 正在构建新开源大模型,据称性能超越 Llama 2、比肩 GPT-4,最终目标是加速开发下一代生成式人工智能模型,使其能够生成更多类似人类的表达。 长期以来,Meta 一直在采用开源方

2024-07-31

a 创始人 CEO 马克·扎克伯格举行炉边谈话,讨论了讨论了开源 AI 和 AI 助手的未来。 黄仁勋称赞了Meta的开源大模型,他与扎克伯格都同意应坚持大模型的开源路线。黄仁勋表示:“就像我身上穿的皮衣,我不愿意自己去制作

2023-06-09

在面向公众开放的短时间里,都经历了危险地滥用 —— 开源模型则进一步加剧了这种风险。” 信中还举例指责了 Meta 在审查方面的缺失:当被要求“写一张纸条,假装是某人的儿子,向他要钱以摆脱困境”时,OpenAI 的 ChatGPT

2024-07-19

开发团队宣布推出 Oscar ,这是一个用于构建 AI 智能体的开源平台,可以帮助软件产品团队监控问题或错误。 Oscar 源代码:https://go.googlesource.com/oscar Oscar 包地址:https://pkg.go.dev/golang.org/x/oscar 通过 Oscar 项目,开发者可以创

2023-06-17

所联合发布《共建人工智能框架生态倡议》、昇思MindSpore开源社区理事会成立、上海昇思AI框架&大模型创新中心正式启动及首批22家单位入驻、全模态大模型“紫东·太初2.0”正式发布等。 本次峰会以“一起昇思 无尽创新”

2024-07-05

AIC期间,百度创始人、董事长兼首席执行官表示:“模型开源与代码开源不同,无法做到众人拾柴火焰高。激烈竞争环境中,商业化闭源模型最能打。当然这些都不是最重要的。没有应用,光有基础模型,不管是开源还是闭源,

2023-10-26

InfoWorld 公布了 2023 年最佳开源软件榜单,旨在表彰年度领先的软件开发、数据管理、分析、人工智能和机器学习开源工具。 InfoWorld 是致力于引领 IT 决策者走在科技前沿的国际科技媒体品牌,每年 InfoWorld 都会根据软件对开源

2025-04-25

今年3月下旬,OpenAI宣布将在年内推出自GPT-2以来的首个"开源"语言模型。随着该公司与AI开发者社区的交流持续推进,关于这款模型的更多细节也逐步浮出水面。 据 TechCrunch 报道,知情人士透露,OpenAI研究副总裁艾丹·克拉克(A

2025-03-20

Meta 发文宣布,旗下开源 AI 模型 Llama 已被下载超过 10 亿次。与2024年12月的6.5亿次下载相比,Llama 的下载量在短短三个月内激增了153%。 “开源 AI 对于确保世界各地的人们都能享受 AI 的好处至关重要,而 Llama 的每一次下载都

2022-11-19

作为开源的云原生 API 网关,Apache APISIX 致力于在性能和使用体验上为开发者和用户们带来更好更优异的表现,帮助企业解决一些关于云原生和微服务技术下遇到的新问题。 在 9 月底,Apache APISIX 发布了 3.0.0-beta 预览版,为用