Cloudflare 推出「AI迷宫」应对 AI 爬虫

2025-03-26 發表於开源资讯

与其阻止爬虫机器人，不如主动把它们引进一个由AI生成的「废话迷宫」，让它们自我迷失。

Cloudflare近日推出名为「AI迷宫」（AI Labyrinth）的新工具，用以对付未经授权、到处抓取网页数据的爬虫机器人。这些爬虫通常抓取免费内容，以训练AI模型。

Cloudflare介绍称，当系统识别到异常爬虫行为时，「AI迷宫」就会启动，将这些机器人引向由AI自动生成的虚假页面。这些页面毫无实际价值，仅用于消耗机器人的时间与资源，令其陷入困惑，最终无法获取有效数据。

过去，网站管理员常用「robots.txt」文件引导机器人避开特定页面。但一些AI公司，例如Anthropic、Perplexity AI等，屡次被指控忽视这种协议，擅自抓取数据，导致网站与机器人之间形成技术上的持续对抗。

Cloudflare表示，每日大约有500亿次爬虫访问请求。尽管已开发多种拦截工具，但爬虫总能迅速适应并绕过防御措施。这次Cloudflare转变策略，不再直接拦截，而是通过生成迷宫般的虚假页面，让机器人陷入无用信息的循环，主动消耗自身的资源。

这种方法也被称作“下一代蜜罐陷阱”（Honeypot）。人类用户可以轻松识别并避免点击这些无价值链接，而机器人则毫无辨别能力，会持续抓取陷阱页面，越陷越深。Cloudflare由此可记录并分析机器人行为，快速识别新的爬虫模式，并不断优化防御措施。

据介绍，AI迷宫利用Workers AI和开源模型生成各种主题的独特HTML页面。Cloudflare并非按需生成内容，而是预先生成并筛选内容，确保其不存在XSS漏洞，并将其存储在R2中以加快检索速度。每个生成的页面都包含适当的元指令，以防止搜索引擎索引，从而保护合法的SEO工作。

这些Nofollow标签确保不遵守推荐指南的AI爬虫将被困在迷宫中，而遵守规则的爬虫则会安全地忽略蜜罐。重要的是，这些链接通过精心实现的属性和样式对普通访客不可见。除了保护网站内容外，AI迷宫还作为一种复杂的识别机制。当这些隐藏链接被点击时，Cloudflare可以自信地识别出自动化爬虫活动，并将这些宝贵的数据输入机器学习模型，以增强爬虫检测能力。这形成了一个有益的反馈循环，每次爬取尝试都有助于保护所有Cloudflare客户。

Cloudflare强调，为防止误导公众，这些生成的虚假内容虽基于真实科学事实，但与目标网站毫无关系，因此对爬虫训练AI模型毫无价值。

管理员只需在Cloudflare后台“机器人管理”界面启用该工具，即可简单使用。未来，Cloudflare还计划构建更加复杂庞大的虚假页面网络，使恶意爬虫彻底迷失其中，进一步加大爬虫成本与困难度。

Cloudflare 推出「AI迷宫」应对 AI 爬虫

相關推薦

Cloudflare 宣布“AI爬取控制”功能正式 GA

人工智能爬虫导致维基共享资源带宽需求激增 50%

AI视野：百度开放文心4.0开发权限申请；腾讯混元大模型开放文生图功能；谷歌AI应用禁止生成受限内容；Midjourney新网站上线测试版

Manus 开源平替，Kortix-AI 发布开源通用 AI 智能体平台 Suna

印度国防部自研 Maya OS，全面替代 Windows

Cloudflare 与 Vercel CEO 公开互怼

Ubuntu 23.10 默认壁纸揭晓，迷宫中的“牛头人”

微软即将发布 Visual Studio 重大升级，应对 AI 编程工具激烈竞争

Perplexity 为特朗普 Truth Social 提供技术支持

扫描全能王推出“水印相机”功能，助力律师等行业实现“可信存证”

字节跳动开源深度研究框架 DeerFlow

谷歌推出与 ChatGPT 竞争的 AI 产品：Bard

英伟达对华特供版 AI 芯片（H20 GPU）遭遇出口管制

苹果公开 AI 模型训练策略：从大规模网络抓取到秘密授权交易和合成内容