关于 CrowdStrike 事故的技术报告和分析


针对近期有“史上最严重IT事故”之称的 Windows 全球大面积蓝屏死机问题,两个直接当事方——微软和 CrowdStrike 均已发布了相关技术报告。

7 月 24 日,CrowdStrike 发布 Windows 大范围蓝屏事件初步审查报告,并表示即将在公开发布的根本原因分析中详细说明全面调查结果。

根据报告,蓝屏死机是由内存安全问题引起的,CrowdStrike 的 CSagent 驱动程序发生了越界读取访问冲突。

初步审查报告显示,UTC 时间 2024 年 7 月 19 日星期五 04:09(北京时间 12:09),作为常规操作的一部分,CrowdStrike 发布了 Windows 传感器的内容配置更新,以收集有关可能的新型威胁技术的遥测数据。

这些更新是 Falcon 平台动态保护机制的常规部分。然而,有问题的快速响应内容配置更新导致了 Windows 系统崩溃,影响的设备包括运行传感器版本 7.11 及更高版本的 Windows 主机。

这些主机在 UTC 时间 2024 年 7 月 19 日星期五 04:09 至 2024 年 7 月 19 日星期五 05:27 期间在线并收到了更新。Mac 和 Linux 主机不受影响

内容更新中的缺陷已于 UTC 时间 2024 年 7 月 19 日星期五 05:27(北京时间 13:27)修复。在此时间之后上线的系统或在之前的窗口期内未连接更新的系统不受影响

CrowdStrike 通过两种方式向传感器提供安全内容配置更新:直接随传感器附带的内容,以及快速响应内容更新。周五的问题涉及快速响应内容更新,其中存在未检测到的错误。

当传感器接收并加载到内容解释器中时,有问题的内容导致内存读取越界,从而触发异常。无法妥善处理此意外异常,导致 Windows 操作系统崩溃(BSOD)。

CrowdStrike 官方也发布了补救措施,共包括三大部分:

1、软件弹性和测试

通过使用以下测试类型改进快速响应内容测试:

  • 本地开发人员测试

  • 内容更新和回滚测试

  • 压力测试、模糊测试和故障注入

  • 稳定性测试

  • 内容接口测试

向内容验证器添加其他验证检查,以实现快速响应内容。正在进行一项新的检查,以防止将来部署此类有问题的内容。

增强 Content Interpreter 中的现有错误处理。

2、快速响应内容部署

  • 对快速响应内容实施交错部署策略,其中更新逐渐部署到传感器库的较大部分,从 Canary 部署开始。

  • 改进对传感器和系统性能的监控,在快速响应内容部署期间收集反馈,以指导分阶段推出。

  • 通过允许精细选择部署这些更新的时间和位置,使客户能够更好地控制快速响应内容更新的交付。

  • 通过发行说明提供内容更新详细信息,客户可以订阅这些说明。

3、第三方验证

  • 进行多个独立的第三方安全代码审查。

  • 对从开发到部署的端到端质量流程进行独立审查。


7 月 28 日,微软发布了因 CrowdStrike 驱动程序导致此次宕机的详细技术分析

微软的分析证实了 CrowdStrike 的发现,即崩溃是由 CrowdStrike 的CSagent.sys驱动程序中的越界内存安全错误引起的。csagent.sys模块在 Windows 电脑上注册为文件系统过滤器驱动程序,以接收有关文件操作(包括创建或修改文件)的通知,这允许包括 CrowdStrike 在内的安全产品扫描保存到磁盘的任何新文件。

事件发生时,微软因允许第三方软件开发商进行内核级访问受到了大量批评。在博客文章中,微软解释了为何为安全产品提供内核级访问

  • 内核驱动程序允许系统范围内的可见性,并能够在启动过程早期加载,以检测启动套件和根套件等威胁,这些威胁可以在用户模式应用程序之前加载。

  • 微软提供系统事件回调、文件过滤器驱动程序等功能。

  • 内核驱动程序可为高吞吐量网络活动等情况提供更好的性能。

  • 安全解决方案希望确保其软件无法被恶意软件、定向攻击或恶意内部人员禁用,即使这些攻击者具有管理员权限。为此,Windows 在启动早期提供早期启动反恶意软件(ELAM)。

然而,内核驱动程序也需要权衡,因为它们在 Windows 最可信的级别运行,增加了风险。微软还致力于将复杂的 Windows 核心服务从内核模式迁移到用户模式,例如字体文件解析。

微软建议安全解决方案提供商在可视性和防篡改需求与内核模式操作风险之间取得平衡。例如,他们可以使用在内核模式下运行的最小传感器进行数据收集和执行,从而限制对可用性问题的暴露。其余功能,如管理更新、解析内容和其他操作,可以在用户模式下隔离进行。

微软还解释了 Windows 操作系统的内置安全功能。这些安全功能提供了多层保护,防止恶意软件和攻击企图。微软将通过微软病毒计划(MVI)与反恶意软件生态系统合作,利用 Windows 内置安全功能进一步提高安全性和可靠性。

微软目前计划:

  • 提供安全部署指南、最佳实践和技术,使安全产品更新更安全。

  • 减少内核驱动程序访问重要安全数据的需要。

  • 通过最近宣布的 VBS 孤岛等技术提供增强的隔离和防篡改功能。

  • 启用零信任方法,如高完整性认证,该方法可根据 Windows 原生安全功能的健康状况确定机器的安全状态。

截至 7 月 25 日,受此问题影响的 Windows 电脑已超过 97% 恢复在线,微软现在正着眼于防止未来出现此类问题。


相關推薦

2024-07-25

近日,全球多地的电脑因美国电脑安全技术公司CrowdStrike的一款安全软件更新而遭遇宕机,导致“微软蓝屏”现象,影响波及航空、医疗、传媒、金融、零售、物流等多个行业。 然而,中国政企单位似乎并未受到此次事件的严

2024-07-22

eston 发文表示,大约有 850 万台 Windows 设备受到了最近的 CrowdStrike 中断的影响。 “虽然软件更新偶尔会造成干扰,但像 CrowdStrike 事件这样的重大事件并不常见。我们目前估计,CrowdStrike 的更新影响了 850 万台 Windows 设备,占

2024-07-23

360创始人周鸿祎连发三条视频,以日前发生的因Crowdstrike更新导致全球Windows大面积蓝屏死机事件为主题,谈论了国产安全软件的重要性以及这场史上最大IT事故所带来的启发。 “这次的事件也再次展露了微软在整个市场中的占

2022-02-16

微软和北卡罗来纳州立大学去年合作开展了一个学术研究项目,研究人员通过分析上传到 Node Package Manager (npm) 的大约 163 万个库的元数据,发现数千名 JavaScript 开发者正在使用域名过期的邮箱作为其 npm 帐户,从而导致他们托

2024-07-11

的支持。去年11月,工业和信息化部等四部门联合发布《关于开展智能网联汽车准入和上路通行试点工作的通知》;今年1月,工业和信息化部等五部门发布《关于开展智能网联汽车“车路云一体化”应用试点工作的通知》,从城

2022-01-19

提供支持,也为移动和物联网设备提供支持。安全公司 CrowdStrike 在最新发布的一份报告中指出,针对通常部署在物联网 (IoT) 设备中的基于 Linux 的操作系统的恶意软件在 2021 年比 2020 年增加了 35%,前三大恶意软件家族在 2021 年

2024-07-21

外媒报道称,许多 Windows 用户在最近的 CrowdStrike 更新后遇到了蓝屏死机 (BSOD) 错误。 该问题似乎很普遍,影响运行不同 CrowdStrike 版本的机器。在社交媒体上,全球不同地区的用户纷纷在抱怨这个突如其来的蓝屏死机错误。

2024-08-22

。 对于如此大面积的故障,网上很快出现了各种猜测事故原因的传言,比如删库跑路、服务器迁移、机房起火等等。   19 日下午 15 点,「网易云音乐」在官方微博回应称“因基础设施故障,导致网易云音乐各端无法

2023-04-11

虽然该故障在当天稍晚时候就被修复,但腾讯仍然对本次事故开出了堪称严厉的处罚单。 根据界面新闻的独家报道,本次事故由广州电信机房冷却系统故障导致,腾讯将它定义为公司一级事故。 腾讯管理层认为,这次事故暴

2023-03-08

AI + Microsoft Office ”演示。即使不是 Microsoft Office 主导,关于“ Office + AI ”的内容肯定也占一席之地,因为该活动针对的是组织和个人。 微软此前已经在很多 Office 应用中测试了人工智能,比如在电子邮件程序 Outlook 中使用 GPT

2023-03-06

另一方面,开发人员对强化学习的兴趣则下降了 14%,对关于聊天机器人内容的兴趣也下降了 5.8%。 编程语言方面,Java 和 Python 仍然遥遥领先,并且分别微小增长了 1.7% 和 3.4%;围绕 Go (增长 20%) 和 Rust (增长 22%) 的兴趣则大幅增

2023-05-12

一名 iOS 开发人员为 iOS 上的 Thunderbird 创建基础。  关于 Thunderbird Thunderbird 是 Mozilla 基金会开发的一款免费开源的跨平台电子邮件客户端。2020 年 1 月,Mozilla 基金会将该项目交由一个新的全资子公司 MZLA 技术公司(MZLA T

2023-07-01

出现了短暂的宕机。 其网络状态历史页面显示,此次事故主要是 GitHub Action 服务出现问题,不过具体的问题和事故分析暂未透露。 去年 GitHub 也曾经历频繁的宕机,当时的问题是 MySQL 在负载高峰期不堪重负,详情点此查

2022-11-06

据研究最活跃的102个开源大数据项目,探寻出开源大数据技术发展背后的“摩尔定律”:每隔40个月,开源项目热力值就会翻一倍,技术完成一轮更新迭代。在过去8年里,发生了5次较大规模的技术热力跃迁,多元化、一体化、