指针“爆雷”导致公司损失上亿资金

2023-11-16 發表於开源资讯

1990 年 1 月 15 日，AT&T 的新泽西运营中心检测到大范围的系统故障，网络显示屏上出现了大量红色警告。

尽管试图排除故障，但网络故障仍持续了 9 个小时，导致呼叫连接故障率达到 50%。

AT&T 因此损失了 6000 多万美元，6 万多名美国人的电话完全无法接通。

此外，500 个航班延误，8.5 万人受到影响。

按理说，AT&T 的长途网络是高效率的典范，它利用先进的电子交换机和信号系统处理了全国大部分的电话。该系统通常能在几秒钟内完成电话路由选择。

然而，就在这一天，从纽约的一个交换机开始，整个网络出现了故障。这是由于最近一次更新中的一个软件错误造成的，该错误影响了网络中的 114 个交换机。当纽约的交换机复位并发出信号时，这个错误引发了多米诺骨牌效应，导致大范围的网络中断。

有趣的是，这个软件并没有经过测试。由于代码改动较小，因此按照管理层的要求绕过了测试。

问题所在

追根溯源，原因在于网络交换机实施的软件更新中出现了编码错误。

该错误发生在一个 C 语言程序中，涉及嵌套条件语句中一个错位的中断语句，导致数据覆盖和系统重置。

伪代码

1while (ring receive buffer not empty 
and side buffer not empty):

2Initialize pointer to first message in side buffer
 or ring receive buffer

3get copy of buffer

4switch (message):

5 case (incoming_message):

6 if (sending switch is out of service):

7 if (ring write buffer is empty):

8 send "in service" to status map

9 else:

10break // The error was here!

END IF

11 process incoming message, set up pointers to
 optional parameters

12 break
 END SWITCH


13 do optional parameter work

问题分析

如果环写入缓冲区不是空的，那么第 7 行的 `if` 语句就会被跳过，取而代之的是第 10 行的中断语句。
然而，为了使程序正常运行，本应执行第 11 行。
当中断语句被执行，而不是处理传入的信息并为可选参数设置指针时，数据（本应保留的指针）就会被覆盖
纠错软件识别出数据被覆盖，并启动关闭开关进行重置。由于网络中的所有交换机都使用了这种有缺陷的软件，导致了连锁重置反应，最终瘫痪了整个网络系统，使问题变得更加复杂。

尽管进行了严格的测试，网络的设计也非常灵活，但一行代码还是导致了半个国家的主要通信线路瘫痪。

修复

工程师们花了 9 个小时才使 AT&T 的系统完全恢复正常。他们主要是通过将交换机回滚到之前的代码工作版本来实现的。

实际上，软件工程师花了两周时间进行严格的代码阅读、测试和复制，才真正弄清了错误所在。

结论

对于 AT&T 来说，不幸的是，这还不是他们 90 年代最大的系统崩溃。在这十年的后期，他们还遇到了更多的问题。

今天的公司拥有更好的流程，但即便如此，还是会有漏洞漏网。谷歌撰写了一篇关于网站可靠性工程 20 年的精彩回顾文章，其中对 2016 年 YouTube 的首次全球故障进行了反思。

对于公司来说，故障的规模是巨大的，每次故障都会给我们带来教训。然而，对于大多数公司来说，故障归根结底是人为错误和流程漏洞造成的。

原文：https://engineercodex.substack.com/p/how-one-line-of-code-caused-a-60
转自：https://www.jdon.com/69737.htm

指针“爆雷”导致公司损失上亿资金

问题所在

问题分析

修复

结论

相關推薦

Apache HTTP Server 多个漏洞风险通告严重漏洞影响上亿个网站

OpenAI 可能在 12 个月内破产

声称 AI 技术实为人工操作，AI 购物应用创始人被控欺诈

四维纵横完成超亿元 B 轮融资

Apache Log4j 发现第五个漏洞,全球上亿网站和开源项目已经陷落

我们如何资助开源？

开源 ROM 魔趣 (Mokee) 创始人宣布项目结束

耗时两年倒贴 1.5 万美元，Chrome 扩展如何盈利

Mozilla 高管：终止谷歌的默认搜索引擎交易会导致 Firefox 倒闭

Northstar v6.1.0.RC2 发布，盈富量化平台

Northstar v6.1.0.RC3 已经发布，盈富量化平台

Northstar v6.1.0.Final 已经发布，盈富量化平台

欧盟考虑设立巨额基金来解决开源软件的“静默危机”

字节跳动商业化团队模型训练被“投毒”，内部人士称未影响豆包大模型