滴滴史上最严重服务故障,罪魁祸首是底层软件 or “降本增笑”?


2023年11月27日晚间,滴滴因系统故障导致App服务异常,不显示定位且无法打车。11月27日晚,滴滴出行进行了回复:非常抱歉,由于系统故障。

2023年11月28日早间,滴滴出行消息称,网约车等服务已恢复,骑车等在陆续修复中。11月28日,在滴滴发出公告的同时,记者在上海、深圳等地使用滴滴呼叫网约车,发现网约车功能并未恢复使用,网络加载异常,仍无法打车。11月28日,滴滴向记者回应称,网约车服务已恢复,司机乘客权益陆续恢复补发。

11月29日,滴滴再次发文致歉,称初步确定事故起因是底层系统软件发生故障

来源:https://weibo.com/2838754010/NuMAAaUEl

在滴滴官方发布这份公告之前,已经有资深IT技术人士分析:“从表现上看,打车、共享单车全挂,不同的业务板块之间应该是有隔离的,说明问题出在更加底层的基础设施。攻击者一般只能访问到应用层,基础设施访问不到。要么是被攻击者打穿,要么是自己系统操作不慎挂了。即便是前者,也算是一种系统缺陷,才会被打穿。”

360安全专家认为,滴滴闪崩背后的技术原因可能有六种:

第一,系统更新升级过程中出现了编程错误、逻辑错误或未处理的异常情况:一般情况下,互联网厂商发布更新都会在晚上,与滴滴发生故障的时间也能对应,当然业务升级维护是放量更新,但现在滴滴全平台、全业务都故障了,说明肯定是他“家里”的问题。

第二,服务器故障:比如滴滴的核心机房,可能恒温恒湿环境出了问题,导致服务器过热、CPU烧了,或者核心机房所在地发生了自然灾害如地震、洪水、海啸等,这种情况下,硬件需要重新更换,里面的服务软件也需要重新配置,恢复周期相对较长,但这个可能性比较小。

第三,第三方服务故障:滴滴的后台架构可能使用了第三方服务或者组件。如果第三方出了问题,也可能会影响滴滴的正常运行。但出于安全性考虑,滴滴可能不会将核心业务托管给第三方,不过这个可能性也较小。

第四,DDOS攻击:黑客采用分布式拒绝服务的方式,抢占了大量的服务器资源,导致用户无法访问,但这个不太可能,因为DDos不会导致数据出错,而且滴滴从体量上来说,有足够的成本和能力去对抗。

第五,其他网络攻击:某些黑灰产团伙可能会通过拖库盗取数据,然后在暗网上售卖,在这个过程中不排除会有误操作,破坏了数据库。

第六,勒索病毒:网络攻击黑客对滴滴的底层数据、业务代码进行了加密。据披露现象,用户的账单和打车数据都算错了,存在一定可能是滴滴为了避免更大损失主动暂停了业务。近期勒索攻击事件屡屡发生,月初,某金融机构就是因为遭遇勒索病毒攻击造成了业务停摆。

不过也有网络安全公司专家认为,如果是来自外部的黑客攻击,公司一般会在第一时间进行声明。他猜测更集中于滴滴发生了内部重大业务调整,或有新业务接入原系统,但没有做好预案,导致关联业务或关联系统出现重大故障,这是大公司系统故障最常见的原因。

因此对于滴滴此次大规模的长时间故障,有行业人士认为,降本增效可能也是原因之一

该人士认为,互联网公司核心业务频繁宕机,且长时间宕机,是降本增效的附属品之一。系统投资少了,维护资源少了,程序员更换频繁了,BUG就多

他举例称,一般在业务上行阶段都有冗余,为了迎接随时爆发的订单,上行阶段要维持负载的上限不能过大,比如平时70%,这样遇到一个小爆发不用担心会出问题,足以应对小高峰;但是下行期的逻辑就不同了,负载很高的时候抗一抗就行了,虽然后面遇到小高峰可能会难受,但是随着时间的推移总体负载会下降。


最后来看一下网传的消息,有同行说滴滴这次严重故障是升级 k8s 版本导致,当时 SRE 工程师定位了三个小时都没定位到问题。

 

从滴滴公开的技术分享来看,滴滴弹性云在上个月升级了 k8s 版本:从 k8s 1.12 升级到 1.20。

  • K8s 1.12 发布于 2018 年:Kubernetes 1.12 正式发布,新增 VMSS 支持
  • K8s 1.20 发布于 2020 年:Kubernetes 1.20 发布:妙啊



来源:滴滴弹性云基于 K8S 的调度实践


相關推薦

2023-11-13

22:30 更新:阿里云称,受影响云产品均已恢复,因故障影响部分云产品的数据(如监控、账单等)可能存在延迟推送情况,不影响业务运行。   19:33 更新:阿里云称,工程师通过分批重启组件服务,绝大部分地域控制台服

2023-11-01

,M3 系列芯片搭载的新一代图形处理器实现了 Apple 芯片史上最大幅的图形处理器架构飞跃。这款图形处理器不仅速度更快、能效更高,还引入一项全新技术 —— 动态缓存,同时带来首次登陆 Mac 的硬件加速光线追踪和网格着色

2023-09-16

过 15 亿美元。公司第二季度销售额同比增长 50%,实现了史上最强劲的季度增量收入增长;非 GAAP 订阅毛利率创历史新高 85%。目前,其全球客户数量已超过 10,000 家。 总部位于旧金山的 Databricks 是硅谷 / 湾区地区发展最快的公

2023-03-15

社交媒体平台 Reddit 经历了长达 4 小时的严重宕机事故,此事件影响:reddit.com(桌面 Web、移动 Web、本机移动应用程序)。Reddit 将桌面和移动 Web 访问列为“严重中断”,本机移动应用则是“部分中断”。 数据显示

2023-11-17

障报告」昨天在网上被广泛流传。 事件回顾:阿里云严重故障,全线产品受影响(已恢复) 影响范围 1、OSS、OTS、SLS、MNS 等产品的部分服务受到影响,大部分产品如 ECS、RDS、网络等运行不受影响。 2、云产品控制台、

2023-11-16

1 月 15 日,AT&T 的新泽西运营中心检测到大范围的系统故障,网络显示屏上出现了大量红色警告。 尽管试图排除故障,但网络故障仍持续了 9 个小时,导致呼叫连接故障率达到 50%。 AT&T 因此损失了 6000 多万美元,6 万多

2023-07-06

复的访问权限。 红帽使用4级评级系统(低、中、重要和严重)对安全问题的严重程度进行评估。通过ELS,将获得红帽定义的重要和严重公共漏洞和曝光(CVE)的修复程序,这是最高级别的两个严重程度级别。重要的CVE可能会危

2022-10-08

Wireshark 是世界上最流行的网络协议分析器。它被用于故障排除、分析、开发和教育。Wireshark 4.0 近日正式发布了,从版本号上看,自 3.6 以来,新版本带来了很多变化。 默认的主窗口布局 在过去的版本中,Wireshark 遵循其前辈

2022-02-16

不知道夜莺是什么,附下面一段介绍: 夜莺最初是由滴滴开源,其开发团队和Open-Falcon的开发团队是一拨人,随着云原生的流行,夜莺逐渐专注到云原生的监控领域,和Prometheus生态紧密结合,姑且可以看做是Prometheus的一个企

2022-12-10

Wireshark 是世界上最流行的网络协议分析器。它被用于故障排除、分析、开发和教育。Wireshark 不再为 4.0 及以后的版本提供官方的 32 位 Windows 软件包。如果你需要在该平台上使用 Wireshark,建议使用 3.x 版本中最新的 3.6 版本。 修

2022-06-22

这些新规范加速了嵌入式和大型系统设计。“调试是芯片上最难做的事情之一,用于 RISC-V 的 E-Trace 创建了一种一种标准的处理器跟踪方式,非常高效且在嵌入式系统设计中特别有用。RISC-V SBI 为开发人员提供了同样重要的资源

2023-04-07

。14.0.5 是计划中的最后一个版本,但如果在 14.0.5 中发现严重问题,可能会发布 14.0.6。 LLVM 16.0.1 提供了一些新特性,比如支持 RISC-V 上的模拟 TLS,支持 AVX 中 BF16 的加载/存储,以及其他随机修复: [AArch64] 修复 COFF 的折叠地

2022-05-18

程师,并且仍然是 Linux 内核的最大贡献者之一。该公司严重依赖于开源社区来开发底层软件,以便能够向企业出售更多的芯片。 Lavender 透露,虽然英特尔近年来与开源社区的关系有所疏远,但他们计划将很快恢复与开源社区

2023-04-02

语句出现由于数据等因素变化引起执行计划跳变,且出现严重的性能劣化,用户可通过SQL PATCH机制在线实施修复,业务无需版本升级,无感知解决计划跳变等疑难问题。 SQL Patch功能通过在优化器阶段计划生成之前对查询解析树