阿里云 11.12 故障原因曝光:访问密钥服务 (Access Key) 异常


针对阿里云11.12的重大服务故障, 该公司发给客户的一份「官方故障报告」昨天在网上被广泛流传。

事件回顾:阿里云严重故障,全线产品受影响(已恢复)


影响范围

1、OSS、OTS、SLS、MNS 等产品的部分服务受到影响,大部分产品如 ECS、RDS、网络等运行不受影响。

2、云产品控制台、管控 API 等功能受到影响。

时间

2023年11月12日17:39~19.20,故障时间为 1 小时 41 分。

问题概况

2023 年 11月 12 日 17:39 起,阿里云云产品控制台访问及管控 API调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK)异常有关。工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。

处理过程

17:39:阿里云云产品控制台访问及管控 API 调用出现异常。

17:50:工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。

18:01:工程师定位到根因。

18:07:开始执行恢复措施,包括修订白名单版本、重启 AK 服务。

18:35:杭州等 Region 开始恢复正常。

19:20:绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。

原因

访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。

改进措施

1、增加 AK 服务白名单生成结果的校验及告警拦截能力。

2、增加 AK 服务白名单更新的灰度验证逻辑,提前发现异常。

3、增加 AK 服务白名单的快速恢复能力。

4、加强云产品侧的联动恢复能力。


相關推薦

2023-11-13

22:30 更新:阿里云称,受影响云产品均已恢复,因故障影响部分云产品的数据(如监控、账单等)可能存在延迟推送情况,不影响业务运行。   19:33 更新:阿里云称,工程师通过分批重启组件服务,绝大部分地域控制台服

2024-07-03

更新: 今天上午阿里云服务发生故障。阿里云官方回应称,阿里云在 10:04 监控发现上海地域可用区 N 网络访问出现异常,正在紧急处理中。 10 点 35 分,阿里云工程师完成网络切流调度,上海可用区 N 网络访问开始恢复。

2023-11-02

小程序) 第三方云存储支持,支持云储存分片上传(阿里云、百度云、华为云、腾讯云、FTP、七牛云、UCloud、又拍云) 第三方短信支持(阿里云、腾讯云、华为云、百度云、253云通讯、聚合、七牛云、融云、赛邮、UCloud

2023-11-30

2023年11月27日晚间,滴滴因系统故障导致App服务异常,不显示定位且无法打车。11月27日晚,滴滴出行进行了回复:非常抱歉,由于系统故障。 2023年11月28日早间,滴滴出行消息称,网约车等服务已恢复,骑车等在陆续修复中。11

2023-07-26

参数说明可查看这个文档。 手机号登录 1,配置 阿里云AccessKey1 2,开通 阿里云短信服务,并申请短信服务的签名3和创建短信模板4 3,打开 应用配置2 - 注册、找回密码 将阿里云审核通过的 签名名称3 

2023-10-19

📚简介 一行代码将文件存储到本地、FTP、SFTP、WebDAV、阿里云 OSS、华为云 OBS、七牛云 Kodo、腾讯云 COS、百度云 BOS、又拍云 USS、MinIO、 Amazon S3、GoogleCloud Storage、金山云 KS3、美团云 MSS、京东云 OSS、天翼云 OOS、移动 云EOS、沃

2023-10-20

小程序) 第三方云存储支持,支持云储存分片上传(阿里云、百度云、华为云、腾讯云、FTP、七牛云、UCloud、又拍云) 第三方短信支持(阿里云、腾讯云、华为云、百度云、253云通讯、聚合、七牛云、融云、赛邮、UCloud、

2022-09-30

新扩展包括: VK_EXT_device_fault ,该扩展有助于找出 GPU 故障的原因。在 VK_ERROR_DEVICE_LOST 之后调用由VK_EXT_device_fault 公开的新函数,可用于检索有关 GPU 故障的更多信息,帮助找出故障原因。 VK_EXT_device_address_binding_report,该扩

2023-08-09

现精准IP定位。 存储配置 支持配置云存储服务,如阿里云、腾讯云、MinIO等。 系统监控 会话管理 支持查看系统登录会话,支持回话下线。                       &n

2023-11-10

NLYOFFICE 文档 7.2 版本开始,默认启用 JWT,并出于安全原因和数据完整性的原因,会自动生成密钥限制对编辑器的访问。如果需要,您可以指定自己的密钥。在这种情况下,请在 ONLYOFFICE 文档配置文件中指定相同的密钥以启用

2024-06-28

大文件上传 集群配置跳转 Ctrl Copilot 中,支持通过Lua 访问主进程定义的shared_dict API 网关功能 - 支持用户角色维护,OpenAPI导入,授权关系维护,应用部署,后端服务注册,主动健康检查配置,登录及授权校验 动态共享内

2024-08-12

在线点播系统 此版本更新内容包括: 新增 新增:[API]阿里云点播域名配置 新增:[API]阿里云点播播放域名key自动化配置 新增:[API]阿里云点播播放域名的跨域配置自动化配置 新增:[API]阿里云点播回调自动化配置 新增:[API]

2024-03-05

路由接口同时支持vben-admin和soybean-admin fix(lamp-base-biz): 阿里云文件上传后浏览器访问url 文件名乱码 fix(lamp-base-biz): 保存角色资源时,清理缓存忽略applicationId fix(lamp-base-biz): 删除角色时,清理缓存忽略applicationId fix(lamp

2023-11-21

six/pull/10361 5、支持 Nacos AK/SK 认证 支持 Nacos AK/SK 认证。访问密钥和秘密密钥可以在配置文件中配置如下: discovery:   nacos:     ...     access_key: ""    # Nacos AccessKey&nbs