「网易云音乐」回应 8.19 服务器故障:业务扩容中出现技术事故


8 月 19 日下午 2 点半左右,大量网友反馈「网易云音乐」App 无法正常使用,与此同时网页端也出现 502 Bad Gateway 报错信息。

随后“网易云音乐崩了”词条迅速登顶微博热搜。

对于如此大面积的故障,网上很快出现了各种猜测事故原因的传言,比如删库跑路、服务器迁移、机房起火等等。

 

19 日下午 15 点,「网易云音乐」在官方微博回应称因基础设施故障,导致网易云音乐各端无法正常使用”。

到了 17 点左右,服务已基本恢复正常。

17:30,「网易云音乐」发布微博称“故障已陆续修复”,否认了“删库跑路”的传言,并公布了针对此次事故的补偿权益。

19 日晚,「网易云音乐」在微博回复了媒体的报道,称“今天下午在业务扩容中出现了技术事故”。


根据「凤凰网科技」的独家报道
(独家|网易云音乐故障真相:技术降本增效,人手不足排查了半天):

从网易内部相关技术人员处获悉,此次宕机事件或与今年二季度的机房搬迁有关。“网易在贵州建立了机房,旗下业务分阶段搬迁,2024年Q2网易云音乐刚刚完成了贵州机房的迁移。

据前述知情人士表述,这次搬迁内部曾评估难度极大,稍有不慎就有重大事故发生的可能性。“前几天刚说这次完成的不错,结果就打脸了。”

图|来自《云音乐贵州机房迁移总体方案回顾》
(2024年7月11日)

其认为,近几年互联网公司多出现大型技术事故,多与降本增效相关。而网易此次搬迁,内部也称实现了大幅的成本下降。“再加上裁员,连故障排查都要很长时间”。


相關推薦

2023-04-11

多个功能无法使用。 直到3月29日早间,腾讯微信团队才回应表示,经工程师抢修,系统正在逐步恢复。 虽然该故障在当天稍晚时候就被修复,但腾讯仍然对本次事故开出了堪称严厉的处罚单。 根据界面新闻的独家报

2023-11-30

业务都故障了,说明肯定是他“家里”的问题。 第二,服务器故障:比如滴滴的核心机房,可能恒温恒湿环境出了问题,导致服务器过热、CPU烧了,或者核心机房所在地发生了自然灾害如地震、洪水、海啸等,这种情况下,硬

2023-03-09

自从马斯克收购 Twitter 并大幅裁员后,推特网站的服务可靠性在过去两个月出现了显著下降。本周一再度出现了严重的宕机故障——无法打开任何图片和链接。具体表现就是,当用户在推特上加载图片和点击链接时会返回错误信

2023-11-13

显示,阿里云全线产品受影响。   18:20 更新,官方回应: 2023-11-12 18:14 (GMT+8) 尊敬的客户:您好! 北京时间 2023 年 11 月 12 日 17:44 起,阿里云监控发现云产品控制台访问及 API 调用出现异常,阿里云工程师正在紧急介入

2022-11-12

netease-cloud-music-gtk 2.1.0 已经发布,Linux 网易云音乐播放器。 此版本更新内容包括: 这里是列表文本添加登陆状态保持。 在歌曲列表中添加收藏按钮。 这里是列表文本在歌曲列表中添加查看专辑按钮。 优化歌曲缓存。

2022-10-29

netease-cloud-music-gtk 2.0.3 已经发布,Linux 网易云音乐播放器。 此版本更新内容包括: 添加启动音量设置。 优化轮播导航按钮样式。 优化网络请求。 修复返回键连击bug。 更新翻译。 更新项目说明。 详情查看:https:/

2023-12-14

netease-cloud-music-gtk 2.3.0 已经发布,Linux 网易云音乐播放器 此版本更新内容包括: 更新内容: 修复缺少首个收藏专辑问题 修复频繁操作时闪退 #230 添加桌面歌词支持 #241 优化拖放进度条逻辑 优化异步任务调度 更新mp

2023-09-16

023 Google 开发者大会精彩演讲回顾 日前有网传消息称,网易伏羲团队员工因工作原因在出租屋自杀离世;并表示,该员工曾“因 BUG 被 HR 威胁”。9 月 14 日,网易伏羲针对此事发布内部信公布事发经过,及公司后续关怀方案。

2024-07-03

更新: 今天上午阿里云服务发生故障。阿里云官方回应称,阿里云在 10:04 监控发现上海地域可用区 N 网络访问出现异常,正在紧急处理中。 10 点 35 分,阿里云工程师完成网络切流调度,上海可用区 N 网络访问开始恢复。

2024-07-25

较差。 最后,齐向东提到,奇安信集团在保障政企机构业务连续性方面拥有丰富经验。“我们每次软件升级都会进行灰度测试,先在小范围内升级,确保无误后再逐步扩大范围。”他解释说,这种渐进式的升级策略和一整套的

2022-09-24

式数据库支撑核心业务系统,凭借开发易用、弹性扩容、故障自愈、同城双活的数据架构,增强了金融系统的可靠性与业务连续性。中国人寿财险核心系统也基于 TiDB 实现从集中式到分布式数据库的升级改造,大幅提升海量数据

2024-07-11

故造成了部分车辆拥堵。 7月8日,百度方面相关负责人回应称:“事故发生于武汉市汉阳区鹦鹉大道与国博大道交会路口,是车辆在绿灯亮起启动之际与一名闯红灯行人发生轻微接触,事故发生后我司第一时间配合警方处置,

2023-07-08

幅提升。原来预测一个台风未来10天的路径,需要在3000台服务器的高性能计算机集群上花费5小时进行仿真。现在基于预训练的盘古气象大模型,通过AI推理的方式,研究者只需单台服务器上单卡配置,10秒内就可以获得更精确的

2024-07-23

360创始人周鸿祎连发三条视频,以日前发生的因Crowdstrike更新导致全球Windows大面积蓝屏死机事件为主题,谈论了国产安全软件的重要性以及这场史上最大IT事故所带来的启发。 “这次的事件也再次展露了微软在整个市场中的占