什么样的故障让阿里云换了总裁?
本文由 简悦 SimpRead 转码, 原文地址 juejin.cn
2022 年 12 月 18 日大概是阿里云最黑暗的日子,阿里云香港 Region 可用区 C 因为机房水冷装置出现故障导致大规模服务中断,对很多客户业务产生重大影响,包括澳门多家网站及 App 自当日午时起无法访问使用。云服务器宕机后一般几个小时左右便能恢复,可是阿里云这次宕机于 12 月 18 日早上 8 点 56 分首次检测到故障警告,直到次日凌晨 0 点 30 分所有服务才恢复正常,整个故障持续时间超过 15 个半小时。号称世界第三的云计算服务商在机房出现异常的时候要耗费如此多的时间才能恢复简直不敢想象,实在和其宣扬的各种黑科技高可用大相径庭。
这次的宕机事件对阿里云的技术品牌力损伤非常大,可能后期你再宣扬自己技术有多牛,客户可能都不会相信了,一旦失去了客户的信任,那离失去市场也就不远了。毕竟现在云计算市场竞争还是比较激烈的,像华为云、腾讯云以及百度云等都在摩拳擦掌抢占市场份额。
故障复盘
暴露的问题
制冷系统监控不足
在机房出现故障的时候,首先检测到的是机房温度异常升高而后才排查到是机房制冷设备问题,很明显机房监控系统没有对制冷机组进行监控。原因机房主备水冷机组共用了同一个水路循环系统,因此存在单点故障问题,一旦水路循环系统出问题,主备水冷机组都会受影响。后期对制冷设备进行手动操作仍然不能恢复其正常运行,很明显没有对水冷设备进行过设备故障演练,导致出现问题后恢复操作时间过长。
为什么机房直接进行喷淋?
大家都知道机房中的服务器都是电子设备,而电子设备最怕水了,如果服务器进水了那就很有可能导致服务器短路损坏,进而导致服务器数据丢失,更加延长了故障恢复的时间。所以为什么不是喷洒七氟丙烷气体灭火,最起码泡沫、粉末也行啊,但是实际上直接触发了喷淋操作,这也是非常诡异的地方。
高可用形同虚设
企业使用阿里云的一个重要原因就是看中了其高可用能力,希望哪天在发生故障的时候用户可以无感地快速进行切换,尽可能的减少故障导致的业务中断时间。而在此次的阿里云宕机故障中,虽然采用了 B、C 可用区双机房进行了容灾,在 C 可用区故障之后通过 B 可用区对外提供服务,但是可惜的是 B 可用区服务实例资源不够,同时 ECS 启动时依赖的中间件服务没有进行双机房容灾,只部署在了可用区 C 机房当中,而此时的可用区 C 机房已经出现故障,导致 B 区无法实现扩容。这也暴露了阿里云对重要的基础中间件以及 oss 基础服务并没有真正做到全部双机房容灾,出现了单点故障问题。
阿里云智能换帅
2022 年 12 月 29 日,阿里云宕机事件不到两周的时间,阿里巴巴董事会主席兼 CEO 张勇向阿里全员信公布人事变动信息,张勇将亲自兼任阿里云智能总裁,张建锋不再担任阿里云智能总裁。在这封信中提到:只有在一点一滴的行动上保障好客户利益,创造好客户价值,才能承担好引领发展、创造就业、参与国际竞争的大使命。
在这封全员信发出后,张勇作为阿里云智能总裁单独面向阿里云全体小二发了内部信,信中措辞更为严厉,在 800 多字的内容中,提到了超过 20 次 “客户”,可见张勇这次是真的急了。以下截取了信中部分内容。
反思
无论是像阿里这样体量的公司还是正在创业的公司,都要始终把客户的利益放在第一位,把客户的信任放在第一位才能赢得客户,赢得市场。否则一旦失去客户的信任,也就慢慢失去了市场,那么在激烈的市场竞争中就会被淘汰。希望在新的一年里阿里云真的可以吸取这次宕机事件的教训,真正为客户创造价值。