阿里云12月18日史上最长大规模中断(15.5小时)的4大问题。12月25日,阿里云官方发布说明,详细解释了此次中断故障的过程、原因,以及改进措施。
简而言之就是:阿里云冷机故障,引起了机房高温,高温触发了消防喷淋,因为机器湿了,很多机器遇水损坏了,所以修了15个半小时。
据悉,阿里云此次服务中断源于水冷系统出现故障,且长时间无法恢复正常,导致机房温度升高,现场处置不及时又导致触发消防喷淋,部分硬件遇水损坏,另外客户在香港地域新购ECS等管控操作失败,长时间无法扩容。从当天早上8点56分首次检测到故障警告,次日凌晨0点30分所有服务恢复正常,历时超过15个半小时。
阿里云承认,此次香港Region可用区C服务中断事件,对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。并向所有受到故障影响的客户公开致歉,称将尽快处理赔偿事宜。阿里云表示,将尽一切努力从此次事件中吸取经验教训,持续提升云服务的稳定性。
不过话说回来,阿里云宕机了,就跟特斯拉自燃了一样,大家依旧会用阿里云。但这次事件对阿里云来说是一次大危机,一秒上亿的交易量竟然能宕机这么久,要修15个小时?难以想象是做了十几年的云服务厂商。不过话说回来,运维人员一定演练过各种疑难杂症,技术方面肯定没得说,但谁曾想到,服务器竟然是以这种形式损坏了。
#免责声明#
导航猫提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络收集整理,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件3951157@qq.com与我们联系处理。敬请谅解!