AWS将周二的宕机归咎于一个打印错误

2020-04-03 10:40:14

亚马逊网络服务公司(AmazonWe bServices)今天早些时候表示,它本周早些时候的中断,影响主要网站和应用程序的原因是人为错误。

包括Netflix、Reddit和美联社在内的网站在周二挣扎了几个小时,这都是因为一个简单的错误。

该公司在一条在线信息中写道:“虽然我们对亚马逊S3的长期可用性记录感到自豪,但我们知道这项服务对我们的客户、他们的应用程序和最终用户以及他们的业务有多重要。” 「我们会尽我们所能从这次活动中吸取教训,并利用它进一步改善我们的服务。」

周二上午,AWS在其服务健康仪表板上报告说,它的S3,即简单存储服务,在其位于弗吉尼亚州北部的数据中心有问题。

这一问题甚至影响到AWS仪表板,直到下午5时左右才得到澄清。 在那天。

现在,AWS正在解释发生了什么。

该公司指出:“亚马逊简单存储服务(S3)团队正在调试一个问题,导致S3计费系统的进度比预期的要慢。” “下午12时37分 一个授权的S3团队成员使用一个已建立的Playbook执行了一个命令,该命令旨在为S3计费过程使用的S3子系统之一删除少量服务器。

消息补充说:“不幸的是,命令的一个输入输入错误,并且删除了一组比预期的更大的服务器。”

ZK Research的分析师宙斯·凯拉瓦拉(宙斯·凯拉瓦拉)表示,如此重大的问题是由人为错误引起的,这并不奇怪。

他说:“我的研究表明,37%的IT中断是人为失误造成的。 “这很可怕,而且表明,尽管技术进步如此之多,我们仍然主要依靠手工操作。 这是一个更好的自动化和机器学习可以帮助的例子。

AWS在其今天的在线信息中指出,它的工程师已经从周二的停电中了解到,并正在做出改变,以避免再次发生。

该公司解释说:“虽然取消产能是一个关键的操作实践,但在这种情况下,所使用的工具允许太多的产能被太快地移除。” “我们修改了这一工具,以更慢地去除能力,并增加了保障措施,以防止能力被移除,因为它将使任何子系统低于其最低要求的能力水平。

根据AWS,这应该防止不正确的输入触发另一次中断。

该公司还指出,工程师正在审核其他操作工具,以确保他们有类似的安全检查。

「我们亦会作出更改,以改善关键S3子系统的恢复时间。」 「我们采用多种技术,使我们的服务能迅速从任何故障中恢复。」

Moor Insights&;Strategy的分析师帕特里克?莫海德(Patrick Moorhead)表示,他认为这一事件在短期内会给AWS造成一种阴影。

他说:“很难想象一个人在一个命令上的一个错误会导致数百万用户的死亡。” “人们应该对AWS有更多的期待... 这一事件将使企业三思而后行,将某些工作负载和应用程序转移到公有云,并激励它们密切关注私有云。

就他而言,Kerravala表示,他预计云计算竞争对手谷歌(Google)和微软(Micros of t)将抓住这一AWS事件,并试图以他们的方式推动任何失去的业务。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。