最新AWS故障分析报告出炉:详解事故原因与根源

AWS就本周导致众多企业陷入瘫痪的重大服务中断事件解释了问题所在。在一份事后总结中,AWS概述了其DynamoDB的初始问题如何产生连锁反应,导致服务中断时间延长。

10月19日晚11:48至10月20日凌晨2:40期间,亚马逊DynamoDB在美国弗吉尼亚州US-East-1区域(部署应用程序的主要区域)出现了“API错误率上升”的情况。

这导致包括Snapchat、Fortnite、Ring、Roblox、Coinbase和即时通讯应用Signal在内的各种应用程序和服务无法使用。

AWS描述了在此期间,“依赖DynamoDB的客户和其他AWS服务无法与该服务建立新连接”。

AWS表示,此次事件是由服务自动化DNS管理系统中的“潜在缺陷”(即隐藏故障)引发的。AWS指出,这导致了DynamoDB的端点解析失败。

DNS(也被称为互联网电话簿)是将Forbes.com等域名转换为IP地址的系统,以便浏览器加载互联网资源。

AWS表示,像DynamoDB这样的服务在每个区域“维护着数十万条DNS记录,以运营一个由大量异构负载均衡器组成的庞大集群”。“自动化对于确保这些DNS记录频繁更新至关重要,以便在有可用容量时增加容量、正确处理硬件故障,以及高效分配流量以优化客户体验。”AWS称。

但是,DynamoDB DNS管理系统中的“潜在竞态条件”(即当多个请求同时发送到同一端点时发生的情况)导致该服务区域端点(dynamodb.us-east-1.amazonaws.com)的DNS记录出现不正确的空记录,而自动化系统未能修复这一问题。

网络负载均衡器的问题

随后,当系统开始恢复时,10月20日凌晨5:30至下午2:09,同一区域的部分网络负载均衡器出现了连接错误增加的情况。“这是由NLB集群中的健康检查失败导致的,进而使部分NLB的连接错误增加。”AWS解释道。

与此同时,10月20日凌晨2:25至上午10:36,新的EC2实例启动失败。AWS表示,虽然从上午10:37开始实例启动逐渐成功,但部分新启动的实例出现了连接问题,这些问题在下午1:50得到解决。

“新启动的EC2实例网络状态传播延迟也对网络负载均衡器服务和使用NLB的AWS服务造成了影响。”AWS称。

亚马逊就服务中断事件致歉并说明后续措施

AWS现已就此事件发布道歉声明。“我们为此次事件给客户带来的影响深表歉意。”AWS写道,“尽管我们在运营服务方面一直保持着高可用性的良好记录,但我们深知服务对客户、他们的应用程序和终端用户以及业务的重要性。我们深知此次事件对许多客户造成了重大影响。我们将竭尽所能从此次事件中吸取教训,并利用它进一步提升我们的可用性。”

AWS表示,它“正在因此次运营事件做出多项调整”。

例如,它已在全球范围内禁用了DynamoDB DNS规划器和DNS执行器自动化系统。“在重新启用此自动化系统之前,我们将修复竞态条件场景,并增加额外保护措施,以防止应用不正确的DNS计划。”

对于NLB,AWS正在增加一个速度控制机制,以限制当健康检查失败导致可用区故障转移时单个NLB可以移除的容量。

对于EC2,AWS正在构建一个额外的测试套件,以扩充其现有的规模测试,该测试将演练DWFM恢复工作流程,以“识别未来可能出现的任何问题”。

此次AWS服务中断事件影响巨大,部分公司因依赖的应用程序出现问题而数小时无法运营。AWS迅速发布了事后分析报告,这一点值得肯定。然而,其声誉已经受到了损害。

展开阅读全文

更新时间:2025-10-26

标签:科技   根源   详解   故障   事故   原因   最新   均衡器   事件   负载   区域   应用程序   亚马逊   实例   客户   可用性   网络

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top