
AWS就本周导致众多企业陷入瘫痪的重大服务中断事件解释了问题所在。在一份事后总结中,AWS概述了其DynamoDB的初始问题如何产生连锁反应,导致服务中断时间延长。
10月19日晚11:48至10月20日凌晨2:40期间,亚马逊DynamoDB在美国弗吉尼亚州US-East-1区域(部署应用程序的主要区域)出现了“API错误率上升”的情况。
这导致包括Snapchat、Fortnite、Ring、Roblox、Coinbase和即时通讯应用Signal在内的各种应用程序和服务无法使用。
AWS描述了在此期间,“依赖DynamoDB的客户和其他AWS服务无法与该服务建立新连接”。
AWS表示,此次事件是由服务自动化DNS管理系统中的“潜在缺陷”(即隐藏故障)引发的。AWS指出,这导致了DynamoDB的端点解析失败。
DNS(也被称为互联网电话簿)是将Forbes.com等域名转换为IP地址的系统,以便浏览器加载互联网资源。
AWS表示,像DynamoDB这样的服务在每个区域“维护着数十万条DNS记录,以运营一个由大量异构负载均衡器组成的庞大集群”。“自动化对于确保这些DNS记录频繁更新至关重要,以便在有可用容量时增加容量、正确处理硬件故障,以及高效分配流量以优化客户体验。”AWS称。
但是,DynamoDB DNS管理系统中的“潜在竞态条件”(即当多个请求同时发送到同一端点时发生的情况)导致该服务区域端点(dynamodb.us-east-1.amazonaws.com)的DNS记录出现不正确的空记录,而自动化系统未能修复这一问题。
网络负载均衡器的问题
随后,当系统开始恢复时,10月20日凌晨5:30至下午2:09,同一区域的部分网络负载均衡器出现了连接错误增加的情况。“这是由NLB集群中的健康检查失败导致的,进而使部分NLB的连接错误增加。”AWS解释道。
与此同时,10月20日凌晨2:25至上午10:36,新的EC2实例启动失败。AWS表示,虽然从上午10:37开始实例启动逐渐成功,但部分新启动的实例出现了连接问题,这些问题在下午1:50得到解决。
“新启动的EC2实例网络状态传播延迟也对网络负载均衡器服务和使用NLB的AWS服务造成了影响。”AWS称。
亚马逊就服务中断事件致歉并说明后续措施
AWS现已就此事件发布道歉声明。“我们为此次事件给客户带来的影响深表歉意。”AWS写道,“尽管我们在运营服务方面一直保持着高可用性的良好记录,但我们深知服务对客户、他们的应用程序和终端用户以及业务的重要性。我们深知此次事件对许多客户造成了重大影响。我们将竭尽所能从此次事件中吸取教训,并利用它进一步提升我们的可用性。”
AWS表示,它“正在因此次运营事件做出多项调整”。
例如,它已在全球范围内禁用了DynamoDB DNS规划器和DNS执行器自动化系统。“在重新启用此自动化系统之前,我们将修复竞态条件场景,并增加额外保护措施,以防止应用不正确的DNS计划。”
对于NLB,AWS正在增加一个速度控制机制,以限制当健康检查失败导致可用区故障转移时单个NLB可以移除的容量。
对于EC2,AWS正在构建一个额外的测试套件,以扩充其现有的规模测试,该测试将演练DWFM恢复工作流程,以“识别未来可能出现的任何问题”。
此次AWS服务中断事件影响巨大,部分公司因依赖的应用程序出现问题而数小时无法运营。AWS迅速发布了事后分析报告,这一点值得肯定。然而,其声誉已经受到了损害。
更新时间:2025-10-26
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号