亚马逊致歉云宕机,客户集体沉默
亚马逊就上周五和周六发生的大规模EC2云宕机事件发布了详细的解释声明。但是受云宕机事件影响的Netflix、Instagram和Pinterest目前依然保持沉默。
上周末,亚马逊位于北弗吉尼亚的数据中心在强风暴作用下宕机,亚马逊的AWS服务健康仪表盘向用户显示有“电力问题”,但亚马逊官方没有具体解释事故原因。
在最新发布的声明中,亚马逊解释很多“bug”和小问题累计导致备份发电机只运行了几分钟就停机,导致数据中心电力完全中断,一片漆黑。在技术人员的抢修下,十分钟后发电机恢复了工作,但重启受影响的服务器又花了三个多小时时间。
祸不单行的是,在此次云宕机事件中,亚马逊负责分发和转发流量的“弹性负载均衡器”(Elastic Load Balancer)也出现状况。而关系型数据服务(Relational Database Service)也出现问题,导致一些数据中心无法快速恢复。
目前,Instagram、Netflix和Pinterest等几家受影响的企业拒绝就此事接受媒体采访。从技术上讲,由于亚马逊云的冗余机制,Netflix这样的客户照理不应该受到单片云区宕机的影响,但是依然没能逃过周五的云宕机。
Netflix的云架构师Adrian Cockcroft在Twitter上透露:亚马逊的弹性负载均衡器是导致灾难的根源,他指出:
“Netflix在一个云区的实例失败后,弹性负载均衡器没能将流量导向其他正常工作的实例。”
Instagram的宕机一直持续到了周六,而Netflix和Pinterest的宕机只持续了数小时。但是Instagram并没有透露原因。(也不知道是不是因为Instagram的云配置不同所致)
亚马逊在致歉声明中声称将修复并重新测试数据中心设备和软件来改进云服务,亚马逊在声明中说:
我们为给客户带来的麻烦和不便深感抱歉,我们甚至我们的服务对于客户的业务来说有多么关键。如果你了解AWS的历史,我们的客户导向,以及发展轨迹,你一定会清楚我们将从此次事件中吸取经验教训,全面提升我们的服务。我们将在未来数周用大量时间进行事故问题细节的调查,并决定如何进一步改进我们的服务和流程。
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: