Coinbase 复盘 5 月宕机事件:AWS 级联故障暴露架构风险

By: rootdata|2026/06/01 21:43:26
0
分享
copy

ChainCatcher 消息,Coinbase 发布对 2026 年 5 月 7 日大规模服务中断事件的复盘报告。

此次故障持续约 8 小时,完整恢复耗时约 12 小时,期间交易、充值、提现及多数核心服务均出现不可用或严重降级。Coinbase 表示,故障起因是 AWS us-east-1 区域某可用区(use1-az4)数据中心冷却系统多台制冷机同时失效,引发机柜热保护停机,导致 EC2 实例与 EBS 卷下线,并波及多项互联网服务。

在恢复过程中,Coinbase 交易撮合引擎因部署在单一 AWS 机房的集群架构失去多数节点而丧失 quorum,需紧急通过代码调整与新节点组重建恢复运行,并在恢复过程中逐步重启市场交易。

此外,AWS 托管 Kafka(MSK)服务出现控制平面故障,导致分区主节点无法自动重新选举,进一步阻断报价、手续费及部分结算与数据流系统,扩大了整体影响范围。

Coinbase 与 AWS 工程团队协作进行手动分区迁移后,系统逐步恢复正常。Coinbase 表示,此次事件暴露出其在跨可用区自动切换能力及托管中间件容灾方面的不足。公司将升级跨区域热备架构、强化定期故障演练,并将 Kafka 系统由双可用区迁移至三可用区部署,同时与 AWS 共同推进根因修复与改进。

猜你喜欢

热门币种

最新加密货币要闻

阅读更多
iconiconiconiconiconicon
客户服务:@weikecs
商务合作:@weikecs
量化做市商合作:bd@weex.com