阿里云时隔一年再现大规模故障云厂商宕机事故频发
2023年双十一刚刚落幕,阿里云故障导致阿里系App(小写)全线“崩”上热搜,涉及到阿里云盘、淘宝、咸鱼、钉钉、语雀等等产品。
阿里云官网通告显示,故障开始于11月12日傍晚,持续时长约3个半小时。
17:44分,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师正在紧急介入调排查。
17:50分,阿里云已确认故障原因与某个底层服务组件有关,工程师正在紧急处理。
18:54分,杭州、北京等地域控制台已经恢复,其他地域控制台服务逐步恢复中。
19:20分,工程师通过分批重启组件服务,绝大部分地域控制台及API服务已恢复。“19:20左右,经工程师紧急处理,阿里旗下淘宝、钉钉、阿里云盘等App(小写)已全面恢复。”随后阿里集团方面回复南都记者称。
19:43分,异常管控服务组件均已完成重启,除个别云产品(如消息队列MQ、消息服务MNS)仍需处理,其余云产品控制台及API服务已恢复。
20:12分,北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中。
21:11分,受影响云产品均已恢复,因故障影响部分云产品的数据(如监控、账单等)可能存在延迟推送情况,不影响业务运行。
11月13日上午,南都记者查询阿里云官网显示,阿里云11月12日故障受影响地域包括:华北2 (北京)、华北6 (乌兰察布)、 华北1 (青岛)、华东2(上海)、华南2(河源)、华北3(张家口)、中国香港、印度(孟买)、美国(硅谷)、华南1(深圳)、英国(伦敦)、韩国(首尔)、日本(东京)、阿联酉(迪拜)、西南1 (成都)、华南3 (广州)、新加坡、澳大利亚 (悉尼)、马来西亚(吉隆坡)、 华北5 (呼和浩特)、 印度尼西亚(雅加达)、美国 (弗吉尼亚)、菲律宾 (马尼拉)、泰国(曼谷)、华东1(杭州)、华南1金融云。
此次故障影响了计算、容器、存储、网络与CDN、安全、中间件、数据库、大数据计算、人工智能与机器学习、媒体服务、企业服务与云通信、物联网、开发工具、迁移与运维管理等产品线内的上百个产品及服务。
故障涉及到的产品及服务。
这不是阿里云首次出现大规模故障。2022年12月18日,阿里云香港机房制冷设备故障,导致多个香港及澳门的站点受到影响,宕机时间超过10个小时。
据澳门司法警察局发布消息,“由于阿里云的香港机房节点发生故障,导致澳门金融管理局、澳门银河、莲花卫视、澳门水泥厂等关键基础设施营运者的网站、澳觅和MFood等外卖平台以及澳门日报等本地传媒应用程式,自今天(18日)中午开始暂时无法访问使用。 ”
2022年12月25日,阿里云发布《关于阿里云香港Region可用区C服务中断事件的说明》,复盘了该事件的处理过程、服务影响、问题分析以及改进措施等。涉及到的问题包括:冷机系统故障恢复时间过长、现场处置不及时导致触发消防喷淋、客户在香港地域新购ECS等管控操作失败、故障信息发布不够及时透明。
“最后,我们要向所有受到故障影响的客户公开致歉,并尽快处理赔偿事宜。此次香港Region可用区C服务中断事件,对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。”阿里云在公告中表示。
值得关注的是,这一事故10天后,阿里云发生组织变动,张建锋不再主管阿里云智能,外界猜测与阿里云香港区域部分服务故障事件相关。
除了阿里云机房故障引发大面积宕机之外,2023年3月底,微信、QQ等业务也曾出现大面积功能异常,涉及到微信的异常包括语音呼叫、账号登录、朋友圈以及支付在内的多个功能无法正常使用,QQ文件传输、QQ空间、QQ邮箱等也同样出现问题。
腾讯客服官方微博于3月29日凌晨3点30分发布消息称,由于系统故障,部分用户使用微信支付相关功能出现异常,当天上午10点50分,腾讯微信团队宣布,微信、微信支付相关功能已恢复。
据媒体报道,此次事故由广州电信机房冷却系统故障导致,腾讯将其定义为公司一级事故,多个管理层因此受到通报批评和处罚。
4月12日,工业和信息化部信息通信管理局听取腾讯公司关于“3·29”微信业务异常情况汇报,要求腾讯公司进一步健全安全生产管理制度、落实网络运行保障措施,坚决避免发生重大安全生产事故,切实提升公众业务安全稳定运行水平。
下一步,工信部将统筹发展和安全,持续加大信息通信行业安全生产监管力度,指导电信业务经营者严格落实主体责任、完善保障措施、强化事故应急处置能力,以高水平网络运行安全保障信息通信行业高质量发展。
(文章来源:南方都市报)
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。