近日,谷歌又出现大面积瘫痪事件,导致全球范围内多款Google服务崩溃,这已经是谷歌近半年第三次出现大规模宕机事件,堪称上演宕机“帽子戏法”。
回顾此次宕机事件,谷歌在出现宕机之后的反应倒是挺快。根据谷歌云官方推特表述,经过谷歌运维工程师近50分钟的紧急处理,相关服务在当地时间凌晨4点32分恢复正常,真是“同是天涯运维人,凌晨加班曾相识”。
再来看看此次宕机事件的“元凶”--“internal storage quota issue”,谷歌后续的一份初步调查报告中称:此次宕机的原因是“我们的自动配额管理系统出现了问题,降低了谷歌中央身份管理系统的容量,导致其在全球范围内返回错误。因此,我们无法验证用户请求是否经过认证,并向用户提供错误。”
何谓“自动配额管理”问题?难道之前大部分媒体报道的“磁盘写满”宕机原因都是错的?亦或是“磁盘写满”是表象,“自动配额管理”才是诱因?带着好奇心,大数据在线小编找到了资深存储专家李工,请他详细分析了此次谷歌宕机事件背后的大瓜。