2018年12月6日,对于日本运营商软银,简直是噩梦般的一天。
下午13点39分,软银东日本和西日本两大中心机房的18台4G核心网网元突发故障,造成全网大量用户无法正常通信。
软银被这突如其来的大故障惊呆了,从CTO到工程师,上上下下忙成一团,整整花了近两个小时才定位出故障原因,直到下午18点04分才恢复故障。
本次故障历时4小时25分,共计造成约3060万软银用户无法正常通信,是日本通信史上一次罕见的重大通信事故。
事故发生后,软银高层向用户公开道歉,并承诺以后将加强设备备份管理,严防事故再次发生。
由于故障发生在白天,影响范围广,对软银造成了极大的负面影响,股票大跌,5天内超过1万户用户解约。
估计连日本总务省也惊呆了,直到20天后,也就是今天,才官方公布确认“收到软银提交的严重事故报告”。
以下内容来自软银的故障报告。
概要
发生时间:
2018年12月6日 13:39至18:04(4小时25分钟)
影响内容:
4G LTE移动电话无法进行语音通话和数据通信。
部分LTE 固话和家庭Wi-Fi无法正常使用
由于4G网络故障,导致3G网络拥塞
影响范围:
全国(约3060万线用户)
故障原因:
4G核心网设备(MME)软件缺陷导致。
故障原因分析
故障具体原因为核心网网元MME(移动管理实体),即4G分组交换设备的数字证书(TSL证书)过期导致。
TLS(Transport Layer Security,传输层安全)是为网络通信提供安全及数据完整性的一种安全协议。
软银解释到,他们在东日本和西日本两大中心机房合计部署了18台分组交换设备,这些设备都是按照远期需求配置,有足够的负荷冗余量,目前仅使用了30%~40%的负荷。
同时,18台设备相互备份,且均为池化部署,这意味着即使任何一台甚至多台设备发生故障都不会影响服务正常提供。
但是,数字证书过期这种事就不一样了。
TSL数字证书过期,意味着系统无法识别那些连接分组交换设备的其他设备是否合法,此时,系统检测到异常,根据软银现网设置,会采用重启的方式来试图恢复。
不过,数字证书过期这种事,即使重启N次,也是无法恢复的,因此,就发生了不断重启的死循环,从而导致了这次重大故障。
此外,由于4G网络服务中断,导致大量用户转移到3G网络,这也造成3G网络严重拥塞。