数字证书过期了,为什么没有及早发现?
软银解释到,该分组交换设备的数字证书不同于其他网络设备。
通常,对于其他网络设备,我们在购买设备后,是可以自行确认数字证书到期时间的。
但分组交换设备的数字证书是通过嵌入式软件固化在相应硬件里的,作为运营商,我们无法确认到期时间。
解决措施
临时解决措施
本次故障是由2018年4月升级的Ver.1.14版本引起,而之前的Ver.1.08版本没有问题,因此,临时解决措施是从Ver.1.14版本回滚到Ver.1.08版本,但这会导致一些4G物联网功能无法使用。
中期解决措施
1. 全网普查所有设备的相关证书是否到期,包括全网基站设备。
2. 制定更加严格的新设备和新软件版本入网测试规范。
3. 要求在设备升级后一年内,保留旧版本软件,以在新版软件出现类似问题后,快速回滚到旧版本。
永久性措施
1. 要求以后所有购买的网络设备和软件,运营商均可自行检查数字证书是否到期。
2. 更改系统异常检测和应急机制,当系统检测到网络异常时,不再只是重启恢复,而是设置异常告警级别,根据门限判定是重启还是继续运行。
3. 由于引起本次重大事故的原因之一是由于所有设备都来自同一家供应商,因此,要求在2019年6月30日之前引入多家设备供应商,以分散风险。
看完软银的故障报告,感觉是字里行间透露出一万个“万万没想到”,尽管各种备份容灾都做到位了,但意外还是发生了。真是网络安全无小事,运维责任重如山,令人警醒。(作者:网优雇佣军)