万益资讯网

德国铁路昨晚全国停运了两小时,起因就是一台交换机换了之后软件出了故障。但这台交换

德国铁路昨晚全国停运了两小时,起因就是一台交换机换了之后软件出了故障。但这台交换机也就是个引子,真正吓人的是后面的事,备用系统全程没收到警报,就那么安安静静待在那儿,压根不知道自己该上场。技术人员最后是靠着人工才把系统切过去的,而且切换之前还得先花时间确认这不是网络攻击。换句话说,如果那两小时里真有人想干点什么,整个德国的铁路调度就是一张白纸。

GSM-R这个系统在德国已经跑了二十多年了,全欧洲的铁路都在用这套2G时代的通信标准。德铁说接班系统FRMCS最快也要十年后才能全面上线,也就是说这套老骨头还得再撑整整十年。问题不是它老,而是一个跑了二十年的系统到今天才被发现存在故障了但不报错这种死角。这种死角搁在银行系统里叫风控黑洞,搁在铁路系统里就是全国停运,区别也就是爆在哪儿而已。

德铁事后给出的补救方案是以后维护全部挪到凌晨零点到四点之间做,而且只动没在用的那套系统。这个方案看着挺稳妥,实际上背后的逻辑是既然系统自己不会报错,那就尽量减少触碰它的次数。真正该问的是为什么二十年来从没人试过在备用系统不触发警报的情况下模拟一次故障切换。整个德国铁路的冗余体系建立在警报必须发出来这个前提上,而这个前提本身从来就没有被完整验证过。

对一个国家层面的关键基础设施来说这不算技术老化的问题,这是测试哲学的问题。德国人引以为傲的严谨在系统架构上漏掉了一条最基本的规则,如果连坏掉这件事都不能被系统自己发现,那所有的备份都是给瞎子看的。铁路是这样,电网是这样,银行清算系统也是这样。德国这次替所有人踩了一遍这个坑,但真正让人后背发凉的是,全世界还有多少套系统也在同样的坑边上站着。

不过站在设备商的角度看这件事也未必全是坏事。一套即将被淘汰的2G系统上出了软件漏洞,最快的方式是打补丁,但打补丁赚不到什么钱。如果诊断周期拉长一点,问题反复出现几次,铁路运营方对FRMCS的采购节奏就会从按部就班变成火烧眉毛。商业世界里这种节奏转换意味着预算翻倍和合同前置,德国铁路未来十年在通信系统上的开支已经被这次故障抬高了整整一个台阶。

欧盟那边也会被这件事推着往前走。FRMCS需要二十七个国家同步推进,德国以前是那个说别着急的国家。现在德国自己先炸了,接下来布鲁塞尔那边收到的只会是一份接一份的催促函。德国用自己的停运给全欧洲的铁路数字化按下了加速键,这个加速键的代价是两小时全国瘫痪,但账算下来德铁不亏。真正亏的是那些在火车站干等了两个晚上最后连延误赔偿都没拿全的普通乘客,他们为系统架构的漏洞付了账,但没人会给他们开发票。