数据中心|复盘一下,宕机之后,FaceBook是否会重视云服务?( 二 )


网友海勒估计,在广告费和品牌内容之间,周一用户的总损失有数亿美元之多。他补充说,服务中断对其客户形成的财务打击可能达到了 300 万至 400 万美元。
当时,敏感的资本市场很快对宕机事情做出了反应。
10月5日受宕机事件影响, Facebook最深跌5.9%,收跌4.9%,创6月3日以来的四个月最低,市值一夜蒸发643亿美元(约合人民币4147亿元),目前总市值约9000亿美元,而小扎的资产也缩水60亿元。
网友深扒宕机具体原因
Facebook公司以及扎克伯格关于这场事故的解释,是“协调数据中心之间网络流量的主干路由器的配置变化导致了通信中断,由此对我们数据中心的通信方式产生了连带影响,使我们的服务陷入停顿”,简单地说,就是主干路由器配置参数时误操作导致了事故,公司在声明中特地说,“没有证据表明用户数据因这次停机而受到影响”。

但这样的笼统的结论难不到英雄的网友们。
很快知乎的大神找到了答案:
某个Facebook倒霉的程序员在更新BGP的时候,无意屏蔽了两条子链路:185.89.218.0/23和129.134.30.0/23。这两个IP非常重要,是FB的DNS服务器,所有DNS都需要在这里解析域名,直接的结果是Facebook其他服务器都没有任何问题,但就是域名得不到解析,数据中心成了名符其实的“数据孤岛”。
不到10分钟后,所有FaceBook旗下的服务纷纷崩盘。所有指向FaceBook、WhatsApp、Instagram的DNS,返回的是令人害怕的“SERVFAIL”随后,全球所有终端因为找不到FaceBook域名,反复retry DNS最终DNS服务器崩盘。
更可怕的是,FaceBook的门禁系统、监视系统和内部IT服务系统也在这两条链路上,因此所有的尝试都失效,最终到了人员无法进入数据中心的窘境。
数据中心|复盘一下,宕机之后,FaceBook是否会重视云服务?
文章插图
说实话,最后只能采用物理手段进入被科技武装到牙齿的数据中心,这一幕将深深烙印在众多科技业界的心上,尽管这一幕无论从视觉上还是情感上都无法被这一群体所接受。
至于第二次宕机,则是由于恢复时手忙脚乱恢复后忘记拔线,一台DNS服务器上线后被瞬间爆棚的流量再次击倒。
FaceBook是否重新考虑云服务
基于此次宕机事件,业内有非常多的分析,有人说这是远程运维的悲歌,有人说这是对智能运维的挑战,还有人担心,此类事情还有可能继续在自营的数据中心发生,更有专业人士指出,FaceBook应该重视公有云服务。
其中原因有两点:
第一、公有云服务的架构天然保证了DNS解析不会只BASE在两条链路上。
第二、即使BGP出现两条或者三条链路错误,也不会出现数据中心成为孤岛。
毕竟公有云的优势已经从理论到实践都得到了验证。尽管是老生常谈我们还是再来看看:
1、安全。云计算提供了最可靠、最安全的数据存储中心,用户不用再担心数据丢失、病毒入侵等麻烦。
2、成本最优。云计算对用户端的设备要求最低,使用起来也最方便。同时按需计费的特性,企业无需进行巨额基础设施建设,资金效率达到最高。
3、数据共享。在需要的情况下,云计算可以轻松实现不同设备间的数据与应用共享。
4、弹性扩展。按需提供算力、网络和存储。云计算为我们使用网络提供了几乎无限多的可能。
公有云的特点还有很多,优势非常明显,这也是公有云不断发展成为推动社会经济发展的基石的主要原因。
事实上,尽管公有云优点很多,而且国内社交巨头腾讯,在云服务上不断投入且进展迅速,但FaceBooK似乎一直不为所动:第一、FaceBook并没有参加全球云服务的赛道竞赛。第二、FaceBook自身似乎也并没有在采购云服务的想法。