“B站崩了”火遍互联网,背后是复杂而脆弱的企业IT架构|焦点分析 | 负载均衡( 二 )


B站当晚故障数小时也没完全恢复,显然灾备起的作用不太大,这道防线没能好好守住。
灾备等级一般可按同城/异地、备份中心数量等划分等级高低,选择不同备份方式(如热备/冷备/温备份,成本均不同),也会对恢复时间有所影响。一位云计算从业者对36氪表示:“类似B站这种体量的平台,灾备肯定有做,但就是没经受住考验。比如数据备了但机器没备,或者机器备了但链路没备,差一个环节,就难以在短时间内恢复。”
作为视频直播平台,B站对高可用/高并发的要求是很高的。企业灾备服务商、英方软件市场总监黄亮对36氪表示,高可用架构主要有异地容灾、负载均衡两种,此次故障很有可能是B站只重点做了负载均衡,但没有做太多异地容灾。“当前企业做负载均衡,通常是采用同城数据中心的架构,如在上海的同一个数据中心里进行。”他表示。
灾备没及时起作用,可能是出于成本考虑。黄亮表示,负载均衡对实时性要求高,如果要上异地灾备,成本是很高的。比如,A企业在上海有数据中心,同时在贵州设立异地灾备中心。当上海机房宕机,贵州可以接管。对稳定性要求较高的行业,如银行、医院等,监管会有强制要求,其他企业一般是量力而行。
脆弱的企业IT架构,未来要如何演变?B站此次故障,从虽然恢复时间达数小时,但幸运的是,故障发生在深夜的流量低谷,网友们的助推则让B站再次出圈:一个网站崩溃,其巨大流量竟能让其他网站也跟着出现故障。
这让市场看到了B站用户可怕的冲浪能力。7月13日,B站股价经历短线走低,盘中一度涨幅收窄,最低至3.26%。截至收盘还能保持涨幅3.18%,报110.38美元/股。截至发稿,B站市值为424亿美元。
“B站崩了”火遍互联网,背后是复杂而脆弱的企业IT架构|焦点分析 | 负载均衡
文章插图
B站股价走势 来源:富途牛牛
类似这样的宕机事件,突显出当下企业IT架构的脆弱。随着数字社会越来越成熟,企业IT架构一环扣一环,一个环节出现问题,就有可能一发而动全身,造成巨大损失。
信息安全问题也是防不胜防。2020年,微盟一核心运维员工对核心生产环境和数据进行删除,最后微盟公司花费超过2260万元用于支付数据恢复、商务赔偿、员工加班费用等。因删库事件,微盟股价跌幅超过8%,一夜损失将近11亿元。而2019年3月,谷歌云、阿里云、腾讯云就相继发生大规模宕机,腾讯云宕机的4小时内,仅腾讯游戏就损失高达千万元。
企业安全是实战出来的。经过微盟删库一事后,恐怕当前国内企业安全不会再给运维人员如此核心的权限。阿里云也是在经历支付宝527光纤挖断事件后,痛定思痛将可用性再提升一个数量级。
而如何考虑放在灾备中的运维成本?企业首先需要根据自身条件开始计算——哪些物理威胁或灾难企业无法承受,并对资产价值进行分析,确定恢复的优先级顺序,确定灾备方案。
灾备演练也很重要。以B站事件为例,数据和系统的恢复进度和灾备预案熟悉程度息息相关。黄亮表示,如银行、证券、医院等关键单位,基本定期做容灾演练,才能保证服务的稳定性。随着网络安全法、数据安全法的进一步推动实施,以后企业的IT架构合规要求只会越来越严,企业要想偷懒也不太可能了。
企业与各种故障和威胁搏斗的故事无止境。灾备一事,丰俭由人,本质还是看公司如何算账,愿意投入多少。B站崩了对各大企业的最大启示,也就是把“重视企业IT安全”写在明面上了。