详细【盘点】近十年全球数据中心重大事故

admin

140344
文章

117
评论

2025年1月9日15:36:00评论21 views字数 7722阅读25分44秒阅读模式

安小圈

第584期

盘点 · 数据中心事故

一、火灾事故频发，数据中心 “火海” 求生

（一）韩国 SK 公司数据中心火灾

2022 年 10 月 15 日，韩国 SK 公司 C&C 板桥数据中心突发火灾，这场火灾受到了广泛关注。大火在大约 8 小时后才被扑灭，火灾致使数据中心断电，进而造成了韩国国民级聊天软件 Kakao Talk、主流电商平台 NAVER 等众多网络服务中断。

据《韩国时报》报道，此次火灾带来的影响极为严重，导致了约 3.2 万个服务器瘫痪，要知道韩国当时人口约为 5200 万，而数千万用户的服务都受到了波及。像 Kakao Talk 等服务直到一天之后才开始陆续恢复，并且数据中心客户表示，由于损失的服务器数量庞大，恢复过程远比预期的要长。

在火灾原因方面，经韩国警方和消防部门调查，初步研判是电气因素导致电气设备室电池周围起火所致。由京畿南部警察厅科学搜查队和消防部门相关人士 10 多人组成的鉴定组，对该数据中心进行勘查后发现，安装在地下三层电气设备室的 5 个电池机架全部烧毁，电池和机架附近似乎因电气因素失火。后续鉴定组还会考虑电池和机架本身缺陷、围配电线出问题等可能性，继续深入查明具体原因。

（二）湖南电信荷花园大厦起火

2022 年 9 月 16 日，位于湖南省长沙市芙蓉区的中国电信股份有限公司长沙分公司荷花园大院第二长途电信枢纽楼发生火灾事故。这起火灾共造成外墙过火面积约 3600 平方米、室内过火面积约 400 平方米，幸运的是无人员伤亡，不过统计直接财产损失达 791.36 万元，是一起因火源和可燃物管理不善引起的在社会面有较大影响的一般生产安全责任事故。

事发当时，电信枢纽楼工作人员李某霞与卿某站在东附楼一楼门口，李某霞发现电信枢纽楼西北角第 6 层至第 7 层处有明火和浓烟冒出，随即示意卿某查看，卿某马上向郭某（中国电信长沙分公司安保后勤部管理人员）报告，郭某通知消防控制室利用应急广播喊话，疏散楼内工作人员，并拨打 119 报火警。同一时间，路过东二环的盛某也发现电信枢纽楼西北侧外墙起火，拨打了 119 报火警。

长沙市消防救援支队接到报警后，迅速提高调派等级，一次性调集 21 个消防救援站的 59 辆消防车、330 名消防救援人员赶赴现场处置。经过努力，17 时 10 分，外墙明火基本熄灭，19 时 37 分，第 23 层、29 层、30 层残余火点被扑灭，楼内 1024 人全部安全疏散，消防救援人员还成功营救了 1 名被困人员。

而关于此次火灾的原因，经调查认定，直接原因是未熄灭的烟头引燃电信枢纽楼北侧第 7 层室外平台的瓦楞纸、朽木、碎木、竹夹板等可燃物，进而引燃建筑外墙装饰铝塑板造成火灾。火灾蔓延扩大则存在几方面因素：一是外墙施工辅料易燃可燃，电信枢纽楼第 7 层至 39 层外墙装饰材料为铝塑板，其整版属于难燃材料，但黑色夹心属于易燃材料，此外还使用了黑色胶条、白色泡沫等易燃可燃材料辅助施工；二是外墙铝塑复合板幕墙竖向未进行防火隔断，外墙施工时竖向未做防火隔断，外墙空腔结构上下贯通形成烟囱效应使得火焰蔓延迅速；三是受建筑结构及当天风向影响，起火初期火焰垂直向上蔓延到达起火点上方第 11 层避难层高度后，随风向转变，逐渐蔓延至主楼西侧外墙，并顺势向上蔓延，经过敞开式阳台门窗火势蔓延进入办公房间。

此外，这起事故也暴露出了相关单位存在的诸多问题，中国电信长沙分公司作为电信枢纽楼的产权单位、消防安全重点单位的责任主体，存在安全生产和消防安全主体责任不落实等情况，后续也依规依纪依法对事故中 25 名责任人员进行了严肃追责问责，并对事故中 6 名责任人员依法给予行政处罚。

（三）阿里云新加坡数据中心火灾

2024 年 9 月 10 日，阿里云新加坡可用区 C 数据中心发生了一场令人揪心的火灾。当天早上约 8 点，机房内突发火灾，火势凶猛且持续时间长，截至 11 日下午 8 点，历经 36 个小时，仍未完全扑灭。

这场火灾让众多科技公司受到严重影响，像 Lazada 和字节跳动等公司托管的服务严重中断，使用云平台的阿里内部团队和卖家也出现大面积错误。事故发生在数据中心一栋建筑的电池室内，有群众在事发前听到爆炸声，随后数据中心就冒出滚滚浓烟，现场能闻到一股呛鼻的烧焦味，据了解是锂电池爆炸引发了火灾，并致使火势迅速蔓延开来，新加坡消防局公告显示，火患波及数据中心三楼阁楼内的两个电池房、两个电源房和一个设备储藏室。

受此次火灾影响，阿里云的关键云产品受到冲击，包括云数据库 Redis、MongoDB、RDS MySQL，对象存储 OSS，表存储 OTS 以及云原生大数据计算服务 MaxCompute 等。对于跨境电商、在线教育等高度依赖云服务的行业而言，服务中断意味着用户体验下滑，甚至带来直接的经济损失，部分用户面临网站访问缓慢、API 调用失败、云存储服务不可达等一系列问题。

在后续处理方面，新加坡消防局一直在现场处理风险，阿里云运维工程师等待进入机房。若现场评估结果无法就地恢复，就将实施服务器设备迁移恢复方案。期间，也不断有进展更新，比如 9 月 11 日凌晨，大部分受到网络影响的云产品已恢复正常服务，但剩余断电的机房业务仍需等待物理条件的恢复；11 日 20:23 时，消防部门仍在处理大楼现场风险，运维工程师还在等待获准进入机房大楼，若现场评估后不具备原地恢复的物理条件，应急小组将执行服务器设备迁移恢复预案；到了 9 月 12 日 17:25，运维人员才获准进入大楼一层区域，正在现场评估安全迁移条件，并对硬件设备进行紧急保全。

（四）OVH 数据中心火灾

2021 年 3 月 10 日，欧洲云计算巨头 OVH 位于法国莱茵省首府斯特拉斯堡的数据中心发生了严重火灾。这场火灾使得 OVH 在该区域拥有的 4 个数据中心全部暂停服务，其中一座数据中心被完全烧毁，另一座的数据中心服务器损毁了三分之一。

火灾发生后，造成的影响极为广泛，瘫痪的法国政府、企业与公共事业网站达到约 360 个，一些游戏开发商在欧洲的业务也受到牵连，例如游戏《Rust》表示，有 25 台欧洲服务器完全损毁，并且没有备份，数据无法被修复。

起初 OVH 短时间调查后解释，此次起火可能因 UPS 引起，不过在一年后，法国官方事故调查机构发布的报告显示，这场灾难更大可能是由电力室逆变器周围的湿气引起的。这一事件也凸显出数据中心火灾事故原因调查的复杂性，以及火灾对于各类业务正常运转带来的巨大冲击，警示着行业需要不断加强数据中心的安全防护和风险应对措施。

二、电气故障 “作祟”，引发爆炸与宕机

（一）谷歌数据中心电气爆炸

当地时间 2022 年 8 月 8 日，美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生了一起令人瞩目的电气爆炸事故。当时，3 名电工正在数据中心大楼附近的一个变电站工作，突然发生了电弧闪光，也就是电气爆炸，导致这 3 名电工不同程度受伤，其中两人被救护车紧急送医，还有一人则是被直升机送往了内布拉斯加州医疗中心，幸运的是，三人意识尚清晰，还可以说话。

这场爆炸事故带来的影响远不止于此，在事故发生后，全球多地的谷歌服务都受到了牵连。像谷歌地图、谷歌搜索等服务出现了中断的情况，有相关数据显示，该故障影响了全球 40 多个国家或地区的至少 1338 台服务器，范围涵盖美国、澳大利亚、南非、肯尼亚、以色列、南美洲部分地区以及欧洲和亚洲的部分地区，众多用户在使用谷歌相关服务时遇到了阻碍。

谷歌随后向媒体发表声明，证实了这起意外属于电力事故，不过并未对外披露具体的事故原因。谷歌数据中心在全球网络服务中占据着重要地位，此次电气爆炸事故也给整个行业敲响了警钟，提醒着各方要高度重视数据中心电气设施的安全维护与管理，避免类似情况再次发生。

（二）Telstra 英国数据中心火灾

2021 年 8 月 27 日，澳洲电信 Telstra 位于英国首都伦敦的托管数据中心突发火灾，这场火灾直接导致了数据中心宕机，给诸多业务的正常运转带来了严重影响。

火灾发生后，其造成的断电范围较大，致使一半的大楼陷入断电状态。当时，现场的消防人员迅速响应，共调集了 4 辆消防车和 25 名消防员到场救援。虽然从火势情况来看，只是烧毁了三层供应间的一小部分区域，但由于大火使得支撑母线的断路器跳闸，常规供电线路无法正常工作，工程师们不得不通过启动发电机来恢复电力供应，尽力保障数据中心相关设备能够重新运转起来。

经过相关专业人士依据公开资料进行分析，推测此次火灾事故很有可能是由 UPS（不间断电源）故障引起的。原本数据中心有着温度保障、消防灭火以及 UPS 预测性维护、UPS 预防性维护等多重保障措施，然而这次火灾却击穿了这些保障防线，最终导致火灾发生并造成了宕机等一系列后果，凸显出数据中心在应对突发状况时，各保障环节紧密配合以及确保关键设备稳定运行的重要性。

（三）微软 Azure 宕机

在 2018 年 9 月 4 日，微软云服务 Azure 遭遇了一次严重的宕机事故。当时，美国中南区数据中心附近出现了雷击等恶劣天气事件，而雷击导致了该数据中心冷却系统的电压暴增。

冷却系统对于数据中心的正常运行起着关键作用，电压的异常暴增使得多个 Azure 服务出现了连接问题，客户储存在中南区数据中心的资源受到了严重影响。许多依赖 Azure 服务的企业和用户，在这期间无法正常访问和使用相关资源，比如一些企业的办公系统、线上业务平台等都因为这次宕机而陷入停滞，给业务开展、客户服务等方面都带来了诸多不便，影响范围颇为广泛。

这次事件也再次让人们意识到，即使是像微软这样的行业巨头，其数据中心在面对自然灾害等意外情况时，也存在着一定的脆弱性，所以在数据中心的建设、运营以及风险防范等环节，都需要不断完善和强化应对各类突发状况的能力，尽可能减少宕机事故发生的概率以及降低其所带来的损失。

三、极端天气 “发难”，数据中心遇挑战

（一）英国高温致数据中心宕机

2022 年夏天，全球多地遭遇极端高温天气，英国也未能幸免，并且这罕见的高温给当地的数据中心带来了严峻挑战。在 7 月 16 日，英国伦敦的气温飙升至 42℃，这样的高温对于数据中心的正常运行来说，无疑是个巨大考验，位于伦敦的谷歌云和甲骨文数据中心就因高温出现了故障，进而导致系统宕机。

甲骨文公司的数据中心内，两台制冷系统不堪高温重负，出现了故障。制冷系统一旦失灵，数据中心内部的气温便开始节节攀升。随着温度越来越高，一些系统为了保护自身，自动采取了保护措施，关闭了相关作业，这使得部分用户在使用数据时遇到了延迟问题，给正常的数据交互和业务开展带来了不便。

而谷歌数据中心这边，同样也是冷却系统在高温下 “败下阵来”，出现了故障，进而导致了该区域的部分容量故障。具体表现为虚拟机（VM）终止运行，还有一小部分客户的机器受到了损耗。为了避免机器进一步损坏，谷歌方面不得不主动关闭了机房内的一些机器。不过，谷歌表示在此次事件中，只有 “一小部分用户” 受到了影响。

这次英国高温导致的数据中心宕机事件，也凸显出数据中心对于环境温度的依赖程度，以及应对极端天气时在制冷等方面保障措施的重要性，警示着行业需要进一步思考如何强化相关设施应对极端高温的能力，确保数据中心的稳定运行，降低因极端天气对用户造成的不利影响。

（二）汛情致河南多机房断电

2021 年 7 月，河南遭遇了极端暴雨天气，短时间内降雨量极大，城市内涝严重，这样的汛情给当地多个数据中心带来了沉重打击，致使不少机房停止服务。

当时，像河南移动就发布公告称，枢纽机房受到影响而断电，移动业务无法正常办理。还有海腾郑州 BGP 机房、华中郑州市 BGP 机房等数据中心也陷入困境，其所在区域市电中断时间超过了 1 至 2 个小时，在市电中断后，这些机房只能依靠柴油发电机来维持运转，也就是所谓的柴发带载。然而，由于暴雨导致道路积水严重，附近的加油站根本无法将油供应到机房，而机房自身存储的油量又是有限的，这就使得电力供应面临极大的不确定性。

除此之外，还有西部数码郑州区域、晋江文学城、河南省产权交易中心等众多用户也纷纷发布通知，表明服务因机房受汛情影响而中断。甚至当时有照片显示，部分位于河南的数据中心还出现了机房进水的情况，这对于机房内的设备来说，是极为危险的状况，一旦设备被水浸泡，很可能直接导致设备受损，严重情况下，IT 设备可能直接报废，设备中存储的数据也会面临丢失的风险。

在这样的紧急情况下，各相关单位也采取了不同的应急措施。例如一些数据中心在预估到可能出现长时间电力中断前，考虑到用户数据安全，选择临时中断服务，避免因意外断电等情况造成数据损坏等更严重的后果。同时，通信运营商等相关机构也积极组织力量，尝试抢修电力、保障通信等，尽力降低汛情对数据中心以及相关业务的影响，但整体而言，这次汛情给河南的数据中心运营带来了巨大挑战，也让人们更加重视在极端天气下数据中心的容灾能力建设。

四、其他意外状况，扰乱数据中心运行

（一）网易游戏机房服务器宕机

2021 年 11 月 3 日晚间，众多网友反映网易旗下多款游戏出现网络故障，像《阴阳师》《第五人格》《绝对演绎》《光遇手游》《倩女幽魂》等游戏都受到了影响，出现了无法登录、断连的情况。据《绝对演绎》等游戏官博透露，原因是机房过热导致服务器宕机，当时机房传来报警，提示温度过高，部分服务器因过热而宕机，即便重新开启空调也没能解决问题，涉及的游戏众多，一时也无处借服务器应急。

好在大约 3 小时后，网易游戏各服务器恢复了正常登录。不过网易方面并未就此次故障做统一回复，倒是有技术人员采取了别样的应急措施，比如有位技术大哥用干冰放在服务器上尝试降温解决问题，也多亏了工程师们的默默付出，才让这次故障的影响尽可能降低。这次事件也凸显出机房环境温度控制对于游戏服务器稳定运行的重要性，以及在面对突发状况时快速响应和解决问题的必要性，否则大量玩家的游戏体验会受到严重影响，甚至可能引发玩家对游戏运营的不满等一系列后续问题。

（二）2016 美国大宕机

2016 年 10 月 21 日，一场始于美国东部的大规模互联网瘫痪席卷了全美，给众多美国用户带来极大的不便，也引发了广泛的恐慌。包括 Twitter、Spotify、Netflix、Airbnb、GitHub、Reddit 以及《纽约时报》等主要网站都受到黑客攻击，无法正常登录使用。

造成这次大规模网络瘫痪的原因是 Dyn Inc. 的服务器遭到了 DDoS 攻击（拒绝服务攻击），黑客利用合理的服务请求去占用尽可能多的服务资源，使得用户无法得到服务响应。当天黑客一共发动了三波网络攻击，第一波黑客攻击发生在美东时间上午 7 点 10 分左右，工作人员进行了抢修，在当日上午 9 点半左右恢复了运营。但上午 11 点 52 分，又遭到了第二波攻击，而第三次攻击则出现在下午 5 点。

位于美国新罕布什尔州曼彻斯特市的 Dyn 是美国主要域名服务器（DNS）供应商，DNS 作为互联网运作的核心，主要职责是将用户输入的内容翻译成计算机可以理解的 IP 地址，从而将用户引入正确的网站，一旦遭到攻击，用户自然就没办法登录网站了。并且 Dyn 首席策略师约克还提到，承载互联网基础设施核心的 Dyn 以及其它公司成为越来越多 DDoS 的攻击目标，不仅遭受攻击数量和种类大增，而且攻击时长以及遭受攻击的复杂性也都在增加，尤其是随着智能产品的广泛使用，黑客可以在用户不知情的情况下，利用软件去控制成千上万联网的设备，比如相机、家庭路由器等，通过海量的互联网流量去冲击一个目标。事后，美国国土安全部和 FBI 也展开了调查，不过截至 23 日仍然没有查明幕后黑手。

（三）2015 支付宝宕机事故

2015 年 5 月 27 日下午，部分用户反映其支付宝出现网络故障，账号无法登录或支付，这一情况随后在全国多省市蔓延，大量支付宝用户无论是在手机端还是电脑端，都出现了无法登陆、余额错误等问题，拥有将近 3 亿活跃用户的支付宝遭遇了大面积访问故障，用户们普遍担心账户资金安全问题，也有用户反映出现账户余额不同步的现象。

支付宝官方很快做出回应，称是由于杭州市萧山区某地光纤被挖断，影响了支付宝一个主要机房的正常运转，导致出现这样大规模的故障。蚂蚁金服方面表示，支付宝工程师紧急将用户请求切换至其他机房，尽力让受影响的用户逐步恢复。到了晚上 7 点 20 分，支付宝方面宣布用户服务已经恢复正常。

不过对于这一原因，金融和互联网界并未完全认同，中国电信技术人士认为，有可能是支付宝多个数据中心之间的自动流量切换机制出现问题，只能人工介入，还提出了其他几种可能，比如支付宝遭到了攻击、路由配置瘫痪或者云服务器瘫痪等。某大型国企网络运维人员则从技术角度分析，此次事故可能是内部应用模块出了问题，未经严格验证的应用被统一升级后，被意外触发到未知状态，进而导致出现此类问题。

这次事故因为支付宝在金融领域的系统重要性程度，以及其独特的基于云计算的 IT 技术架构，受到了各方的高度关注。支付宝底层的基础云平台技术，不仅支撑着支付宝，也是浙江网商银行的基础，未来还计划输出给其他金融机构，所以其系统的安全保障能力更需高标准、严要求。2015 年 5 月 28 日凌晨，支付宝官方还发布声明，对此次因光纤被挖断而断网事件进行了道歉，

并表示将深刻反思此次事件，进一步加强对基础设施的防护和监控力度，确保类似事件不再发生。

此次事件也让支付宝认识到，在金融科技快速发展的当下，系统的稳定性和安全性至关重要。一方面，支付宝将加大在技术研发和基础设施建设方面的投入，不断优化云计算架构，提升系统的抗风险能力。例如，加强对数据中心的物理防护，增加冗余备份线路，确保在突发情况下能够快速切换，保障业务的连续性。

另一方面，支付宝将加强与相关部门和企业的合作，共同维护金融科技生态的安全稳定。与电信运营商加强沟通协作，建立更加高效的应急响应机制，以便在网络故障发生时能够迅速采取措施进行修复。同时，与其他金融机构分享经验教训，共同提高行业的整体安全水平。

未来，支付宝将以此次事件为契机，不断提升自身的技术实力和服务质量，为用户提供更加安全、便捷、高效的金融服务。同时，也将积极推动金融科技行业的健康发展，为构建更加稳定、可靠的金融体系贡献力量。

END

【原文来源：数据中心之家 】

详细【盘点】近十年全球数据中心重大事故