记一次机房强电割接

admin 2024年10月18日23:18:06评论24 views字数 2322阅读7分44秒阅读模式

使用年限超过10年的老机房因线路老化,需要对老配电柜及各机柜配电单元(PDU)进行升级改造。将老的裸漏式空开换成新的带电流及能耗监测的列头柜,由列头柜统一对各机柜进行供电。

记一次机房强电割接

与机柜PDU相连的空开早期分为两路,分别为UPSA和UPSB。原配电柜380伏的输入分别接入两路UPS,两路UPS并机后采用并联的方式对各机柜进行供电。

原始方案并不打算更改UPS的并机工作方式,准备将UPS的输出从老的配电柜上断开,接入新的列头柜。原配电柜只保留UPS的输入,早期的输出开关从老的配电柜上移除后,机柜供电部分将从新的列头柜上引出。

在正式切割前查看了UPSA和UPSB的负载,发现A、B、C相负载不均衡。A、B、C三相输出分别为12KW、3KW、5KW。A相输出超出B相和C相很多,但UPS总体并未报警。原打算将两路UPS断掉一路,由其中一路UPS对整个机房供电。另一路处于维护模式接入新的列头柜。当一路割接完成后,恢复接好的一路并断开另一路。机房中的设备都是双电源,当列头柜接入UPS后可以将部分设备的电源接入新的列头柜PDU上,从而可实现不断电割接。

但在断开一路UPS后,剩下的一路UPS开始报警,动环监控提示负载超负荷,UPS过载。

记一次机房强电割接

两路UPS并机采用并联方式对机房供电,UPSA和UPSB共同负担整个机房的负载。当一路出现故障后,整个机房的负载将压到另一台上。UPS的额定功率为40KVA,单位换算成KW为32KW。当负载超过额定功率75%,UPS将会告警。当超过UPS的最大负荷,机房将会跳闸导致出现供电故障,即机房停电。

记一次机房强电割接

当停掉一台UPS后,单台UPS的负载直飙30KW,UPS设备出现不停声光告警。意识到单台UPS无法承载整个机房供电负荷,此时开始恢复关掉的那台UPS。在合上UPSA的输出开关的那一瞬间,机房电压出现波动。整个机房的照明和部分设备屏幕闪了一下,不到一秒钟的间隔听到设备风扇呜呜转动的声音:设备重启了!机房停电了!停了一秒!

检查发现并非所有机柜都出现宕机,分析原因应该是负载最大的那一相电,即A相电出现超负载,设备在空开合上的一瞬间出现了断电重启。

第一次强电割接失败!从机房断电到业务恢复大致花了三个小时,并在凌晨3点左右将业务恢复如初。

在事后复盘会上对操作流程及设备告警的时间点一一作了验证,得出的结论是单台UPS无法承载整个机房供电。使用并机方式,实际上是两台当一台用。当一台出现故障后,另一台UPS会因过载保护而断电,机房将出现宕机风险。通过实际UPS切换和实际操作情况已证实过载风险,解决的思路一是对UPS升级,由原单机容量40KVA升至80KVA。另一种思路是对机房设备进行梳理,对部分不重要的设备执行下线处理,减轻整个机房的用电负载。

在讨论后续整改方案的同时,机房正在上线其它项目。当上线一套5节点分布式存储,当设备上线后,UPS又出现新的情况。新的设备上线后,负载从之前的20KW上升至25KW,A相输出超过17KW。手机开始不停收到UPS过载告警。

记一次机房强电割接

经过UPS厂家检测后发现两台并机的UPS出现了负载平衡故障,类似跷跷板,负载在两台UPS上不停地跳,一边高一边低,UPS上也出现通讯故障代码。为解决UPS的负载平衡的问题,必须对UPS停机维护。UPS停机则整个机房都要做断电处理。

从周三开始对故障进行定位,经过会议讨论最终定下来在这周末进行整个机房的停机维护,并将上次列头柜的割接工作一并处理。通知了所有应用的维护厂商,有两天的时间做关机前的准备工作,涉及的设备有超融合、防火墙、核心交换机、数据库以及各种软件应用。整个停机操作大概花了1个小时,停掉的虚拟机数量超过400台。

因UPS双机并联并不能提高系统的稳定性,并且还引入了新的负载平衡及双机通讯故障。这次的割接方案定为将并机的UPS拆为两台独立工作的UPS,由UPSA和UPSB分别对各机房供电。最坏情况是一台UPS坏掉,机房中有一半的机柜失去电力供应。而并机后的UPS,一台故障将导致全机房出现电力供应故障。

下一步是对双电源的服务器进行负载测试,搞清楚双电源的工作模式到底是一主一备,还是两个电源同时进行工作。使用钳流表对双电源服务器进行电流测试后发现,当两路电源同时工作时,每路电流大概为1A。当断开一路服务器电源时,剩下的那个服务器电源的电流将升为2A。即双电源两个电源都在工作,并共同负担整个服务器的负载。双电源服务器当损坏一个电源后,单电源的负荷将加倍。

将两台并机的UPS拆开后,每台UPS分别对服务器的一路电源供电。新的列头柜重新对A、B、C相的电压进行了划分,尽量做到三相负载均衡。最终各空开电流情况如下:

记一次机房强电割接

调整后的三相输出相对之前重新达到平衡,三相输出功率分别为:

记一次机房强电割接

单台UPS的总功率为15KW左右,高峰时能达到20KW,虽然一台UPS出现故障后整个机房仍然有宕机风险,但相对之前三相不均衡的情况已经得到最大改善。后续的整改目标同样是控制机房新设备的上架,并做好UPS容量的升级准备。

第二次割接,从晚上11点开始进行割接。机房设备关机花费了近一个小时,接着是UPS的拆机检测,大概在凌晨3点左右新的列头柜已经接入UPS,后续是对各机房的PDU用测电笔进行电压测试,防止出现380伏双火线或短路的情况。在接入机房PDU时仍然出现了部分PDU接头松动的情况,后续开始对服务器电源进行拔线插线,整个过程大概花费两个小时,所有设备开机大概在早上5点左右完成。此时天已经亮了,经过两个小时的应用开机启动和调试,业务大概在上午7点左右恢复正常。

全文完。

如果转发本文,文末务必注明:“转自微信公众号:生有可恋”。

原文始发于微信公众号(生有可恋):记一次机房强电割接

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年10月18日23:18:06
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   记一次机房强电割接https://cn-sec.com/archives/1879213.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息