-
22:00 开始对物理机关机下架。 -
22:00 - 23:00 服务器下架装车 -
23:00 - 00:00 货拉拉运输服务器至分院区机房 -
00:00 - 02:00 服务器上架 -
02:00 - 03:00 集群就绪,虚拟机开机 -
03:00 - 05:00 业务陆续恢复、验证 -
05:00 - 07:00 业务观察、听取临床反馈
-
SDN网关 武汉雨滴 3名现场+2名线上 -
机房搬迁主体 武汉德发 5名 -
数据库支持 云和恩墨 2名 -
超融合厂商 深信服 3名 -
应用保障 东软 2名现场+1名线上
-
17:00 部署5G CPE 时发现部分服务器网段不通,联系电信后在19:00左右解决。 -
20:00 开始陆续关停虚拟机,截止到 22:00 仍然有大量虚拟机没有关机,为不影响进度,通过集群管理软件强制关机。 -
雨滴的SDN网关依赖的虚拟机通过线上迁移的方式提前完成迁移,分散在两个院区的主备设备通过切换线路实现主备切换。终端网络在22:30提前恢复,不用等到超融合在02:00恢复,这点比计划提前。 -
22:30 SDN网关切换后,互联网出现部分通部分不通的情况。分别排查SDN网关、防火墙、交换机后发现是主院区核心交换机默认路由配置错误导致的。互联网在23:00恢复。 -
23:00 - 02:00 业务停机期间,HIS 无法登录,通过手工更改自动更新配置文件,暂停自动更新服务。保障收费、药房窗口可以正常进行划价、发药。 -
23:30 收费窗口患者缴费出现纠纷,原因是聚合支付业务受影响,手机支付等业务无法正常进行。在窗口指导收费员变更收费方式。 -
业务恢复后,部分业务不正常。发现原服务器带的外接设备没有随行搬迁,导致指纹识别功能异常。返回老院区将遗落的设备送到新院区。
-
分管服务器的工程师对自己分管的服务器不熟悉,机房迁移中出现误停服务器的情况。 -
PACS业务服务器数量达40台以上,并且都接的有NAS存储。在恢复过程中耗时比较多,一直到08:00左右才全部恢复。管服务器多的人在迁移时需要其他人协助,一个人容易忙中出错。 -
HIS等核心业务对服务器的依赖没有梳理清楚,导致服务器关机后才发现业务中断,临时调整,准备不充分。 -
5G验收环节没有验证服务器网段的通断,导致后期扯皮。 -
业务恢复耗时太多,体现出服务器分管工程师的日常管理不足,有太多服务器常年不停,已经忘了如何关停和恢复业务,并依赖厂家配合,甚至完全丢给厂家维护,失去控制权。 -
物理服务器插线环节是对照电脑中的线路图进行的,两台24口光纤交换机接服务器接线花了半个小时。拔线容易,接线难。物理搬迁中,线路梳理尤其重要,要留出足够的时间接线。
原文始发于微信公众号(生有可恋):机房搬迁复盘
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论