机房搬迁复盘

admin 2024年12月17日11:27:40评论7 views字数 2354阅读7分50秒阅读模式
因院区门诊楼改造,原门诊楼数据中心机房拆迁,机房设备需要迁移至分院区灾备机房。
原计划在一周内分三次将主机房设备搬空,分三个晚上对主机房内的服务器、存储、安全设备进行迁移。申请的停机时间是周一、周三、周五的晚8点至第二天的上午7点。
经评估后认为影响太大,第一方案被否。要求分三次在每个周末进行,并且要压缩停机时间。
第二次报上去的方案是放弃停机迁移,改为热迁移。在分院区搭建一套备用系统,通过院区专线将系统通过集群间迁移至分院区。因第二方案对临床业务部门影响最小被采纳。但设备、人员配合消耗极大。原计划在6月份迁移完成,但备用系统一直到11月分才陆续采购到位。系统迁移持续了半年之久,数据库通过灾备切换的方式顺利迁移,切换IP加准备工作在半个小时内完成。虚拟机因集群资源不足,半年内只迁移了200台左右。原集群还剩150台虚机待迁移。期间将对业务影响不大的安全设备、二线存储、带负载功能的CA设备一并提前进行了迁移。
最终机房中还剩一套13节点超融合集群,5节点的分布式存储、一套数据库备集群(主集群已切换至分院区),以及一些SDN网关和零星服务器。因门诊楼拆迁计划提前,无法再按线上迁移的方案缓慢进行。最终决定最后一批设备通过停机迁移的方式搬迁至分院区,分院区至主院区距离20公里,搬迁车辆预计在路上耗时1小时。
12月9日向上提交了初版搬迁方案:申请停机时间为13号20:00至14号07:00,计划将停机时间控制在业务低峰的周五晚上进行,在第二天8点门诊开诊前恢复。申请停机时间11个小时,期间对服务器进行停机需要花费2小时,设备下架1小时,运输2小时,上架3小时,恢复业务给3小时。共计10小时,额外提供1小时的突发情况冗余。
方案报上去后被否,原因是停机时间过长,对临床影响太大。要求继续压缩停机时间,并制订应急预案。
12月9日经过三轮修改,细化后的方案为:
对业务进行划分,分为核心业务(HIS、LIS、PACS、急诊系统、护理系统),和边缘系统(财务系统、报修系统、体检、血透、病案、冷链、智能药柜等)。边缘系统计划在20:00~21:00进行停机,核心系统推迟到21:00-22:00停机。
搬迁计划时间线为:
  • 22:00 开始对物理机关机下架。
  • 22:00 - 23:00 服务器下架装车
  • 23:00 - 00:00 货拉拉运输服务器至分院区机房
  • 00:00 - 02:00 服务器上架
  • 02:00 - 03:00 集群就绪,虚拟机开机
  • 03:00 - 05:00 业务陆续恢复、验证
  • 05:00 - 07:00 业务观察、听取临床反馈
因核心数据库已经提前迁移,除了受影响的应用服务器外,HIS等数据库服务是正常的。当晚迁移SDN网关大概会断网几个小时,网络会在02:00集群恢复的第一时间恢复。也就是22:00-02:00 依赖SDN网关的终端会无法使用。
考虑到收费窗口、药房、急诊等特殊部们需要做应急保障。讨论后的方案是使用单机系统,提供药品划价等基本功能保障。但考虑到数据库没有挂,只是接入层网络不通,于是替换为5G方案。5G方案可以保障在核心交换机没挂的情况下绕过院区接入层和汇聚层直接将网络打通。5G方案一般用在没装修的诊室、空旷的义诊区等没网的地方。此次的迁移方案中,5G方案作为重点区域保障手段的补充。
12月11日周三,所有第三方公司支持人员到位:
  • SDN网关 武汉雨滴 3名现场+2名线上
  • 机房搬迁主体 武汉德发 5名
  • 数据库支持 云和恩墨 2名
  • 超融合厂商 深信服 3名
  • 应用保障 东软 2名现场+1名线上
周三开始对设备和网口进行标记,并预备在搬迁过程中可能损坏的备用设备,提供三台备用服务器及若干交换机以备不时之需。
实际搬迁过程中还是出现突发情况。
复盘过程
  • 17:00 部署5G CPE 时发现部分服务器网段不通,联系电信后在19:00左右解决。
  • 20:00 开始陆续关停虚拟机,截止到 22:00 仍然有大量虚拟机没有关机,为不影响进度,通过集群管理软件强制关机。
  • 雨滴的SDN网关依赖的虚拟机通过线上迁移的方式提前完成迁移,分散在两个院区的主备设备通过切换线路实现主备切换。终端网络在22:30提前恢复,不用等到超融合在02:00恢复,这点比计划提前。
  • 22:30 SDN网关切换后,互联网出现部分通部分不通的情况。分别排查SDN网关、防火墙、交换机后发现是主院区核心交换机默认路由配置错误导致的。互联网在23:00恢复。
  • 23:00 - 02:00 业务停机期间,HIS 无法登录,通过手工更改自动更新配置文件,暂停自动更新服务。保障收费、药房窗口可以正常进行划价、发药。
  • 23:30 收费窗口患者缴费出现纠纷,原因是聚合支付业务受影响,手机支付等业务无法正常进行。在窗口指导收费员变更收费方式。
  • 业务恢复后,部分业务不正常。发现原服务器带的外接设备没有随行搬迁,导致指纹识别功能异常。返回老院区将遗落的设备送到新院区。
复盘总结
  • 分管服务器的工程师对自己分管的服务器不熟悉,机房迁移中出现误停服务器的情况。
  • PACS业务服务器数量达40台以上,并且都接的有NAS存储。在恢复过程中耗时比较多,一直到08:00左右才全部恢复。管服务器多的人在迁移时需要其他人协助,一个人容易忙中出错。
  • HIS等核心业务对服务器的依赖没有梳理清楚,导致服务器关机后才发现业务中断,临时调整,准备不充分。
  • 5G验收环节没有验证服务器网段的通断,导致后期扯皮。
  • 业务恢复耗时太多,体现出服务器分管工程师的日常管理不足,有太多服务器常年不停,已经忘了如何关停和恢复业务,并依赖厂家配合,甚至完全丢给厂家维护,失去控制权。
  • 物理服务器插线环节是对照电脑中的线路图进行的,两台24口光纤交换机接服务器接线花了半个小时。拔线容易,接线难。物理搬迁中,线路梳理尤其重要,要留出足够的时间接线。
全文完。

原文始发于微信公众号(生有可恋):机房搬迁复盘

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年12月17日11:27:40
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   机房搬迁复盘https://cn-sec.com/archives/3518163.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息