在现代世界中,任何企业都可能不时遭受数据损坏和关键任务运营中断的困扰。然而,即使是短暂的服务中断也会损害客户的信任,并最终导致重大损失。企业,尤其是在虚拟机上运行服务的企业,必须创建虚拟机灾难恢复 (DR) 计划,以确保高可用性和业务连续性。我们在这里讨论故障转移和故障恢复在灾难恢复过程中的作用,并讨论了如何使用这些策略来保护业务。
什么是虚拟机灾难恢复?
虚拟机灾难恢复
是在灾难发生后将业务基础架构恢复到正常状态的过程。灾难可能意味着任何使组织的运营面临风险的事件,包括自然灾害和人为灾害。虚拟机容灾的本质是恢复组织的虚拟化环境。任何灾难恢复流程的最终目标都是几乎立即恢复业务运营并保护最关键的数据,以确保业务连续性。
灾难恢复措施分为三种类型。
故障转移和故障恢复之间的区别
灾难场景几乎总是出乎意料地发生。在灾难恢复事件中,在造成任何重大损害之前尽快恢复企业的虚拟化基础架构至关重要。故障转移和故障回复,可以帮助确保业务继续正常运行,即使生产站点受到灾难影响也是如此。
什么是故障转移?
使用 VM 副本进行故障转移
什么是故障恢复?
作为灾难恢复一部分的故障转移和故障回复过程
在DR事件期间,将启动故障转移和故障回复操作。该过程执行如下:
-
将生产站点的源虚拟机复制到灾备站点。 VM 副本的虚拟磁盘上的数据与复制时源 VM 上的虚拟磁盘上的数据相同。如果发生灾难(或者预计会发生灾难),则会启动到 VM 副本的故障转移。
-
在故障转移期间,系统工作负载将转移到灾难恢复站点。 但是,随着操作的继续,副本 VM 中可能会发生一些更改。保存此类数据非常重要,因为原始系统处于离线状态,未注册所做的任何更改。因此,所有更改仅写入 VM 副本的虚拟磁盘。 -
一旦灾难的负面后果得到纠正(或可能的威胁已经过去),主站点就可以照常运行。 这样就执行了失败回滚操作;所有工作负载都从灾难恢复位置发送回生产站点,并且源虚拟机接收更新的数据。原始 VM 和 VM 副本变得同步。
虚拟机灾难恢复中故障转移和故障回复的最佳实践
确保合规:
一些组织使用非常敏感和机密的数据,因此需要遵守不同的合规性要求,比如国外需要考虑HIPAA 或 PCI DSS 等法规。如果这适用必须检查您的故障转移和故障恢复的灾难恢复策略是否满足适用的安全标准。
检查许可:查看软件文档并确定应用程序堆栈中是否存在任何许可限制。如果是这样,必须提前解决任何问题并确保满足所有要求。
定义灾难恢复计划的范围:VM DR 计划的范围确定应保护哪些系统并确定预期结果以及任何可能的限制。确保虚拟环境具有足够的技术能力来涵盖计划的所有方面。
选择可靠的数据保护解决方案:在虚拟环境中安装获得适当许可的数据保护解决方案对于高效性能和无缝集成至关重要。出于灾难恢复规划目的,必须确定产品恢复虚拟基础架构并将所有操作恢复到生产站点所需的时间。
决定谁负责故障转移和故障恢复:管理层应指定恢复团队的成员,并为每个团队成员分配具体的职责。确定谁负责监视故障转移和故障回复操作,以避免在重要的实际恢复场景中出现混乱。
对IT员工进行故障转移和故障回复操作培训:继上一点之后,请确保IT员工具备执行故障转移和故障回复操作所需的知识和资格。负责的员工应做好充分准备,以防出现意外情况;他们必须对运营有深入的了解,以便能够相应地适应并处理出现的任何问题。
查看服务级别协议 (SLA):服务级别协议是服务提供商与其客户之间的合同,确定提供商应满足的要求和服务标准。因此,请确保 SLA 是最新的,并且它们的适用性扩展到灾难恢复环境。
定义
-
考虑将灾难恢复站点转变为永久站点的可能性。
业务可能会受到巨大灾难的影响,导致无法恢复主数据中心。因此,请考虑将灾难恢复站点转变为永久站点的可能性,以便可以提前为这种规模的事件做好准备。显然,这是一种昂贵的解决方案,消耗大量资源并需要主要设备、软件和设施成本。即使您不立即执行该计划,考虑必须做什么也是有益的。 -
测试故障转移操作。
通过测试故障转移过程,您可以检查您的虚拟基础架构是否可以在灾难恢复站点上正确恢复,并验证预装的应用程序是否可以在生产站点禁用时成功运行。 -
测试故障回复操作。
这样,就可以确保公司的运营能够从灾难恢复站点成功恢复到原始站点。 -
全面测试灾难恢复计划。
测试整个灾难恢复计划也是值得的;它可以通过模拟灾难恢复事件来帮助识别计划中的弱点。因此,可以改进和调整组织应用的灾难恢复策略。有缺陷且过时的灾难恢复计划可能会严重破坏组织的业务连续性。
备份和复制中的故障转移和故障恢复
灾难恢复中的故障转移
故障转移操作是大多数 SR 工作流程不可或缺的一部分。仅当您之前创建了要保护的源虚拟机的副本时,才能执行涉及故障转移的站点恢复;当灾难发生时,这些被用作故障转移的目标。工作负载从受影响生产站点的源虚拟机传输到灾难恢复站点的虚拟机副本。
计划故障转移
要求操作简单,即可将工作负载从主站点移动到灾难恢复站点。因此,尽管可能会丢失一些数据,但可以保证最短的停机时间。
重新保护灾难恢复站点的虚拟机
灾难恢复中的故障恢复
仅当 SR 工作流中发生故障转移后才能执行故障恢复。一段时间后,当主站点备份并运行时,您可以在原始源虚拟机上恢复运行操作。为此,可以从已替换原始VM的VM副本故障恢复到此VM。如果虚拟机工作负载无法传输回主生产站点(例如,因为无法恢复),则可以将它们传输到您选择的任何其他新位置,以获得比灾难恢复站点更长期的解决方案。故障恢复可以在生产模式或测试模式下运行。
请注意,测试完成后,故障恢复过程中对虚拟机所做的所有更改都将被丢弃,并且虚拟环境将恢复到故障恢复前的状态。在测试模式下,站点恢复作业可以按需或按计划运行。
当希望在DR故障转移后恢复生产环境时,会执行生产模式下的故障回复。在生产模式下,只能按需执行站点恢复作业。生产模式下的故障恢复基本上遵循与测试模式下的故障恢复相同的步骤。但是,从虚拟机副本到源虚拟机的复制会执行两次,以确保过程中数据零丢失。复制操作完成后,原始源虚拟机(位于生产站点)将打开电源,而灾难恢复站点的虚拟机副本将关闭。
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论