网络安全知识:故障转移和故障恢复

admin 2024年4月29日11:10:14评论21 views字数 6097阅读20分19秒阅读模式

在现代世界中,任何企业都可能不时遭受数据损坏和关键任务运营中断的困扰。然而,即使是短暂的服务中断也会损害客户的信任,并最终导致重大损失。企业,尤其是在虚拟机上运行服务的企业,必须创建虚拟机灾难恢复 (DR) 计划,以确保高可用性和业务连续性。我们在这里讨论故障转移和故障恢复在灾难恢复过程中的作用,并讨论了如何使用这些策略来保护业务。

什么是虚拟机灾难恢复?

虚拟机灾难恢复

是在灾难发生后将业务基础架构恢复到正常状态的过程。灾难可能意味着任何使组织的运营面临风险的事件,包括自然灾害和人为灾害。虚拟机容灾的本质是恢复组织的虚拟化环境。任何灾难恢复流程的最终目标都是几乎立即恢复业务运营并保护最关键的数据,以确保业务连续性。

灾难恢复措施分为三种类型。

预防措施:旨在防止事件发生。
纠正措施:目的是在发生灾难时修复系统。
侦查措施:用于识别可能的风险并减轻风险。

故障转移和故障恢复之间的区别

灾难场景几乎总是出乎意料地发生。在灾难恢复事件中,在造成任何重大损害之前尽快恢复企业的虚拟化基础架构至关重要。故障转移和故障回复,可以帮助确保业务继续正常运行,即使生产站点受到灾难影响也是如此。

什么是故障转移?

故障转移是从主生产中心转移关键任务工作负载并在异地恢复系统的过程。故障转移的主要目标是减轻灾难或服务中断对业务服务和客户的负面影响。当遇到软件或硬件故障时,可以通过故障转移到其副本来快速恢复受影响的虚拟机。

使用 VM 副本进行故障转移

在故障转移期间,远程站点上的虚拟机副本将启动以替换生产站点上的原始虚拟机。可以故障转移到最新的恢复点,该恢复点本质上代表特定时间点的虚拟机。尽可能频繁地运行复制作业可以让您创建多个恢复点,从而确保在发生灾难时将数据丢失降至最低。故障转移到副本是一种经济高效的解决方案,适用于发生硬件或软件故障时的灾难恢复。
故障转移集群
故障转移群集代表一组独立的计算机,它们协同工作以确保应用程序和服务的高可用性。故障转移集群由运行虚拟机的两个或多个互连的服务器(或节点)和保存虚拟机文件的共享存储组成。如果其中一台服务器发生故障,这些虚拟机将在另一台服务器上恢复。
故障转移群集仅保护虚拟机免受硬件故障的影响。故障转移集群比故障转移到副本的成本更高。然而,它几乎提供了零停机时间,因为当灾难发生时,虚拟机会在辅助位置自动启动。

什么是故障恢复?

灾难发生后恢复主站点并解决所有相关问题后,您可以将业务操作转移回源虚拟机。故障恢复有助于恢复源主机(或您选择的新位置)上的原始虚拟机,并将工作负载从虚拟机副本返回到原始虚拟机。但是,自故障转移以来,VM 副本中可能发生了一些更改。因此,在执行故障恢复之前必须同步原始 VM 和 VM 副本,以免丢失关键信息。在故障回复中,仅将更改的数据发送回原始系统。

作为灾难恢复一部分的故障转移和故障回复过程

在DR事件期间,将启动故障转移和故障回复操作。该过程执行如下:

  1. 将生产站点的源虚拟机复制到灾备站点。

    VM 副本的虚拟磁盘上的数据与复制时源 VM 上的虚拟磁盘上的数据相同。如果发生灾难(或者预计会发生灾难),则会启动到 VM 副本的故障转移。

  2. 在故障转移期间,系统工作负载将转移到灾难恢复站点。
    但是,随着操作的继续,副本 VM 中可能会发生一些更改。保存此类数据非常重要,因为原始系统处于离线状态,未注册所做的任何更改。因此,所有更改仅写入 VM 副本的虚拟磁盘。
  3. 一旦灾难的负面后果得到纠正(或可能的威胁已经过去),主站点就可以照常运行。
    这样就执行了失败回滚操作;所有工作负载都从灾难恢复位置发送回生产站点,并且源虚拟机接收更新的数据。原始 VM 和 VM 副本变得同步。

虚拟机灾难恢复中故障转移和故障回复的最佳实践

确保合规:

一些组织使用非常敏感和机密的数据,因此需要遵守不同的合规性要求,比如国外需要考虑HIPAA 或 PCI DSS 等法规。如果这适用必须检查您的故障转移和故障恢复的灾难恢复策略是否满足适用的安全标准。

检查许可:查看软件文档并确定应用程序堆栈中是否存在任何许可限制。如果是这样,必须提前解决任何问题并确保满足所有要求。

定义灾难恢复计划的范围:VM DR 计划的范围确定应保护哪些系统并确定预期结果以及任何可能的限制。确保虚拟环境具有足够的技术能力来涵盖计划的所有方面。

选择可靠的数据保护解决方案在虚拟环境中安装获得适当许可的数据保护解决方案对于高效性能和无缝集成至关重要。出于灾难恢复规划目的,必须确定产品恢复虚拟基础架构并将所有操作恢复到生产站点所需的时间。

决定谁负责故障转移和故障恢复:管理层应指定恢复团队的成员,并为每个团队成员分配具体的职责。确定谁负责监视故障转移和故障回复操作,以避免在重要的实际恢复场景中出现混乱。

对IT员工进行故障转移和故障回复操作培训:继上一点之后,请确保IT员工具备执行故障转移和故障回复操作所需的知识和资格。负责的员工应做好充分准备,以防出现意外情况;他们必须对运营有深入的了解,以便能够相应地适应并处理出现的任何问题。

查看服务级别协议 (SLA):服务级别协议是服务提供商与其客户之间的合同,确定提供商应满足的要求和服务标准。因此,请确保 SLA 是最新的,并且它们的适用性扩展到灾难恢复环境。

定义

RPO本质上是发生灾难时虚拟机可以恢复到的最远时间点。RTO和RPO应主要根据灾难场景期间组织的优先级来制定。
尽管增加备份和复制作业的频率可能是一项耗时且占用资源的任务,但它可以显着提高RPO。较短的RTO应分配给优先级最高的组件,这些组件应首先恢复。请注意,应分别为应用程序和虚拟机建立RTO和RPO。
  • 考虑将灾难恢复站点转变为永久站点的可能性。

    业务可能会受到巨大灾难的影响,导致无法恢复主数据中心。因此,请考虑将灾难恢复站点转变为永久站点的可能性,以便可以提前为这种规模的事件做好准备。显然,这是一种昂贵的解决方案,消耗大量资源并需要主要设备、软件和设施成本。即使您不立即执行该计划,考虑必须做什么也是有益的。
  • 测试故障转移操作。

    通过测试故障转移过程,您可以检查您的虚拟基础架构是否可以在灾难恢复站点上正确恢复,并验证预装的应用程序是否可以在生产站点禁用时成功运行。
  • 测试故障回复操作。

    这样,就可以确保公司的运营能够从灾难恢复站点成功恢复到原始站点。
  • 全面测试灾难恢复计划。

    测试整个灾难恢复计划也是值得的;它可以通过模拟灾难恢复事件来帮助识别计划中的弱点。因此,可以改进和调整组织应用的灾难恢复策略。有缺陷且过时的灾难恢复计划可能会严重破坏组织的业务连续性。

备份和复制中的故障转移和故障恢复

建议提供独有的站点恢复功能,能够创建任何复杂程度的自动恢复工作流程(或作业)。站点恢复 (SR) 工作流程涉及自定义操作序列,例如故障转移、故障恢复、启动/停止虚拟机、运行/停止作业、附加/分离存储库等。这些操作可以按任何顺序排列,以实现站点的完全自动化和编排。灾难恢复流程。
此外,要可以随时轻松修改、补充或测试SR 作业,而无需中断生产环境。因此,即使是最复杂的灾难恢复计划也可以通过使用 SR 工作流程来构建、测试和顺利实施。

灾难恢复中的故障转移

故障转移操作是大多数 SR 工作流程不可或缺的一部分。仅当您之前创建了要保护的源虚拟机的副本时,才能执行涉及故障转移的站点恢复;当灾难发生时,这些被用作故障转移的目标。工作负载从受影响生产站点的源虚拟机传输到灾难恢复站点的虚拟机副本。

计划故障转移

用于在存在潜在威胁或预计发生灾难时对系统进行先发制人的保护。如果您已收到有关天气灾害的通知,或者该地区计划停电,可以启动计划的故障转移。在这种情况下,解决方案会在将工作负载传输到副本之前同步源虚拟机与其副本之间的数据;因此,完全防止了数据丢失。
测试故障转移
可确定故障转移策略是否有效以及在发生灾难恢复事件时是否可以依赖它们。测试故障转移的执行方式与计划的故障转移类似,不同之处在于测试模式下所做的所有更改都会立即恢复,以免对主环境造成干扰。此外,可以测试工作流程在灾难恢复事件中是否运行得足够快。
如果作业完成时间超过设定时间,则测试被视为失败。测试/运行报告通过电子邮件发送,您可以检查该报告以识别灾难恢复计划中的缺陷并解决它们。当生产站点发生灾难并且无法访问源虚拟机时,会立即执行
紧急故障转移

要求操作简单,即可将工作负载从主站点移动到灾难恢复站点。因此,尽管可能会丢失一些数据,但可以保证最短的停机时间。

重新保护灾难恢复站点的虚拟机

运行故障转移后,您应该确保在灾难恢复站点上运行的虚拟机副本受到保护。VM副本也可能被损坏,如果没有其他副本,就不可能立即恢复它们。要求备份和复制可确保虚拟基础架构在灾难恢复事件后得到重新保护。需将灾难恢复站点上运行的虚拟机复制到另一个位置即可。因此,如果发生任何意外情况,可以轻松故障转移到新的虚拟机副本。可以将 SR 工作流程配置为在故障转移完成后立即自动启动在灾难恢复站点上运行的虚拟机的复制,从而保证高水平的保护。

灾难恢复中的故障恢复

仅当 SR 工作流中发生故障转移后才能执行故障恢复。一段时间后,当主站点备份并运行时,您可以在原始源虚拟机上恢复运行操作。为此,可以从已替换原始VM的VM副本故障恢复到此VM。如果虚拟机工作负载无法传输回主生产站点(例如,因为无法恢复),则可以将它们传输到您选择的任何其他新位置,以获得比灾难恢复站点更长期的解决方案。故障恢复可以在生产模式或测试模式下运行。

测试模式下的故障恢复
旨在确定SR作业是否可以成功运行,并且在实际故障恢复过程中不会出现任何问题。在这种情况下,从虚拟机副本到源虚拟机的增量或完整复制仅执行一次,这足以用于测试目的。确保IP地址和网络设置正确。源虚拟机和虚拟机副本同步以避免数据丢失,然后源虚拟机上电。

请注意,测试完成后,故障恢复过程中对虚拟机所做的所有更改都将被丢弃,并且虚拟环境将恢复到故障恢复前的状态。在测试模式下,站点恢复作业可以按需或按计划运行。

当希望在DR故障转移后恢复生产环境时,会执行生产模式下的故障回复。在生产模式下,只能按需执行站点恢复作业。生产模式下的故障恢复基本上遵循与测试模式下的故障恢复相同的步骤。但是,从虚拟机副本到源虚拟机的复制会执行两次,以确保过程中数据零丢失。复制操作完成后,原始源虚拟机(位于生产站点)将打开电源,而灾难恢复站点的虚拟机副本将关闭。

结论
了解故障转移和故障恢复背后的技术并将其集成到您的虚拟机灾难恢复计划中可以保护虚拟环境免受任何意外事件的影响。故障转移可确保关键任务数据的安全,并将所有工作负载快速转移到灾难恢复站点。故障恢复允许只需单击几下即可从灾难恢复站点切换回生产站点。这些操作共同帮助您确保最大限度地减少数据丢失并减少停机时间。
>>>等级保护<<<
开启等级保护之路:GB 17859网络安全等级保护上位标准
回看等级保护:重要政策规范性文件43号文(上)
网络安全等级保护实施指南培训PPT
网络安全等级保护安全物理环境测评培训PPT
网络安全等级保护:等级保护测评过程要求PPT
网络安全等级保护:安全管理中心测评PPT
网络安全等级保护:安全管理制度测评PPT
网络安全等级保护:定级指南与定级工作PPT
网络安全等级保护:云计算安全扩展测评PPT
网络安全等级保护:工业控制安全扩展测评PPT
网络安全等级保护:移动互联安全扩展测评PPT
网络安全等级保护:第三级网络安全设计技术要求整理汇总
网络安全等级保护:等级测评中的渗透测试应该如何做
网络安全等级保护:等级保护测评过程及各方责任
网络安全等级保护:政务计算机终端核心配置规范思维导图
网络安全等级保护:什么是等级保护?
网络安全等级保护:信息技术服务过程一般要求
网络安全等级保护:浅谈物理位置选择测评项
闲话等级保护:网络安全等级保护基础标准(等保十大标准)下载
闲话等级保护:什么是网络安全等级保护工作的内涵?
闲话等级保护:网络产品和服务安全通用要求之基本级安全通用要求
闲话等级保护:测评师能力要求思维导图
闲话等级保护:应急响应计划规范思维导图
闲话等级保护:浅谈应急响应与保障
闲话等级保护:如何做好网络总体安全规划
闲话等级保护:如何做好网络安全设计与实施
闲话等级保护:要做好网络安全运行与维护
闲话等级保护:人员离岗管理的参考实践
信息安全服务与信息系统生命周期的对应关系
>>>工控安全<<<
工业控制系统安全:信息安全防护指南
工业控制系统安全:工控系统信息安全分级规范思维导图
工业控制系统安全:DCS防护要求思维导图
工业控制系统安全:DCS管理要求思维导图
工业控制系统安全:DCS评估指南思维导图
工业控制安全:工业控制系统风险评估实施指南思维导图
业控制系统安全:安全检查指南思维导图(内附下载链接)
业控制系统安全:DCS风险与脆弱性检测要求思维导图
去年针对工业组织的勒索软件攻击增加了一倍
工业安全远程访问渐增引发企业担心
工业控制系统安全:工控系统信息安全分级规范(思维导图)
有效保卫工业控制系统的七个步骤
>>>数据安全<<<
数据治理和数据安全
数据安全风险评估清单
成功执行数据安全风险评估的3个步骤
美国关键信息基础设施数据泄露的成本
备份:网络和数据安全的最后一道防线
数据安全:数据安全能力成熟度模型
数据安全知识:什么是数据保护以及数据保护为何重要?
信息安全技术:健康医疗数据安全指南思维导图
金融数据安全:数据安全分级指南思维导图
金融数据安全:数据生命周期安全规范思维导图
>>>供应链安全<<<
美国政府为客户发布软件供应链安全指南
OpenSSF 采用微软内置的供应链安全框架
供应链安全指南:了解组织为何应关注供应链网络安全
供应链安全指南:确定组织中的关键参与者和评估风险
供应链安全指南:了解关心的内容并确定其优先级
供应链安全指南:为方法创建关键组件
供应链安全指南:将方法整合到现有供应商合同中
供应链安全指南:将方法应用于新的供应商关系
供应链安全指南:建立基础,持续改进。
思维导图:ICT供应链安全风险管理指南思维导图
英国的供应链网络安全评估
>>>其他<<<
网络安全十大安全漏洞
网络安全等级保护:做等级保护不知道咋定级?来一份定级指南思维导图
网络安全等级保护:应急响应计划规范思维导图
安全从组织内部人员开始
VMware 发布9.8分高危漏洞补丁
影响2022 年网络安全的五个故事
2023年的4大网络风险以及如何应对
网络安全知识:物流业的网络安全
网络安全知识:什么是AAA(认证、授权和记账)?
美国白宫发布国家网络安全战略
开源代码带来的 10 大安全和运营风险
不能放松警惕的勒索软件攻击
10种防网络钓鱼攻击的方法
Mozilla通过发布Firefox 111修补高危漏洞
Meta 开发新的杀伤链理论
最佳CISO如何提高运营弹性
5年后的IT职业可能会是什么样子?
累不死的IT加班人:网络安全倦怠可以预防吗?
网络风险评估是什么以及为什么需要
低代码/无代码开发对安全性和生产力的影响
源代码泄漏是新的威胁软件供应商应该关心的吗?
在2023年实施的9项数据安全策略
乌克兰是俄美网络战的“试验场”
网络安全知识:什么是日志留存?
公安部公布十大典型案例

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年4月29日11:10:14
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   网络安全知识:故障转移和故障恢复http://cn-sec.com/archives/2696744.html

发表评论

匿名网友 填写信息