引:
灾难恢复计划的制定是个很复杂庞大的过程,但是对于小规模组织,或想快速制定一个过渡的、临时的灾难恢复计划的大组织,也有轻量级的解决方案。下面九步既是灾难恢复计划的“敏捷”开发过程,也是其浓缩概览,帮助初下水的朋友有个总体感知吧。
注:以下内容翻译、整理自《IT Disaster Recovery Planning for Dummies》,作者:Peter H. Gregory
第一步:组建应急响应团队
应急团队成员需要能够随时召集起来,投入应急工作,并且每个成员至少有一个备份人员(B角)。选择应急团队成员时,主要从以下几点考虑:
-
要有管理权限;
-
办工、居住的地点离应急场所比较近;
-
随时可以联系到;
-
熟悉业务流程和相关技术;
-
清楚所管理的每个员工的日常业务和操作的过程。
第二步:定义灾难宣告过程
定义出组织关键业务的最大可接受中断时间(MAOT),当灾难或紧急事件发生时,应急响应团队需要尽快评估出中断时间,如果认为中断时间将要超过MAOT,那就宣告灾难,启动灾难恢复计划。通常应急团队中需要两个或以上的人具有宣告灾难的权利。
第三步:定义灾难恢复计划的启动过程
启动灾难恢复计划需要以下操作:
-
指定响应团队中的专人进行记录:包括灾难发生情况,建筑物、设备、系统及通讯设施的破坏情况,人员可用、伤亡、失踪情况等等;
-
召集紧急会议:确定应急指挥人,成立应急指挥中心,确认各层恢复团队和角色;
-
作出决策:比如是否有足够的人和资源来恢复业务;
-
开始执行恢复计划:将灾难恢复计划付诸行动的具体工作。
第四步:定义应急通讯
应急通讯体系可以从以下几方面开始建立:
-
关键人员具备不同运营商的两个手机号码;
-
避免公司的电话、语音信箱、网络等只有单一服务提供商;
-
应急人员除工作邮箱外,还拥有可用的外部邮箱;
-
充分利用即时通信手段;
-
采购电话会议桥服务。
条件允许时,建立应急灾备的自动消息系统。
第五步:定义基本恢复计划
制定基本的恢复计划前需要进行的前提工作:
-
列出组织的所有业务功能或产品;
-
列出支持这些功能或产品的业务流程;
-
对业务流程进行排序,找出关键业务流程。
完成以上排序后,就要制定恢复计划的重头戏:
-
定义灾难发生后业务恢复的先后顺序;
-
定义各个业务流程的恢复时间(即RTO,恢复目标时间);
-
定义各个业务流程恢复时需要的资源。
不要制定一个野心太大的业务恢复计划,以免无法实现;另外,这里所制定的恢复计划只是基本的、轻量级的;不要陷入过深的细节中,而无法完成整个计划。
第六步:确定灾备场地及替代手段
选择、确定、建设灾难发生后的灾备场地。
制定业务中断后的替代操作手段,可以采用的方法有:
-
临时降低服务水平或业务量;
-
利用替代或备份部件;
-
雇用临时人员;
-
借用同行的场地等资源;
-
采用手工操作方式,而不是计算机系统;
-
使用其它服务商或供应商。
第七步:制定防护措施
这里的防护措施是指保护业务恢复中的信息、业务数据、关键设备等,以保障业务的可恢复性。
-
IT的防护措施有:数据备份、异地保存、备份验证等;
-
业务记录的防护措施有:集中存储、纸质记录扫描或拍照、使用防火文件柜等;
-
工具的防护措施有:使用防火柜、检查火灾报警和消防设施、建立应急救助和撤离计划等。
第八步:编写文档
前七步的工作要进行文档化,包括:
-
计划的制定背景和目的;
-
紧急响应团队的组成及联系方式;
-
灾难宣告流程;
-
应急通讯流程;
-
业务恢复过程;
-
恢复资源和防护措施等。
第九步:培训应急团队成员
所有的应急团队成员和他们的备份成员都要接受培训,以熟悉灾难恢复计划。
以上内容为Mary Liu 翻译编辑,并绘制插图,
引用请注明来源及原著。
原文始发于微信公众号(微言晓意):《灾难恢复计划》之敏捷版
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论