目录
第1章 概述
1.1. 简介
1.2. 目的
1.3. 适用范围
1.4. 前提假设
1.5. 应急处置工作总体原则
第2章 信息系统应急响应及灾难恢复组织
2.1. 信息系统应急响应及灾难恢复组织架构
2.2. 总行应急处置领导小组角色与职责
2.2.1. 总行应急处置领导小组职责
2.2.2. 总行应急处置领导小组办公室
2.3. 信息系统应急响应团队角色与职责
2.3.1. 指挥组
2.3.2. 信灾办
2.3.3. IT恢复组
2.3.4. 业务恢复组
2.3.5. 支持保障组
2.3.6. 外部专家支持组
第3章 突发事件分级
3.1. 突发事件分级定义
3.2. 突发事件升级说明
第4章 应急响应工作规程
4.1. 应急响应总体流程说明
4.1.1. 应急响应流程概述
4.1.2. 应急响应总体流程图
4.1.3. 突发事件沟通路径说明
4.2. 应急响应具体流程
4.2.1. 事件发现和初始响应
4.2.2. 人员召集和建立指挥中心
4.2.3. 损害及影响评估
4.2.4. 通知通报
4.2.5. 应急处置方案制定
4.2.6. 应急处置决策
4.2.7. 信息系统恢复
4.2.8. 对外营业确认
4.3. 事件回顾和总结
第5章 附件
5.1. 通讯联系表
5.1.1. 信息系统应急响应及灾难恢复指挥组
5.1.2. IT恢复组
5.1.3. 业务恢复组
5.1.4. 支持保障组
5.2. 应急管理工作文档
5.2.1. 损害评估工具表
5.2.2. 建立指挥中心和人员召集
5.3. 灾难恢复范围和目标
5.3.1. 系统中断影响的业务范围
5.3.2. 灾难恢复的通讯网络
5.3.3. 系统恢复优先级及目标
5.4. 重要信息系统突发事件处理流程
5.5. 网络系统突发事件处理流程
5.6. 基础设施突发事件处理流程
第1章概述
1.1.简介
中国XXXXXXXX信息系统应急响应预案(以下简称“应急响应预案”)是用于规范XXXXXXXX总行数据中心重要信息系统的突发事件应急响应流程,提高突发事件应急处置能力,有效防范信息系统风险。
本预案根据《中华人民共和国银行业监督管理法》、《中华人民共和国突发事件应对法》、《信息安全技术 信息系统灾难恢复规范》(GB/T 20988—2007)、《银行业信息系统灾难恢复管理规范》(JR/T0044-2008)、《银行业金融机构信息系统风险管理指引》、《银行业重要信息系统突发事件应急预案(征求意见稿)》等国家相关法律法规制定。
本预案是XXXXXXXX总行数据中心信息系统突发事件应急响应的工作指引。它描述了XXXXXXXX在处理造成总行数据中心业务系统停顿、损坏或者正常数据处理活动无法运行的突发事件时所依据的策略、资源、步骤和流程。
强烈建议XXXXXXXX所有信息系统应急响应及灾难恢复组织的成员审核并熟悉本预案内容。
-
如果检测到突发事件:转向4.2.1节“事件发现和初始响应”。
-
如果需要了解应急响应流程:转向4.1节,并按照第4章应急响应工作规程进行突发事件紧急处置。
-
如果需要了解应急响应及灾难恢复组织的人员通讯录:转向5.1节“通讯联系表”。
1.2.目的
制定本预案的总体目的是将XXXXXXXX总行数据中心信息系统突发事件对本行业务的影响降至最低,具体包括:
-
降低针对信息系统突发事件决策的次数,建立管理层危机授权的机制。
-
提供有助于恢复信息系统运行的合理流程安排,减少恢复工作的复杂程度。
-
提高突发事件发生时组织内部互相沟通和交流的效率。
-
缩短信息系统紧急恢复的时间。
-
减少因信息系统突发事件造成的业务数据损失和业务功能的缺矢。
1.3.适用范围
本应急响应预案是中国XXXXXXXX总应急预案的组成部分,是关注于信息科技部分的专项应急预案。
本预案适用于应对和处理影响或可能会影响到XXXXXXXX总行数据中心信息系统正常运行的突发事件,是XXXXXXXX总行数据中心应对突发事件所做的事先紧急处置流程和资源的安排。
本预案不能替代危机时刻的应变能力,不是需要以任何代价实施的刚性计划。
1.4.前提假设
本预案是建立在以下前提和假设的基础之上:
-
总行数据中心的重要信息系统由于突发事件造成系统运行中断。
-
信息系统灾难恢复技术方案(比如备份主机、存储、远程数据复制系统,以及备份中心场地和备份的通讯线路)已经实施完成并通过测试验证可用。
-
预定的应急和恢复策略及流程已经经过演练的检验且被证明是有效的。
-
有足够数量的具备所需技能的人员可以调配来进行系统和业务的恢复。
-
外部组织和机构(例如客户、供应商和管理机构)在应急响应和灾难恢复期间能够提供合理的合作和响应。
1.5.应急处置工作总体原则
XXXXXXXX任何工作人员在信息系统突发事件应急响应过程中,均需本着最短时间内将事件不良影响降低到最小的原则进行应急处置工作。在应急处置过程中需要冷静、沉着,在遵守应急响应工作规程的同时,积极利用自身专业经验及可能获取的资源进行分析判断和抢救抢修工作。
第2章信息系统应急响应及灾难恢复组织
2.1.信息系统应急响应及灾难恢复组织架构
XXXXXXXX信息系统灾难恢复管理组织体系包括总行应急处置领导层和信息系统应急响应团队两个层次。总行应急处置领导层包括总行应急处置领导小组和总行应急处置领导小组办公室。信息系统应急响应团队包括信息系统灾难恢复指挥组(以下简称指挥组)、信息系统应急响应及灾难恢复管理办公室(以下简称信灾办)、IT恢复组、业务恢复组、支持保障组、外部专家支持组。
XXXXXXXX信息系统应急响应及灾难恢复组织架构如下图所示:
(略)
2.2.总行应急处置领导小组角色与职责
总行应急处置领导小组下设总行应急处置领导小组办公室作为XXXXXXXX突发事件应急处置的常设机构。
2.2.1.总行应急处置领导小组职责
总行应急处置领导小组的具体职责如下:
-
统一领导和指挥XXXXXXXX突发事件应急处置工作;
-
负责整体应急管理事务的部署和组织;
-
决定重大的处置措施和新闻报道等重大事项;
-
负责处置其他重要事项的决策;
-
审核中国XXXXXXXX总应急响应预案及各专项应急预案等制度和流程;
-
负责监督和审查每年的各专项突发事件应急演练工作。
2.2.2.总行应急处置领导小组办公室
总行应急处置领导小组办公室的具体职责如下:
-
XXXXXXXX突发事件应急预案的拟定、修改和报送;
-
接收、处理、上报和通报有关信息资料;
-
各专项突发事件信息汇总、协调和维护;
-
收集、保管有关档案资料;
-
组织协调有关工作,就突发事件的处置与相关外部机构进行交流和沟通;
-
组织总行及分支机构工作人员进行处置突发事件的相关培训,并组织预案的演练;
-
按照相关监管机构要求,负责向银监会等监管机构报告突发事件和应急响应的进展情况;
-
完成总行领导小组交办的其他事项。
2.3.信息系统应急响应团队角色与职责
2.3.1.指挥组
信息系统应急响应及灾难恢复指挥组(以下简称指挥组)组长由分管信息科技的主管副行长担任,副组长由信息科技部第一负责人担任,指挥组成员由各部室、中心第一负责人组成。具体职责说明如下:
-
负责信息系统突发事件应急响应和灾难恢复工作的总体指挥,并作为信息系统应急响应及灾难恢复组织与其它部门的界面以协调信息系统恢复的进度;
-
负责所有与IT技术之外的其他管理层的联络,包括参加行内最高层的总行应急处置领导小组等;
-
负责对信息系统突发事件应急管理和灾难恢复体系建设进行决策和监督;
-
负责信息系统灾难恢复各项工作的管理,包括灾难恢复策略制订和审核,组织灾备工程实施,审核批准信息系统应急响应及灾难恢复预案,组织审核预案、测试和演练,组织灾难恢复监督检查和审计。
-
指挥组组长
指挥组组长的主要职责是对信息系统应急响应及灾难恢复体系建设和应急处置过程中的重大问题进行管理、指挥和决策,具体包括以下内容:
突发事件发生时:
-
信息系统突发事件发生时,发布应急处置工作指令,指挥各部室、中心、以及应急响应及灾难恢复团队开展应急处置和恢复工作;
-
对信息系统应急响应及灾难恢复过程中的重大问题以及所采取的重大处置措施进行决策。
日常管理工作:
-
负责信息系统应急响应及灾难恢复体系建设的日常组织和协调工作,调配各方资源进行体系的建设和维护;
-
负责审核信息系统应急响应及灾难恢复体系年度工作计划,并监督实施,依据计划组织协调信息系统应急响应和灾难恢复的综合测试和演练。
-
总行信息科技部负责人
负责组织和协调总行信息科技部各IT技术部门力量,指挥和协调技术层面的应急处置工作,具体包括以下内容:
突发事件发生时:
-
指挥协调总行生产环境信息系统紧急恢复工作;
-
汇总突发事件的损害评估结果,提出解决建议,协助指挥组组长形成决策;
-
指挥协调信息系统应急处置工作。
日常管理工作:
-
负责信息系统应急响应及灾难恢复体系建设的年度工作计划的审核,以及日常实施工作的监督。
-
依据年度工作计划,组织信息系统应急响应和灾难恢复的综合测试和演练。
-
总行各业务部门负责人
负责组织和协调总行相关业务部门资源,指挥和协调业务层面的应急处置工作,包括:
-
协调和指挥本部门应急团队成员和工作人员配合信息系统的系统恢复工作;
-
协调和指导所有分行业务人员配合信息系统的系统恢复工作;
-
在信息系统恢复后,指挥协调业务功能检查、数据检查和补录、以及业务对外服务确认等工作。
-
负责本部门业务应急管理工作,指挥在信息系统中断或运行不正常情况下的业务应急处置工作。
-
支持保障部门负责人
负责处理物业、后勤、人力资源协调等相关工作,主要职责包括:
-
组织和协调物业部门人员,协助进行大厦基础设施的损害评估工作;
-
组织和协调物业部门人员,保障应急指挥中心和数据中心现场的安全;
-
组织和协调后勤部门人员,保障应急指挥中心的工作环境就绪,保障应急物资运输和调配;
-
组织和协调后勤部门人员,保障应急响应及灾难恢复人员的食宿、交通等灾难恢复所需后勤供应。
-
组织和协调本行工作人员应急调配,以及负责处理人员伤亡的善后处理工作。
2.3.2.信灾办
信息系统应急响应及灾难恢复管理办公室(以下简称信灾办)为指挥组的常设办事机构,建议设在系统运行处,并配备专职岗位负责信息系统应急及灾难恢复的日常工作。信灾办的主要职责如下:
突发事件发生时:
-
接受、跟踪和处理信息系统突发事件相关信息,初判突发事件等级,并决定是否启动应急响应预案;
-
收集和整理信息系统应急响应和灾难恢复的过程信息,跟踪突发事件发展和处置态势,为领导提供决策支持;
-
协助指挥组完成信息系统突发事件应急处置和灾难恢复的各项指挥工作,负责申请灾难恢复所需的资源;
-
根据指挥组组长下达的指令组织执行信息系统灾难恢复工作,并对处置工作进行指导、监督和检查;
-
负责各灾难恢复实施工作小组和指挥组之间的沟通和联络,协助各实施工作小组之间的沟通和联络;
-
负责有关突发事件处置工作的文件、会议、联络等事务,规范办理程序,完善工作机制。
-
必要时,负责与各分行IT恢复小组进行联络,进行通知通报,信息搜集等工作。
日常管理工作:
-
负责具体制定信息系统应急响应及灾难恢复体系建设和维护的年度工作计划,并具体组织和协调进行日常工作的实施;
-
负责具体组织和协调应急响应预案和灾难恢复预案的管理维护和演练工作。
2.3.3.IT恢复组
IT恢复组包括:数据中心现场指挥员(XX和XXX各1名)、系统恢复小组、网络恢复小组、机房基础设施恢复小组、应用系统恢复小组和各分行IT恢复小组。IT恢复组的成员主要是信息科技部工作人员。
-
数据中心现场指挥员:
-
指挥协调各IT实施工作小组灾难现场的损害评估工作;
-
指挥协调各IT实施工作小组进行灾难现场的紧急恢复工作;
-
收集和整理灾难现场的全面信息,为指挥组提供决策支持;
-
负责落实指挥组应急处置意见和命令;
-
负责数据中心的事故排查、人员抢救和设备抢修等工作;
-
在需要切换且时间允许的情况下,负责指挥生产系统的备份和关闭工作。
-
系统恢复小组
系统恢复小组成员由负责数据中心各类硬件设备、操作系统、数据库系统、中间件平台软件的技术专家和系统管理员组成。具体职责如下:
突发事件发生时:
-
检查灾难发生后生产中心各类操作系统、数据库系统、中间件平台软件及外围相关系统的损坏情况,提出具体应急处置建议,并向现场指挥员报告;
-
一旦信息系统发生故障,负责系统本地紧急恢复工作;
-
一旦决定切换,负责信息系统的灾难切换工作;
-
接替运行阶段,负责系统运行维护和管理等工作;
-
负责协调设备及服务提供商进行技术支持和备品备件紧急供应工作;
日常相关工作:
-
负责XX和XXX数据中心生产系统和灾备系统的日常维护工作。
-
网络恢复小组
网络恢复小组成员由负责数据中心各类网络设备和线路运维的网络管理员和技术专家组成。具体职责如下:
突发事件发生时:
-
检查生产中心网络系统的损坏情况,提出具体应急处置建议,并向现场指挥员报告;
-
一旦通信网络发生故障,负责进行通信网络系统的本地紧急恢复工作;
-
一旦决定切换,负责通信网络系统的切换工作;
-
负责协调网络设备提供商或服务商进行技术支持和备品备件紧急供应工作;
-
接替运行阶段,负责全行范围内各机构与灾备中心通信网络相关的维护和管理等工作;
日常相关工作:
-
负责XX和XXX数据中心网络系统的日常维护工作。
-
机房基础设施恢复小组
机房基础设施恢复小组成员由负责数据中心机房运维的机房管理员组成。具体职责如下:
突发事件发生时:
-
检查总行数据中心机房基础设施环境的损坏情况,提出具体应急处置建议,并向现场指挥员报告;
-
与相关服务商或厂商沟通,共同完成总行数据中心机房基础设施的应急抢修工作;
-
负责灾备系统场地基础设施的准备和检测工作。
日常相关工作:
-
按照信息系统应急响应及灾难恢复管理要求,负责XX和XXX数据中心基础设施的日常维护和检测工作。
-
应用恢复小组
应用恢复小组由各应用系统的开发维护人员和业务测试人员组成。应用恢复小组的成员由开发处、信息安全处人员组成。应用恢复小组的主要负责:
突发事件发生时:
-
负责应用系统本地紧急恢复或灾备切换所需要的各类应用技术支持和测试工作等;
-
在信息系统非正常运行或中断的情况下,协助业务人员进行业务影响程度及数据丢失的评估判断;
-
在信息系统恢复后,协助业务人员进行业务功能验证、业务数据检查和数据补录工作;
-
负责信息系统应急响应和系统恢复过程中的信息安全工作。
日常相关工作:
-
负责日常对XX和XXX数据中心灾备系统应用的安装、升级、维护;
-
负责信息系统灾备切换演练过程中的灾备系统应用的恢复、检查确认工作;
-
负责开发信息系统本地紧急恢复或灾备切换所需的特定应用软件。
-
各分行IT恢复小组
分行IT恢复小组由各分行IT运维人员组成。具体职责如下:
-
在突发事件发生时,为配合总行数据中心信息系统进行恢复,负责本分行信息系统和通讯线路的参数调整、设置和测试工作。
2.3.4.业务恢复组
业务恢复组包括总行各业务部门恢复小组、各分行业务恢复小组,负责信息系统应急处置和灾难恢复工作中与业务操作相关的各项工作。业务恢复组牵头单位由营运管理部担任。
-
总行各业务恢复小组
总行各业务恢复小组由各业务部门业务骨干人员组成,主要负责:
-
负责本部门业务紧急处置工作,并对受到影响的客户进行安抚和解释工作;
-
负责评估突发事件对本部门业务功能的影响情况和业务数据的丢失情况;
-
负责组织和协调本部门在信息系统切换或恢复过程中相关业务环境的确认工作;
-
组织和指导本部门和各分行检查业务数据的丢失情况,并完成业务数据的追补工作;
-
负责本部门业务条线分行相关业务人员的通知通报和信息搜集等。
-
各分行业务恢复小组
分行业务恢复小组由各分行各类业务骨干人员组成,主要负责:
-
负责本分行业务紧急处置工作,并对受到影响的客户进行安抚和解释工作;
-
负责评估突发事件对本分行业务功能的影响情况和业务数据的丢失情况;
-
负责组织和协调本分行在信息系统切换或恢复过程中相关业务环境的确认工作;
-
组织和指导本分行业务人员检查业务数据的丢失情况,并完成业务数据的追补工作。
2.3.5.支持保障组
支持保障小组由人力资源部、监察保卫部、行政管理部和物业部门等派员组成,其职责是:
-
负责数据中心大厦基础设施的损害评估,提出具体应急处置建议,并负责大厦基础设施的紧急抢修和恢复工作;
-
负责协调供水、供电、油站以及设施基础设施设备供应商或服务提供商;
-
负责信息系统应急响应、系统恢复和重续运行过程中人员伤亡救助、统计、抚恤,以及人员调配等工作;
-
负责信息系统应急响应和灾难恢复人员的食宿、交通、应急物资运输、办公环境提供和管理;
-
做好现场秩序维护、安全保障、法律咨询和支援等工作;
-
建立与电力、通讯、公安和消防等相关外部机构的应急协调机制和应急联动机制;
-
其他为降低事件负面影响或损失提供的应急支持保障等。
2.3.6.外部专家支持组
外部专家支持组由为信息系统应急响应和灾难恢复提供产品、技术、服务、管理和决策支持的外部机构的专业人员,包括专业咨询公司、外部聘请的专家、产品和服务提供商、系统集成商、电信服务供应商等。
外部专家支持组的具体工作职责参见双方签订的突发事件服务等级协议(SLA)、合同、备忘录等材料。
第3章突发事件分级
本文中突发事件是指中国XXXXXXXX重要信息系统以及为之提供支持服务的电力、通讯等系统突然发生的,影响或将会影响到业务持续开展,需要采取应急处置措施应对的事件。
突发事件的种类包括电力故障、通信线路故障、火情水灾、治安、病毒爆发、网络攻击、人为破坏、不可抗力、计算机硬件故障、网络操作系统故障、漏洞、应用系统故障以及其他各类与信息系统相关的故障.
3.1.突发事件分级定义
突发事件依照其影响范围、持续时间及所影响业务的性质等因素进行分级。分级的判定以符合最高级别条件情况为准,即采取级别从高原则。具体分级定义如下:
(一)特别重大突发事件(一级)
符合以下条件之一的突发事件定为特别重大突发事件:
1.由于重要信息系统服务中断或重要数据损毁、丢失、泄露,造成经济秩序混乱或重大经济损失、影响金融稳定的,或对公众利益造成特别严重损害的突发事件;
2.由于重要信息系统服务异常,在业务服务时段造成或者可能造成所有A类业务和服务中断超过2小时,或者部分A类业务和服务中断超过4小时的突发事件;
3.由于重要信息系统服务异常,在业务服务时段造成或者可能造成50%(含)以上区域或客户的业务和服务中断超过4小时的突发事件;
4.业务服务时段以外,重要信息系统出现的故障或事件救治未果,可能产生上述1至3类的突发事件。
(二)重大突发事件(二级)
符合以下条件之一的突发事件定为重大突发事件:
1.由于重要信息系统服务中断或重要数据损毁、丢失、泄露,对银行或公众利益造成严重损害的突发事件;
2.由于重要信息系统服务异常,在业务服务时段造成或者可能造成所有A类业务和服务中断不超过2小时,或者部分A类业务和服务中断2至4小时,或者B类业务和服务中断超过4小时的突发事件;
3.由于重要信息系统服务异常,在业务服务时段造成或者可能造成50%(含)以上区域或客户的业务和服务中断2至4小时,或者10%(含)以上、50%以下区域或客户的业务和服务中断超过4小时的突发事件。
4.业务服务时段以外,重要信息系统出现的故障或事件救治未果,可能产生上述1至3类的突发事件。
(三)较大突发事件(三级)
符合以下条件之一的突发事件定为较大突发事件:
1.由于重要信息系统服务中断或重要数据损毁、丢失、泄露,对银行或公众利益造成较大损害的突发事件;
2.由于重要信息系统服务异常,在业务服务时段造成或者可能造成A类业务和服务中断30分钟至2小时,或者B类业务和服务中断1至4小时,或者C类业务和服务中断超过3天的突发事件;
3.由于重要信息系统服务异常,在业务服务时段造成或者可能造成50%(含)以上区域或客户的业务和服务中断30分钟至2小时,或者10%(含)以上、50%以下区域或客户的业务和服务中断1至4小时,或者10%以下区域或客户的业务和服务中断超过24小时的突发事件。
4.业务服务时段以外,重要信息系统出现的故障或事件救治未果,可能产生上述1至3类的突发事件。
(四)一般突发事件(四级)
符合以下条件之一的突发事件定为一般突发事件:
1.由于重要信息系统服务异常,在业务服务时段造成或者可能造成A类业务和服务中断30分钟以内小时,或者B类业务和服务中断1小时以内,或者C类业务中断3天以内的突发事件;
2.由于重要信息系统服务异常,在业务服务时段造成或者可能造成50%(含)以上区域或客户的业务和服务中断30分钟以内,或者10%(含)以上、50%以下区域或客户的业务和服务中断1小时以内,或者10%以下区域或客户的业务和服务中断24小时以内的突发事件。
注:A、B、C类业务恢复优先级分类请参见附件5.3.1。
以上突发事件等级的定义可以参考下图:
以上是从突发事件造成后果的角度对突发事件等级进行的定义。另外,从突发事件起因的角度,突发事件可以有以下分类:
(1)IT生产系统环境:
-
系统软硬件故障;
-
存储网络系统故障;
-
应用系统故障;
-
加密机故障。
(2)网络环境:
-
关键业务网络网段发生故障;
-
次关键业务网络网段发生故障;
-
两数据中心之间的DWDM网络系统发生故障;
-
分行广域网发生故障;
-
外部与机房的通信服务中断。
(3)机房环境
-
市电、发电机、双路UPS出现故障;
-
机房空调出现故障,导致机房温度升高并持续在摄氏28度以上;
-
机房发生火警,灭火系统启动;
-
机房地板开裂或塌陷,导致设备受损;
-
相邻楼层漏水,经现场抢修和评估,无法控制的情况;
-
大楼无法进入超过2小时,且预计24小时内无法恢复。
(4)周边环境
-
建筑或机房发生地震、火灾、水灾、战争或其他不查抗力原因导致其一无法维持正常运行。
3.2.突发事件升级说明
突发事件的处理是一个发展变化的过程,每隔30分钟需要对事件的影响程度和范围进行重新评估,按照上述事件分级的定义重新判定事件级别。
第4章 应急响应工作规程
4.1.应急响应总体流程说明
4.1.1.应急响应流程概述
应急响应流程一般包括以下步骤:
一.事件发现和初始响应
事件发现和初始响应是当影响XXXXXXXX总行数据中心信息系统正常运行的事件发生或将要发生时,进行事件获知、初步分析判断、确定事件性质级别、决策是否启动应急响应预案,以及事件报告和紧急抢救抢修的过程。该过程的具体描述,请参见4.2.1节。
二.人员召集和建立指挥中心
人员召集和建立指挥中心是当突发事件被确认为三级或以上级别时,按应急响应预案召集相关信息系统应急响应及灾难恢复组织成员,组建临时指挥中心和团队的过程。该过程的具体描述,请参见4.2.2节。
三.损害及影响评估
损害及影响评估是由相关专业人员对突发事件所造成或即将造成的对信息系统的影响进行分析和评估的过程,评估内容包括:事件原因、故障定位、业务受到影响的范围和程度以及故障预计修复的时间等。该过程的具体描述,请参见4.2.3节。
四.通知通报
通知通报是信灾办根据突发事件评估结果及事件定级,向行外相关机构和行内相关部门进行事件通告的过程。该过程的具体描述,请参见4.2.4节。
五.应急处置方案制定
根据突发事件的评估结果、专业技术经验和现场资源状况,各实施小组提出应急处置措施过程。该过程的具体描述,请参见4.2.5节。
六.应急处置决策
应急处置决策是指挥组组长或副组长根据各实施小组提出的应急处置方案建议,综合考虑和确定整体应急处置方案,并下达实施指令的过程。该过程的具体描述,请参见4.2.6节。
七.信息系统灾难恢复
信息系统灾难恢复是指按照既定的应急处置方案进行实施,使信息系统运行服务达到可接受水平的过程。该过程的具体描述,请参见4.2.6节。
八.对外营业
对外营业是指业务人员在信息系统恢复后检查业务功能处理是否正确、业务数据是否完整,确认是否对外营业的过程。该过程的具体描述,请参见4.2.7节。
4.1.2.应急响应总体流程图
下图描述了从突发事件发生至系统恢复正常的应急处理流程。
4.1.3.突发事件沟通路径说明
根据XXXXXXXX现有日常管理流程结合灾难恢复组织架构,当总行数据中心发生突发事件时,建议按照下图进行各部门或单位间的有效沟通:
4.2.应急响应具体流程
4.2.1.事件发现和初始响应
4.2.1.1.目标
事件发现和初始响应过程主要目标是及时发现危害总行数据中心信息系统正常运行的突发事件,及时评估、判断和确定突发事件性质和级别,并根据预定策略启动日常事件处理流程或本应急响应预案,及时进行抢修和抢救工作,使事件影响降到最低。
4.2.1.2.人员职责
事件发现过程主要接口部门为XXXXXXXX信息科技部运行处和信灾办,各岗位人员职责如下表:
岗位 |
人员职责 |
运行处负责人 |
–负责通知信灾办和信息科技部负责人; –会同信灾办,进行突发事件性质和级别判定确认; –负责指挥数据中心现场紧急抢救和抢修工作; |
运行处监控人员 |
–进行信息系统故障监测和发现、接受业务投诉电话; –通知相关系统管理员/网络管理员/机房管理员/物业值班人员,对信息系统及基础环境进行检查; –进行突发事件的跟踪记录; |
系统管理员/网络管理员/机房管理员/开发人员 |
–对信息系统及基础设施故障进行检查、评估和抢修; –向运行处负责人汇报突发事件检查、评估和抢修情况,以及事件处置建议; –协调相关设备和服务提供商进行支持。 |
信灾办 |
–搜集社会公共机构发布的突发事件信息,并判断是否对XXXXXXXX总行数据中心信息系统正常运行产生影响; –会同运行处负责人,进行突发事件性质和级别判定确认,并根据预定策略启动日常事件处理流程或应急响应预案; –负责向指挥组进行突发事件汇报; –向灾难恢复组织各小组进行事件通报; |
在突发事件级别认定后,信灾办按照4.1.3节规定的沟通路径,通知灾难恢复组织成员,组织各岗位角色在本阶段具体职责如下:
|
特别重大事件 |
重大事件 |
较为重大事件 |
一般突发事件 |
1.总行应急处置领导小组 |
|
|
|
|
2.总行应急处置办公室 |
–通知相关监管部门和应急处置领导小组成员 |
– |
– |
– |
3.指挥组 |
–通知总行应急处置领导小组组长 |
– |
– |
– |
4.信灾办 |
–通知指挥组成员及各执行小组组长; –启动信息系统应急响应预案 |
–通知指挥组组长及各执行小组组长; –启动信息系统应急响应预案 |
–通知指挥组组长及各执行小组组长; –启动信息系统应急响应预案 |
–接收突发事件报告,跟踪事件,并根据突发事件等级标准判断是否要事件升级 |
5.IT恢复组 |
–组长通知本小组成员 |
–和恢复相关的工作组组长通知本小组成员 |
–和恢复相关的工作组组长通知本小组成员 |
–通知相关技术人员,进入日常故障处理流程 |
5.1.现场指挥员 |
– |
|||
5.2.系统恢复小组 |
– |
|||
5.3.网络设备恢复小组 |
– |
|||
5.4.机房基础设施恢复小组 |
– |
|||
5.5.应用恢复小组 |
– |
|||
5.6.各分行IT恢复小组 |
– |
|||
6.业务恢复组 |
–组长通知本小组成员 |
–和恢复相关的工作组组长通知本小组成员 |
– |
– |
6.1.总行各部门业务恢复小组 |
– |
|||
6.2.各分行业务恢复小组 |
– |
|||
7.支持保障组 |
–组长通知本小组成员 |
–和恢复相关的工作组组长通知本小组成员 |
–在需要时进行通知 |
– |
8.外部专家支持组 |
–组长通知本小组成员 |
–和恢复相关的工作组组长通知本小组成员 |
–在需要时进行通知 |
– |
4.2.1.3.任务描述
4.2.1.3.1.突发事件发现
突发事件的检测和发现渠道可以分为主动发现和被动发现两大类别。突发事件的主动发现渠道包括:
-
物业管理人员、保安人员发现治安、人为破坏、楼宇失火等突发事件。
-
运行处员工检测和发现到突发事件,包括:
–系统监控:一线监控人员遵照日常系统监控的工作流程及时查看消息,并按照IT管理平台中知识库的判别方法判断,当判断为故障后,及时启动故障处理流程。
–日常巡检:由一线监控人员完成日常巡检,日常巡检内容包括:应用特定监控程序检查、机房环境巡查、环境监控系统检查、电源及发电机检查,在这些检查过程中,如发现故障则及时登记并通知系统管理员及运行处负责人。
–批作业:在批作业执行过程中,如发现:批处理异常、批处理超时的情况,则由一线监控人员登记故障并通知系统管理员。
–系统检查:由系统管理员完成日常系统检查,分析系统各类运行图表,如发现故障则通知一线监控人员及运行处负责人。
–监控系统检查:由监控管理员日常检查各类监控消息及数据,如发现有应用系统故障,则通知一线监控人员登记故障并通知系统管理员处理。
-
其他部门人员检测和发现的突发事件。
突发事件的被动发现渠道包括:
-
外部客户投诉、内部用户投诉、银联投诉。对于被动投诉,一线监控人员应主动接听,详细了解故障的现象、时间、次数、地点、投诉人等要素。
-
气象局、地震局等公共机构发布的灾害性气象预报、地震预告等信息。
-
电力、供水等公司发布的停电、停水等预告。
4.2.1.3.2.初始响应和紧急处理
初始响应和紧急处理流程规定了针对突发事件如何进行第一时间的响应以及紧急处理。
对于数据中心大厦损坏和人员伤亡的突发事件,任何发现突发事件的个人应该按照下述规定执行:
-
保证附近人员的安全。如果任何伤亡发生,请即刻通知急救中心,电话:120。
-
根据实际情况启动火灾报警系统并且拨打119。
-
在安全和避免受伤前提下,根据突发事件发生的状况,展开现场紧急恢复行动。
-
将突发事件情况通知机房管理员、运行处负责人。
-
考虑是否需要紧急疏散,撤离总行数据中心机房和大厦。从建筑物撤离并集合后,所有人员需要原地待命。
根据上述突发事件发生的状况,需要展开以下现场紧急抢修行动(如果情况允许):
-
确认基础设施内部清理需求(例如处理烟熏或者水浸而损坏的计算机系统)
-
确认被摧毁设备和设施的重要性
-
监控拯救和清理行动
-
协调搬运、修复和存储抢救出的物品
-
协调在新的或者修理后的基础设施中的恢复活动
对于信息系统突发事件的一般初始响应流程如下:
-
运行处监控人员通过监控中心的监控软件对机房环境和信息系统进行监控,负责突发事件的一线监测和报告。根据突发事件性质和发生时间,其他部门工作人员检测到突发事件的先兆或隐患时必须第一时间报告运行处监控人员。
-
运行处监控人员在监测到突发事件时,应第一时间根据事件性质通知系统管理员或机房管理员对突发事件进行检测。
-
如果是信息系统突发事件,系统管理员应登录系统,判断故障类别是系统故障、应用故障还是网络故障。如果是应用故障,则通知应用管理员来帮助判定故障;如果是网络故障,则通知网络管理员来帮助判定故障。系统管理员根据故障情况初步判断该突发事件对业务产生的影响程度,并向运行处负责人汇报。
-
如果是机房环境突发事件,机房管理员应判断故障情况和可能产生的影响,并向运行处负责人汇报。
-
如果需要,系统管理员或机房管理员应和外部支持人员通报事件发生的相关信息,进行协商获取支持(例如,物业管理、设备供应商、电信公司等)。
-
运行处负责人在接到报告后的第一时间组织人员对现场情况进行评估,并向信息科技部总经理和信灾办汇报。
4.2.1.3.3.突发事件级别认定
运行处负责人在接到通知后,必须第一时间组织对现场情况的评估,并汇报给信灾办。信灾办或运行处负责人根据突发事件的影响范围、持续时间和事件性质等因素初步判定突发事件等级,并按照如下规则确定是否启动应急响应预案:
-
如果为较大突发事件、重大突发事件、特别重大突发事件,启动应急响应预案,进入相应的应急处置流程。
-
如果为一般突发事件,不启动应急响应预案,进入日常故障处理流程。在日常故障处理流程中,必须按时向信灾办报告故障处理情况,以便由信灾办进行事件跟踪和事件升级判断。另外,系统同城灾备切换可以作为日常故障处置的手段使用,但需要慎重判断后再进行使用。
4.2.1.3.4.事件报告
突发事件一旦发生和确认,信灾办应及时将突发事件及处理情况向上级责任岗位报告,特殊或紧急情况无法联络可越一级报告。
信灾办需要按照4.1.3节规定的沟通路径通知相关信息系统应急响应和灾难恢复组织成员。通知通报内容包括但不限于:突发事件性质、级别、影响范围、预计的恢复时间等。
通知通报方式包括:广播、电话、人工传话、传真、邮件等。
4.2.1.4.注意事项
当进行突发事件初始报告时,汇报人员应按照4.1.3节定义的报告路径进行报告,并提供以下信息:
-
您的姓名
-
可以找到您的电话号码和地点
-
对于事件的描述
-
于损失和伤亡的初步报告
当运行处监控人员接受一个突发事件报告时,应执行以下内容:
-
记录以下信息:
–姓名、位置、来电人的电话号码
–事故的描述
–关于损失和伤亡的初步报告
-
根据相关规定,通知上级岗位责任人和相关工作人员。
4.2.2.人员召集和建立指挥中心
4.2.2.1.目标
人员召集流程目标是在短时间内,通知相关信息系统应急响应及灾难恢复组织成员到达工作岗位,以便在规定时间目标内完成信息系统恢复工作。
4.2.2.2.人员职责
对于不同的突发事件等级,在本阶段灾难恢复组织各小组的工作职责如下表:
|
特别重大事件 |
重大事件 |
较为重大事件 |
1.总行应急处置领导小组 |
– |
– |
– |
2.总行应急处置办公室 |
– |
– |
– |
3.指挥组 |
–依据现场情况报告,决策是否集结信息系统灾难恢复组织团队; –发布集结指令 |
–依据现场情况报告,决策是否集结信息系统灾难恢复组织团队; –发布集结指令 |
–关注事件进展情况 |
4.信灾办 |
–搜集现场信息和其他相关信息,评估是否进行集结,并向指挥组汇报; –接收指挥组集结指令,向各执行小组发布指令;搜集各执行小组集结情况,向指挥组报告; –建立应急指挥中心; |
–搜集现场信息和其他相关信息,评估是否进行集结,并向指挥组汇报; –接收指挥组集结指令,确定人员召集范围,向相关执行小组发布集结指令;搜集相关执行小组集结情况,向指挥组报告; –建立应急指挥中心; |
–搜集现场信息和其他相关信息,并向指挥组汇报; –确定人员召集范围,发布集结指令;搜集相关执行小组集结情况 |
5.IT恢复组 |
– |
– |
– |
5.1.现场指挥员 |
–接收集结指令并到工作现场; –指挥现场抢修工作,搜集现场信息,信灾办报告; |
–接收集结指令并到工作现场; –指挥现场抢修工作,搜集现场信息,信灾办报告; |
–接收集结指令并到工作现场; –指挥现场抢修工作,搜集现场信息,信灾办报告; |
5.2.系统恢复小组 |
–接收集结指令; –除现场抢修人员外,所有成员按指定地点进行集结 |
–接收集结指令; –除现场抢修人员外,相关人员按指定地点进行集结 |
–接收集结指令; –除现场抢修人员外,相关人员按指定地点进行集结 |
5.3.网络设备恢复小组 |
–接收集结指令; –除现场抢修人员外,所有成员按指定地点进行集结 |
–接收集结指令; –除现场抢修人员外,相关人员按指定地点进行集结 |
–接收集结指令; –除现场抢修人员外,相关人员按指定地点进行集结 |
5.4.机房基础设施恢复小组 |
–接收集结指令; –除现场抢修人员外,所有成员按指定地点进行集结 |
–接收集结指令; –除现场抢修人员外,相关人员按指定地点进行集结 |
–接收集结指令; –除现场抢修人员外,相关人员按指定地点进行集结 |
5.5.应用恢复小组 |
–接收集结指令; –除现场抢修人员外,所有成员按指定地点进行集结 |
–接收集结指令; –除现场抢修人员外,相关人员按指定地点进行集结 |
–接收集结指令; –除现场抢修人员外,相关人员按指定地点进行集结 |
5.6.各分行IT恢复小组 |
–接收集结指令; –到分行数据中心集结 |
–接收集结指令; –必要时到分行数据中心集结 |
–接收集结指令; –必要时到分行数据中心集结 |
6.业务恢复组 |
– |
– |
– |
6.1.总行各部门业务恢复小组 |
–接收集结指令; –除现场抢修人员外,所有成员按指定地点进行集结 |
–接收集结指令; –除现场抢修人员外,相关人员按指定地点进行集结 |
–接收集结指令; –除现场抢修人员外,相关人员按指定地点进行集结 |
6.2.各分行业务恢复小组 |
– |
– |
– |
7.支持保障组 |
–接收集结指令; –除现场抢修人员外,所有成员按指定地点进行集结; –准备应急指挥中心所需资源; |
–接收集结指令; –除现场抢修人员外,必要时相关人员按指定地点进行集结 |
–接收集结指令; –除现场抢修人员外,必要时相关人员按指定地点进行集结 |
8.外部专家支持组 |
–接收集结指令; –除现场抢修人员外,所有成员按指定地点进行集结 |
–接收集结指令; –除现场抢修人员外,必要时相关人员按指定地点进行集结 |
–接收集结指令; –除现场抢修人员外,必要时相关人员按指定地点进行集结 |
4.2.2.3.任务描述
一.灾难恢复团队通和集结
当决定启动人员召集后,指挥组组长授权信灾办工作人员,按照事件汇报通知树的规则通知相关人员进行集结。信灾办通知各恢复小组负责人,再由各小组的负责人通知组内成员。
小组召集范围由指挥组根据突发事件性质及业务影响范围决定。由小组长根据突发事件影响程度决定召集小组成员范围。
各成员接到通知后,其所要报到的地点根据现场情况和性质及各实施工作组组长的要求而定。如果在正常上班时间需要从建筑物中撤离, 灾难恢复实施工作组将在XXXX集合。除此之外,小组成员也可能被要求在应急指挥中心集合。
二.建立信息系统应急指挥中心
应急指挥中心(Emergency Command Center,以下简称指挥中心)是在应急响应和恢复时期为指挥组提供的工作场所,用于进行应急协商、讨论和决策的指挥工作区域。
-
由指挥组组长指定以下指挥中心地点:
–首选:
–备用:
–第三场地:
-
信灾办工作人员通过以下流程启动和准备指挥中心:
–联系选择的指挥中心并且对将要到达的人员、设备和供给品进行安排。
–通知恢复团队成员指挥中心的地点和电话号码。
–如有必要,从异地备份点取回指挥中心运作所需要的基本设备和应急工具。(“应急工具包”样本所包含的内容参见5.2.2.2节)。
–在出入口,组织人员对指挥中心文档进行收发文签字记录。
–使用活动挂图、公告板、或者白板来建立:
-
简介说明板
-
通用信息板
-
人员区域控制板(张贴人员区域控制表)
一旦指挥中心进入运行状态,指挥组将对其持续运行负责。
-
支持保障组对指挥中心的设施保障、工作环境安全及人员食宿、交通等工作负责。
4.2.2.4.注意事项
为了降低通知次数,提高效率,人员召集可以和事件报告4.2.1.3.4同时进行。
对于特别重大和重大事件必须建立指挥中心,较为重大事件时指挥组可在现场临时办公。
具体人员通知和联络清单参见附件6.1。
灾难恢复组织人员召集路径如下图所示:
4.2.3.损害及影响评估
4.2.3.1.目标
评估突发事件对信息系统及业务处理所造成的影响范围和程度,以及业务数据的损失情况。
4.2.3.2.人员职责
信灾办 |
–负责搜集各工作组的损害及影响评估信息; –负责综合各工作组反馈的事件评估结果,向指挥组进行汇报; |
IT恢复组 |
–负责数据中心各信息系统硬件设备、操作系统的损害和影响评估; –负责数据中心网络系统设备、软件、线路的损害和影响评估; –负责数据中心基础设施,如供电设施、消防设施、温控设施等的损害评估; –负责对应用系统,包括中间件、数据库、应用软件的损害评估,协助业务恢复组对业务数据丢失情况进行评估; |
业务恢复组 |
–负责对业务数据丢失情况和业务功能影响情况进行评估。 |
支持保障组 |
–负责对人员伤亡、资源调配、数据中心安全情况进行评估。 |
外部专家支持组 |
–负责在各专业领域范围内,与各恢复工作组成员共同进行评估。 |
4.2.3.3.任务描述
IT恢复组现场指挥员有责任组织人员对总行数据中心和生产系统的损坏情况进行分析和评估。在评估情况的时候主要考虑以下几方面:
-
评估建筑物的状态:
–目前进入可能性
–潜在危险接近程度
–如果建筑物可以进入,安排并执行现场的损害检查
-
确定应急响应的状态:
–公共安全和消防急救机构的反应(消防部门、警察、急救中心等等)
–建筑物疏散情况
–人员伤亡情况
-
获取事件发生的相关信息,和其他支持人员进行协商,确定(如果可能):
–事故/事件的类型和本质
–事故/事件的地点
–发生时间
–怀疑原因
–损害范围
–影响情况
-
使用附件5.2.1提供的损害评估表,评估和记录基础设施、IT系统环境、通信网络、运行状态等损害信息,统计损坏和破坏物品清单并且确认这些物品的关键程度。在损害评估时,确定以下内容:
–伤亡:
受害者姓名和现状
受伤原因
潜在伤亡的可能性
–基础设施现状:
电力
公用设施
专用空调
机房环境
修复和替换设施的预计用时
–IT系统现状:
未受到损坏的
损坏但是可以使用
损坏,使用前需要抢修
彻底损坏
-
必要时协调物业管理和设备厂商来协助损害评估。
-
准备一个简短的书面总结,概括说明损失、可能的影响、预期的停机时间、恢复措施建议等。具体内容参见附件5.2.1。
-
提醒相关人员不要对任何媒体发表任何未记录在案的公众声明。所有来自外部和媒体的询问将转交给总行应急领导小组办公室进行处理。
现场指挥员汇总以上评估情况,并向信灾办汇报并请指挥组做下一步的决定。
4.2.3.4.注意事项
诊断引起信息系统故障或中断的原因时,需要评估启动灾难备份系统是否能有效接替生产系统的运行。比如:应考虑生产系统的错误数据是否被复制到灾备系统,或者生产系统的故障是否由应用的BUG导致的等因素,在这些情况下切换到灾备系统并不能达到重续运行的目的。
4.2.4.通知通报
4.2.4.1.目标
通知通报目标是将突发事件进展情况向行外及行内相关部门进行正式通报。
4.2.4.2.人员职责
应急处置领导小组办公室 |
–负责按照监管要求和国家法律法规,向银监会、人民银行、公安部等相关监管机构和部门进行通报和备案; –负责搜集突发事件进展情况以及相关决策信息,在必要时对公共媒体进行交涉和宣传。 –负责在必要时,与其他公共机构进行沟通和合作,联合应对突发事件。 |
信灾办 |
–负责向各实施工作组搜集突发事件处理的进展情况,和损害及影响评估信息; –负责综合各工作组反馈的事件评估结果,向指挥组进行汇报;负责传达指挥组及应急处置领导办公室的指令和工作指导意见。 –负责各工作组之间的沟通和协调,负责向行内相关部门和分支机构进行通知和通告; |
4.2.4.3.任务描述
一.对外
按照监管要求向国家金融监管机构和相关部门及时上报突发事件及处置情况:
-
对于特别重大突发事件,根据银监会的监管要求,应在15分钟之内将突发事件情况上报银监会及其派出机构信息系统应急管理部门,并在事件发生后2小时内提交正式书面报告。并且,应每2小时将应急处置进展情况上报,如有重大进展则及时上报,直至应急结束。(引自《银行业信息系统突发事件应急预案(征求意见稿)》)。
-
对于重大突发事件,应在30分钟之内将突发事件情况上报银监会及其派出机构信息系统应急管理部门,并在事件发生后2小时内提交正式书面报告。并且,应急处置有重大进展时,应将处理进展及时上报;处置时间超过一天的,应每日上报,直至应急结束。(引自《银行业信息系统突发事件应急预案(征求意见稿)》)。
在需要时同公共媒体进行交涉,进行公众公告,或进行媒体问答;
在需要时同其他外部机构进行沟通和合作,协同工作,共同应对突发事件。
二.对内
按照信息系统应急及灾难恢复组织架构体系和沟通路径,向组织成员及行内相关工作人员传达突发事件处理的最新情况,以及指挥组的工作指令和处置意见。
4.2.4.4.注意事项
需要向监管机构报备以及与媒体交涉的工作由总行应急处置领导小组办公室负责完成。所有需要公开的信息均需报送总行应急处置领导小组办公室,由其负责审核和对外宣传。
4.2.5.应急处置方案制定
4.2.5.1.目标
各实施工作小组依据突发事件造成的信息系统损坏情况、专业技术经验以及现场资源状况提出紧急处置措施建议,以便迅速恢复信息系统的正常运行。
4.2.5.2.人员职责
信灾办 |
–负责搜集各工作组的应急处置工作建议,并制定和形成综合处置方案 |
IT恢复组 |
–负责根据损害情况、以往经验和现场资源状况,提出信息系统的紧急处置措施建议和预计恢复时间; –负责根据损害情况、以往经验和现场资源状况,提出网络方面的紧急处置措施建议和预计恢复时间; –负责根据损害情况、以往经验和现场资源状况,提出基础设施方面的处置措施建议和预计恢复时间; –负责根据损害情况、以往经验和现场资源状况,提出数据库、中间件和应用软件方面的紧急处置措施建议和预计恢复时间; |
业务恢复组 |
–负责根据损害情况、以往经验和现场资源状况,为配合信息系统的应急恢复工作,提出响应的业务紧急处置措施、业务功能和数据检查办法及业务数据追补手段等。 |
支持保障组 |
–负责根据损害情况、以往经验和现场资源状况,提出人员调配、人员救助和抚恤、后勤保障及保安等紧急处置措施建议。 |
外部专家支持组 |
–负责在各专业领域范围内,协助各实施工作组成员共同进行分析,并提出相关建议。 |
4.2.5.3.任务描述
制定信息系统应急处置方案,需要考虑以下因素:
首先考虑信息系统的软硬件损坏程度和范围,以及信息系统数据丢失量大小;再综合考虑现场资源,如:数据及软件版本备份情况、硬件模块的备品备件、技术支持力量等,判断是否可以进行现场恢复;
考虑故障系统是否可以进行同城灾备切换。信息系统同城灾备切换是应对信息系统突发事件的重要应急处置措施,能解决大部分突发事件引起的信息系统运行中断情况。但是对于以下突发事件应全面统筹考虑后,再确认系统切换是否为合理有效的解决问题的手段:
-
应用软件发生逻辑处理错误;
-
人为误操作或破坏;
-
同城两中心间网络全部中断;
-
其他使备用数据与生产数据均产生错误的事件。
针对上述事件,结合事件的具体情况,可以考虑采取以下应急处置措施:
-
应用软件发生逻辑处理错误:
可以考虑恢复到上一版本的应用软件,并召集应用软件供应商或本行开发人员修改应用程序并测试后更新应用软件。同时,在需要时,会同业务恢复组进行业务数据调整和追补。
-
人为误操作或破坏:
根据误操作或破坏情况,考虑使用本地备份介质进行数据恢复,再进行业务数据检查、追补和调整等修复工作。
-
同城两中心间网络全部中断:
需要慎重对待系统切换,同城两中心间的网络全部中断后可能会造成两中心间的数据不一致或数据不可用。若决定不进行切换,则需根据网络故障情况,进行同城两中心间的网络系统紧急抢修工作。
-
其他使备用数据与生产数据均产生错误的事件:
根据事件情况,考虑使用本地备份介质进行数据恢复,在此基础上进行业务数据检查、追补和调整等修复工作。
4.2.5.4.注意事项
常用的应急处置方案可在日常工作中制定和维护,如:信息灾难恢复预案(即同城灾备切换方案),以便在突发事件来临时能够快速利用。
在应急处置方案制定时,应全面考虑各可选方案的可行性及可能的风险。
方案可以提出多种,供指挥组进行决策参考。
为了提高效率,此过程可以和损害评估合并进行。
4.2.6.应急处置决策
4.2.6.1.目标
应急处置决策是指挥组综合各方反馈的损害评估结果和提出的应急处置方案进行综合考虑,确定并启动整体应急处置方案,以保证在规定时间目标内信息系统能够恢复正常运行,保障全行的业务持续运作。
4.2.6.2.人员职责
对于不同的突发事件等级,在本阶段灾难恢复组织各小组的行动指导如下表:
指挥组 |
–关注和跟踪事件发展; –综合考虑各方因素,进行应急处置决策; –向信灾办发布应急处置命令。 |
信灾办 |
–搜集事件发展情况; –搜集各方应急处置意见,并综合后向指挥组汇报; –向各执行小组传达指挥组的应急处置命令。 |
4.2.6.3.任务描述
为了实现业务恢复时间目标,在突发事件发生后必须决定采取何种应急处置措施或方案的最后时间点被称作强制决策时间点。
如下图所示:
灾难恢复时间目标(RTO)指业务中断至业务恢复所需时间,强制决策时间点为RTO-n小时,其中n为支持业务运行的IT系统进行恢复所需的时间。相关的时间指标为:
-
灾难恢复时间目标为:RTO小时
-
IT系统灾难恢复时间目标为:A小时
-
业务检查及丢失数据追补时间为:B小时
因此:
强制决策时间点 = 灾难恢复时间目标
- IT系统灾难恢复时间目标
- 业务检查及丢失数据追补时间(可选项)
= (RTO – A– B)小时
IT系统灾难恢复时间:是根据测试和演练结果,对恢复时间估计的最大值;实际灾难发生时,若配备了熟练的技术人员的情况下,恢复所需的时间会小于此值。
如果在中断发生(RTO-A-B)小时后XXXXXXXX总行数据中心运行的关键业务处理系统仍无法恢复,则需要果断决策采用何种应急处置方案进行信息系统的恢复。
应急处置方案可以分为同城灾备切换方案和本地紧急恢复方案两大类。从XXXXXXXX数据中心突发事件处理的历史情况来看,大多数情况是以同城灾备切换作为处置手段进行系统恢复的。因此,可以将信息系统同城灾备切换的时间目标作为IT系统恢复时间目标。
指挥组组长或副组长是三级或三级以上突发事件应急处置方案的最终决策人。决策人将根据各方反馈的信息和处置建议进行综合考虑,最终确定综合应急处置方案,并发布实施指令,指挥实施工作组进行系统恢复工作。
4.2.6.4.注意事项
决策授权人需要根据实际情况,确定参与应急处置工作的实施工作组的范围。例如:若为系统故障,可以确定系统恢复小组参与,其他小组成员为随时待命状态。
4.2.7.信息系统恢复
4.2.7.1.目标
在应急处置决策下达后,各实施工作组按既定应急处置方案进行准备和实施,以便在规定时间内完成信息系统的恢复。
4.2.7.2.人员职责
对于不同的突发事件等级,在本阶段灾难恢复组织各小组的职责如下表:
|
特别重大事件 |
重大事件 |
较为重大事件 |
1.总行应急处置领导小组 |
– |
– |
– |
2.总行应急处置办公室 |
–组织协调各部门和外联单位资源以支持系统恢复工作 |
– |
– |
3.指挥组 |
–关注事件发展情况; –向应急处置领导小组组长汇报事态进展; –随时下达工作指令 |
–关注事件发展情况; –随时下达工作指令; |
–关注事件发展; –随时下达工作指令; |
4.信灾办 |
–搜集事件发展情况; –及时向指挥小组进行汇报; –组织协调信息系统相关资源以支持系统恢复工作; –向各执行小组传达工作指令; |
–搜集事件发展情况; –及时向指挥小组进行汇报; –组织协调信息系统相关资源以支持系统恢复工作; –向相关执行小组下达工作指令 |
–搜集事件发展情况; –及时向指挥小组进行汇报; –组织协调信息系统相关资源以支持系统恢复工作; –向相关执行小组下达工作指令 |
5.IT恢复组 |
– |
– |
– |
5.1.现场指挥员 |
–指挥现场各实施小组人员按既定应急处置方案进行系统恢复工作; –向信灾办汇报现场实施情况; –接受信灾办指令,并传达给各组组长 |
–指挥现场各实施小组人员按既定应急处置方案进行系统恢复工作; –向信灾办汇报现场实施情况; –接受信灾办指令,并传达给各组组长 |
–指挥现场各实施小组人员按应急处置方案进行系统恢复工作; –向信灾办汇报现场实施情况; –接受信灾办指令,并传达给各组组长 |
5.2.系统恢复小组 |
–若为信息系统故障,按既定应急处置方案进行系统恢复工作; –若非信息系统故障,配合其他小组,进行系统操作 |
–若为信息系统故障,按既定应急处置方案进行系统恢复工作; –若非信息系统故障,配合其他小组,进行系统操作 |
–若为信息系统故障,按既定应急处置方案进行系统恢复工作; –若非信息系统故障,配合其他小组,进行系统操作; |
5.3.网络设备恢复小组 |
–若未网络故障,按既定应急处置方案进行网络恢复工作; –若非网络故障,配合其他小组,进行网络操作 |
–若未网络故障,按既定应急处置方案进行网络恢复工作; –若非网络故障,配合其他小组,进行网络操作 |
–若未网络故障,按既定应急处置方案进行网络恢复工作; –若非网络故障,配合其他小组,进行网络操作 |
5.4.机房基础设施恢复小组 |
–若为基础设施故障,按既定应急处置方案进行基础设施恢复工作; –若非基础设施故障,配合其他小组,进行基础设施监控工作。 |
–随时待命 |
–随时待命 |
5.5.应用恢复小组 |
–若为应用软件故障,按既定应急处置方案进行应用和数据恢复; –若非应用软件故障,随时待命 |
–若为应用软件故障,按既定应急处置方案进行应用和数据恢复; –若非应用软件故障,随时待命 |
–若为应用软件故障,按既定应急处置方案进行应用和数据恢复; –若非应用软件故障,随时待命 |
5.6各分行IT恢复小组 |
–检查本分行系统状态和配置,并随时待命 –向信灾办汇报分行情况; |
–随时待命 |
–随时待命 |
6.业务恢复组 |
– |
– |
– |
6.1.总行各部门业务恢复小组 |
–配合信息系统恢复,进行业务功能、数据检查和数据追补的指导工作。 |
–配合信息系统恢复,进行业务功能、数据检查和数据追补的指导工作。 |
–配合信息系统恢复,进行业务功能、数据检查和数据追补的指导工作。 |
6.2.各分行业务恢复小组 |
–随时与总行对口业务部门保持联系,关注事件发展; |
–随时与总行对口业务部门保持联系,关注事件发展; |
–随时与总行对口业务部门保持联系,关注事件发展; |
7.支持保障组 |
–根据信灾办的指令调配相关信息系统相关资源 |
–根据信灾办的指令调配相关信息系统相关资源 |
–根据信灾办的指令调配信息系统相关资源 |
8.外部专家支持组 |
–现场协助XXXXXXXX进行系统和业务的恢复工作 |
–现场协助XXXXXXXX进行系统和业务恢复工作 |
–远程协助XXXXXXXX进行系统和业务恢复工作 |
4.2.7.3.任务描述
各实施工作组按照既定应急处置方案进行系统和业务的恢复工作。各工作组组长按照实际情况确定参与应急处置工作的组员,以及每个成员所在的工作位置(如:XXX数据中心、XX数据中心和总行大厦)。
若应急处置决策为系统同城灾备切换,即启动《信息系统灾难恢复预案》,由相关IT恢复组人员按照预案及相关系统切换操作手册进行IT系统切换和恢复工作。
若应急处置决策为本地紧急恢复,可参照日常系统操作手册和故障解决手册,按既定方案进行本地系统紧急恢复。
4.2.7.4.注意事项
信息系统恢复过程中需要按时进行评估、分析和上报,以便信灾办能够掌握各组实施情况,统筹安排和协调恢复进度。
4.2.8.对外营业确认
4.2.8.1.目标
对外营业确认是在信息系统恢复后进行业务功能检查、业务数据检查以及业务数据追补的过程,以确认受到影响的业务是否能够正式对外开放。
4.2.8.2.人员职责
指挥组 |
–根据各工作反馈的信息,确认是否对外恢复营业; |
信灾办 |
–负责搜集各工作组的恢复工作的进度信息; –负责传达对外恢复营业的指令; |
业务恢复组 |
–在信息系统成功切换后负责检查业务功能是否能够正常开展、业务数据是否丢失,并进行业务数据追补或补录工作; –向信灾办报告业务检查情况,并提出对外恢复营业申请。 |
4.2.8.3.任务描述
由于应用系统的多样性和复杂性,总行各业务部门需要根据本部门业务内容和特点,确定相应的恢复策略,按照业务恢复组成员的指导,统一安排,有序地开展业务恢复工作。包括:业务数据及参数的检查、业务功能的检查和数据追补工作等。
当上述工作完成后,经业务恢复组评估达到对外营业条件,并汇报给信灾办,由指挥组授权各分行恢复受影响业务的对外营业。
4.2.8.4.注意事项
在业务功能和数据检查时,可请应用恢复小组进行协助检查。
4.3.事件回顾和总结
事件回顾和总结是指在突发事件处理结束后,对整个事件过程进行记录梳理和经验总结的过程。
需要信灾办对突发事件应急响应过程的书面记录进行搜集或信息补录,整理和分析过程材料并编写报告,指挥组组长对报告进行审核签字后备案保存。信灾办负责组织讨论会,对突发事件应急响应过程进行经验总结,提出改进意见,并对业务连续性计划(IT部分)文档进行修订、发布和宣讲,提升信息系统灾难恢复组织成员乃至全行工作人员对信息系统突发事件的应急响应能力。
第5章附件
5.1.通讯联系表
填写说明:
-
请在备注栏说明人员在应急管理工作预计的工作位置计划,例如:事件现场、指挥管理中心恢复场地、其他备用工作场地(电信、厂商、分行)等。
-
在后备人员栏目中填写本人的工作备份人员。
5.1.1.信息系统应急响应及灾难恢复指挥组
信息系统应急响应及灾难恢复指挥组 |
|||||||
角色 |
姓名 |
办公室电话 |
家庭电话 |
移动电话 |
邮件 |
备注 |
后备人员 |
5.1.2.IT恢复组
IT恢复工作组 |
|||||||||
角色 |
姓名 |
办公室电话 |
家庭电话 |
移动电话 |
邮件 |
备注 |
后备人员 |
||
系统恢复小组 |
|||||||||
应用恢复小组 |
|||||||||
5.1.3.业务恢复组
业务恢复组 |
|||||||
角色 |
姓名 |
办公室电话 |
家庭电话 |
移动电话 |
邮件 |
备注 |
后备人员 |
总行各业务部门业务恢复小组 |
|||||||
5.1.4.支持保障组
支持保障组 |
|||||||
角色 |
姓名 |
办公室电话 |
家庭电话 |
移动电话 |
邮件 |
备注 |
后备人员 |
5.2.应急管理工作文档
5.2.1.损害评估工具表
5.2.1.1.基础设施评估表
编号 |
区域 |
项目 |
状态评估 |
预计修复时间 |
1. |
空调 |
|||
2. |
电 |
|||
3. |
水 |
|||
4. |
消防 |
|||
5. |
建筑结构 |
|||
6. |
其他…… |
|||
7. |
||||
8. |
||||
9. |
||||
编号 |
备注:附加信息 |
|||
1. |
||||
2. |
||||
3. |
||||
4. |
||||
5. |
||||
6. |
||||
7. |
||||
8. |
||||
9. |
5.2.1.2.IT系统环境评估表
区域: 总行数据中心 |
评估 |
|||||||
编号 |
项目 |
硬件故障 |
软件故障 (系统) |
可运行 |
预计修复时间 |
|||
是 |
否 |
是 |
否 |
是 |
否 |
|||
1 |
生产主机 |
|||||||
2 |
生产备份主机 |
|||||||
3 |
存储系统 |
|||||||
4 |
SAN交换机 |
|||||||
5 |
磁带机/磁带库 |
|||||||
6 |
打印机 |
|||||||
7 |
服务器 |
|||||||
8 |
…… |
|||||||
9 |
||||||||
10 |
||||||||
编号 |
备注:附加信息 |
|||||||
1. |
||||||||
2. |
||||||||
3. |
||||||||
4. |
||||||||
5. |
||||||||
6. |
||||||||
7. |
||||||||
8. |
||||||||
9. |
||||||||
10. |
5.2.1.3.通信网络评估表
区域: 总行数据中心 |
评估 |
|||||||
编号 |
项目 |
设备故障 |
线路故障 |
可运行 |
预计修复时间 |
|||
是 |
否 |
是 |
否 |
是 |
否 |
|||
1. |
核心交换机 |
|||||||
2. |
核心路由器 |
|||||||
3. |
接入路由器 |
|||||||
4. |
防火墙 |
|||||||
5. |
VPN |
|||||||
6. |
Internet |
|||||||
7. |
分行线路 |
|||||||
8. |
局域网 |
|||||||
9. |
…… |
|||||||
10. |
||||||||
编号 |
备注:附加信息 |
|||||||
1. |
||||||||
2. |
||||||||
3. |
||||||||
4. |
||||||||
5. |
||||||||
6. |
||||||||
7. |
||||||||
8. |
||||||||
9. |
||||||||
10. |
5.2.1.4.运行状态评估表
编号 |
评估内容 |
描述 |
预计修复时间 |
1. |
关键业务系统的状态 |
||
2. |
中断发生时正在处理的工作 |
||
3. |
当天已完成的工作/处理 |
||
4. |
在中断时未来得及完成的工作/处理 |
||
5. |
丢失或损毁的关键数据/信息 |
||
6. |
通信网络状态 |
||
7. |
本地恢复系统的可行性 |
||
8. |
异地数据复制的更新情况 |
||
9. |
可预测的数据处理运行于服务的中断时间 |
||
10. |
进行中的设备/系统维护工作 |
||
11. |
对设备/系统维护工作延迟的影响 |
||
12. |
其他…… |
||
编号 |
备注:附加信息 |
||
1. |
|||
2. |
|||
3. |
|||
4. |
|||
5. |
|||
6. |
|||
7. |
|||
8. |
|||
9. |
|||
10. |
5.2.1.5.评估结论汇总表
评估结论汇总表 |
|||
时间: |
评估负责人: |
||
事件发生时间: |
事件发生地点: |
||
1.事件损失情况简要描述: |
说明: |
||
2.总行数据中心本地恢复运行的可行性: |
说明: |
||
3.可预测的服务中断时间: |
说明: |
||
4.建议的抢修和拯救策略: |
说明: |
||
5.明确说明应急处置和恢复工作建议策略: |
说明: |
||
6.其他关键事项说明: |
说明: |
||
填写要求: 1.请填写人综合专家评估团队的意见给出统一的事件损害评估结论。 2.请明确填写以上问题评估结论。评估结论将直接影响指挥组开展应急指挥决策工作。 |
5.2.2.建立指挥中心和人员召集
5.2.2.1.人员通知流程
以下流程用于指导对灾难恢复团队成员进行通知的过程。
1.被通知人负责按照事件汇报通知树规则(参见4.2.2.4节) 通知下一级人员。
2.根据以下顺序选择紧急通知的通讯工具:
−办公室电话
−手机
−家庭电话
−短信
3.人员被通知后,请携带好手机、通讯终端和相应的电池充电器。
4.如果电话接通,说“我能和某某(这里是姓名)通话吗?”如果要找的人在线上则:
简要描述问题和情况;
告知被通知人不得对公众宣布情况;
告知报道/集合地点和时间信息;
5.如果你要找的人不在,不要和接听电话的人讨论灾难的情况。说“到哪里才能找到他(你要找的人)?”
如果回答是工作地点以外的任何地方,获得电话号码,打电话并提供上述信息。
如果回答是在单位,表示你需要打到单位找他。
否则通知管理层此人无法联系。
6.如果没有应答:
请用短信形式通知关键内容
记录下尝试通知的时间
过一会儿再打,直到联系上为止
用电话直接通知其下一级人员
7.如果联系信息无效(比如,错误的号码,人员已经搬家):
尝试找到新的联系电话来联络此人
通知管理层联系方式不正确
5.2.2.2.指挥中心应急工具包
样本 “应急工具包”物品清单(根据需要修改) 地址: 联系人: 电话: |
|
将清单放在储存物品上方 |
|
紧急事件指挥中心物品 |
|
物品 |
数量 |
预案的完全拷贝(纸面文件和电子格式文件) |
各1份 |
投影机 |
1 |
挂图 |
3 |
铅笔 |
10 |
铅笔刀 |
1 |
钢笔 |
10 |
水笔 (可擦和永久性的) |
各6根 |
平板纸 |
10 |
卷轴纸 |
2 |
胶带(透明胶带和带花纹胶带) |
各2卷 |
橡皮 |
1 包,各种类型组合 |
纸夹 |
2 盒 |
订书机和书钉 |
2 |
电话信息记录本 |
2 |
各类存放介质的塑料口袋 |
10 包 |
剪刀 |
2 把 |
防水粘贴 |
1 盒 |
彩色粘性姓名标签 |
1 盒 |
25’四芯延长线 |
1 |
电话延长线,25’有转接头 |
1 |
损害评估物品 |
|
物品 |
数量 |
身份标志(涉及区域的门禁卡、钥匙、门禁密码等) |
每人携带 |
有电池的手电筒 (检查过期时间) |
5 |
备用电池 (检查过期时间) |
5 套 |
安全保护设备(硬沿帽子防护服、工作服, 手套, 靴子、告警灯等) |
5 |
5 套 |
|
建筑蓝图 |
1 |
照相、摄影装置,用于现场记录,为以后设备的(保险)理赔工作保留原始记录(检查过期时间) |
1 个录音机, 2盒以上磁带、胶卷 |
通讯工具、双向无线通信设备带电池 |
5 |
电池供电的AM/FM 收音机 |
1 |
铅笔、记事簿、调查表格 |
5 |
5.3.灾难恢复范围和目标
5.3.1.系统中断影响的业务范围
5.3.2.灾难恢复的通讯网络
5.3.3.系统恢复优先级及目标
A类IT系统-恢复紧迫度高 |
|
|
文章内容转自twt企业IT社区,本内容由社区会员上传分享,仅用于交流学习,版权归原作者所有,如若侵权请联系删除。 点击“阅读原文”可下载原文档,觉得本文有用,请转发、点赞或点击“在看”,让更多同行看到
*本公众号所发布内容仅代表原作者观点,不代表公众号立场
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论