# 点击蓝字,关注我们;设为星标,永不迷路#
01
前言
在这里为大家讲述各个关键阶段的工作价值和对应指标的计算方法,但首先需要明确,隐侠团队是不排斥数字“说话”的,前提是大家对于应急响应KPI的理解必须一致。需要避免后期在复盘的时候在KPI的时间上进行过多的争辩,正确理解KPI的含义,千万不要大手一挥,如:今年我们的MTTR要达到XX。
02
应急响应
应急响应(Incident Response,IR),是一种处理安全事件、漏洞和网络威胁的结构化方法。通常是指一个组织为了应对各种意外事件的发生所做的准备以及在事件发生后所采取的措施。
作为应对网络安全事件的紧急措施,可以在网络安全事件发生时迅速采取行动,最大程度地减少损失和影响。它包括快速识别和评估安全事件的严重性、分配资源、采取措施限制损失和影响、通知有关当局、评估风险和采取必要的修复措施等步骤。网络安全应急响应的重要性在于,它可以在网络安全事件发生时及时采取行动,减少损失和影响,防止事件进一步扩大,保护组织的安全和利益。同时,它还可以帮助组织加强安全意识,提高应对安全事件的能力和效率,为未来的网络安全保护提供经验和借鉴。
应急响应流程可以参考NIST其中明确了应急响应4个阶段并细分出了6个步骤。
❖ 准备阶段:人员、预案手册(Playbook)、工具;
❖ 检测与分析阶段:确认安全事件类型,明确事件等级;
❖ 遏制、根除和恢复阶段:立即止损,根据安全事件类型选择对应的遏制方法并制定恢复计划;
❖ 事后总结:从本次的安全事件中改进流程,并将新数据反馈到应急响应流程
MTTD
平均检测时间(MTTD —— Mean Time To Detect ),指用来衡量IT部署中的问题在相关方发现之前存在了多久的时间。MTTD 是 IT 事件管理中的关键绩效指标之一。相对于较长的MTTD,更短的MTTD意味着用户遭受IT中断的时间更短。MTTD也可称为平均识别时间(MTTI)。
事件来源可以是人——例如来自终端用户的软件中断报告,或者来源于系统监控和管理工具。通常为了减少中断,理想情况下,IT组织应努力比用户更早发现问题。MTTD KPI可以显示出IT监控技术能否收集到足够多的数据,以及能否涵盖所有可能的事件来源。
在对MTTD 的监控和能力提升中,逐渐明确组织需要以下平台和能力基础:
1. 大数据平台:能够存储、管理和处理大量的传感器数据、历史数据和日志数据。
2. 机器学习平台:能够利用机器学习算法对数据进行分析和预测,并提供相应的警报和告警机制。
3. 监控中心平台:能够对多个传感器进行集中监控和管理,实时监测设备状态和异常情况,并进行报警和通知。
4. 实时通信平台:能够与设备进行实时通信,获取设备的实时数据和状态信息。
5. 安全防护平台:能够保障监控系统的安全性,防止未经授权的访问和数据泄露。
MTTD 的计算方式为:在限定的成员及时间范围内,所有事件的检测时间之和除以事件数量。
还可以将此MTTD与前一个时间周期,或其他响应团队的MTTD对比,以衡量绩效。
例如,某企业的 24/7 IT运维团队对内部应用的MTTD进行跟踪。该团队在8月份经历8次事件,根据系统日志、入侵检测系统和用户反馈,确定了每个事件的开始和发现时间
有些组织还会通过严重性对事件分级。例如,安全问题的MTTD是否在降低,比轻微性能问题的MTTD减少更为重要。在这个例子中,最严重问题的MTTD明显低于整体的MTTD,为42.33分钟
MTTR
在提升组织的安全运营成熟度的过程中,需提升两个关键安全能力——快速检测和快速响应,对应衡量指标平均检测时间MTTD(Mean-Time-To-Detect)和平均响应时间MTTR(Mean-Time-To-Respond),持续改进这两者,可以降低被攻入组织所面临的风险和威胁。
计算MTTR可以帮助企业评估其故障修复效率,识别故障原因并采取措施来提高MTTR。
提高MTTR可以通过以下方法实现:
-
优化硬件和软件的可靠性和稳定性,减少故障的发生。
-
实施有效的监控和诊断工具,快速识别和解决故障。
-
培训员工以提高技能和知识水平,能够更快地识别和解决故障。
-
制定应急计划和备件库存计划,以确保在出现故障时能够快速恢复业务。
-
采用自动化技术,例如自动化测试和自动化部署,以减少人为干预,提高故障修复速度。如安全鞭炮技术等。
通过这些措施,企业可以提高MTTR并实现更快速的故障修复。
值得注意的是,MTTR还有多种解释,MTTR有4种不同的测量方法,这是由于R可以代表修复(repair)、恢复(recovery/restore)、响应(respond)和解决(resolve)。虽然这4个指标有重叠,但它们都有各自的含义和细微差别。安全人员通常关注的是平均响应时间这个指标就可以了。
1.平均修复时间(Mean time to repair)
MTTR是修复一个系统的平均时间。它包括维修时间和测试时间,直到系统再次完全运作。
MTTR = 将修复时间与恢复时间相加/修复次数
例如:一周内有10次停电,修复系统花费了4个小时。四个小时是240分钟。240除以10是24。这意味着在这种情况下,修复的平均时间是24分钟。
注意:平均修复时间并不总是与系统中断本身的时间相同。在某些情况下,修复这个动作是在产品故障或系统中断后的几分钟内开始。
2.平均恢复时间(Mean time to recovery/restore)
MTTR(平均恢复时间)是指从产品或系统故障中恢复的平均时间。这包括从系统或产品发生故障到其重新完全运作的整个中断时间。
MTTR = 将故障时间与恢复时间相加/故障数量
例如:我们的系统在24小时内在两个独立事件中停机了30分钟。30除以2是15,所以我们的MTTR是15分钟。
注意:这个指标它包括故障现象出现到告警发出的这段延迟时间与respond有着明显的区别。
3.平均解决时间(Mean time to resolve)
MTTR(平均解决时间)是指完全解决一个故障所需的平均时间。这不仅包括检测故障、诊断问题和修复问题的时间,还包括确保故障不会再次发生的时间。这个指标代表从“救火”到“防火”的转变。
MTTR = 将故障时间与完全解决之间的时间相加/故障数量
例如:你的系统在24小时内的一次事件中总共瘫痪了两个小时,而团队又花了两个小时进行修复,以确保系统中断不会再次发生,这就是解决该问题的总时间。这意味着你的MTTR是四个小时。
注意:MTTR 最常使用工作时间(8小时)计算(假设你在下班时将故障恢复,并在第二天上班时解决潜在问题,那么你的 MTTR 将不包括下班的16小时)。如果你的团队在能够7X24小时,或者有值班员工在下班后工作,那么这个指标将可以进行适当的微调。
4.平均响应时间(Mean time to respond)
MTTR(平均响应时间)是指从第一次收到警报时起,直到产品或系统从故障中恢复所需的平均时间。
MTTR = 检测告警与服务恢复之间的总时间/事件数量
示例:如果你在一个40小时的工作周里发生了四起事件,并且在这些事件上总共花了一个小时(从警报到恢复),那么你那一周的MTTR将是15分钟。
注意:平均响应时间不考虑问题已经存在但未被识别的时间。
MTTC
MTTC:平均遏制时间(Mean Time to contain)。MTTC是指安全团队找到威胁者并阻止他们进一步进入入侵系统和网络所需的时间。
MTTC = 分析调查与快速止损之间的总时间/事件数量
例如:自安全事件在12:10被检测到后,应急响应人员在12:45成功遏制了攻击者的利用方式并阻断了通讯隧道,有效地防止攻击者进行下一步入侵。
注意:遏制可能是隔离一个电子邮件账户,重设一个用户密码,或关闭一个服务器。遏制是走向恢复的第一步。应急响应团队越快遏制住威胁行为者,越能降低企业受到更大风险的可能性。
在当今快速变化的网络安全态势中,MTTC是最重要的安全绩效指标之一。MTTC是企业事件响应能力的试金石,可用于深入评估企业被攻击者绕过安全防御体系后迅速识别和有效缓解网络安全事件(或漏洞)的能力。
MTTC在一些方面甚至比MTTR还要重要,因为解决安全事件的总成本很大程度上取决于安全团队对突发事件的快速响应能力,响应时间越短,解决问题的成本就会越低。如果企业需要很长时间才能启动有效的响应机制和流程,这就反映出整体安全能力建设的不均衡。
降低MTTC不仅是网络安全目标,也是现代企业的战略要务。对安全漏洞的快速有效响应可以将异常灾难性数据泄露事件扼杀在摇篮中。为了有效降低MTTC,从而最大程度地减少安全事件的潜在影响,企业必须采用多种方法,包括主动安全措施、精细调整的事件响应程序以及先进技术的集成,具体如下:
-
主动安全措施
-
安全意识培训:对员工进行安全最佳实践教育,强调保持警惕和负责任的在线行为的重要性。知情的用户可以帮助及早检测和报告潜在威胁。
-
定期安全审计:对您的网络、系统和应用程序进行例行安全审核和评估,以在漏洞被利用之前识别出漏洞。
-
设计安全:通过遵循安全编码实践并在软件开发过程中进行安全审查,将安全性集成到开发过程中。
-
访问控制:实施严格的访问控制、最小权限原则和强大的身份验证方法,以限制对关键系统和数据的未经授权的访问。
-
高效事件响应程序
-
事件分类:根据严重性和潜在影响对事件进行分类,以便有效地确定响应的优先顺序。
-
事件响应团队:建立一支训练有素的事件响应团队,其中包括IT、安全、法律和通信专家。明确定义他们的角色和职责。
-
沟通计划:制定沟通计划,确保利益相关者在事件发生期间和事件发生后及时准确地得到通知。这有助于管理声誉损害。
-
记录:维护完整的事件记录,包括时间表、采取的行动和吸取的教训。该文档有助于事件后分析和报告。
-
先进技术集成
-
端点检测和响应(EDR):实施EDR解决方案以实时监控和响应端点上的可疑活动。
-
用户和实体行为分析(UEBA):利用UEBA工具检测用户和实体行为的异常情况,帮助识别内部威胁和高级持续威胁。
-
AI/ML:利用AI和ML算法分析大量数据,找出表明安全威胁的模式。这些技术可以提高威胁检测的准确性。
-
自动化和编排:自动执行重复的事件响应任务并编排工作流程以加速遏制和补救工作。
-
威胁情报源:订阅威胁情报源,随时了解新出现的威胁,并将这些情报纳入安全措施中。
-
持续改进
-
事件事后分析:进行事件后审查,分析响应的有效性并确定需要改进的领域。利用这些见解来增强事件响应程序。
-
模拟演练:定期模拟网络攻击场景,以测试事件响应准备情况并微调流程。
-
监管合规性:及时了解不断变化的法规和合规性要求,相应地调整安全措施和事件响应计划。
-
协作与信息共享:积极参与特定行业的信息共享和分析中心(ISAC),与同行共享威胁情报,以加强集体网络安全防御。
1.MTTD:告警群在12:05上报一起安全告警,(假设告警每5分钟同步一次到群里,理想情况下告警应近乎实时)。MTTD:5分钟(12:05 - 12:00 = 5)
2.MTTA:安全运营团队在12:10开始处理此告警并确认这是一起真实的网络入侵事件,同一时间应急响应团队介入。MTTA:5分钟(12:10 - 12:05 = 5)
3.MTTI:应急响应团队在12:25完成初步分析并根据已有应急预案拟定遏制方案。MTTI:15分钟(12:25 - 12:10 = 15)
4.MTTC:根据预案安全运营团队在12:35完成了安全组件的规则调整,并删除已识别的后门木马遏制了攻击者的利用“路径”。为后续的根除威胁争取到了充足的时间。MTTC:30分钟(12:35 - 12:05 = 30)
5.MTTR:12:50正式通知重新上线业务恢复对外服务。MTTR(Respond):45分钟(12:50 - 12:05 = 45)、MTTR(Recovery):50分钟(12:50 - 12:00 = 50)。
关注东方隐侠安全团队 为安全界刮起一股侠客风
东方隐侠安全团队,一支专业的网络安全团队,将持续为您分享红蓝对抗、病毒研究、安全运营、应急响应等网络安全知识,提供一流网络安全服务,敬请关注!
公众号|东方隐侠安全实验室
原文始发于微信公众号(东方隐侠安全实验室):事件响应指标:MTTR、MTTD、MTTC
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论