一、确保开展严格的部署前测试
有效的部署前测试会在软件部署之前识别出错误的配置更新,从而避免用户遭受重大的运营中断。这种全面的测试方法不仅提高了软件的可靠性,还增强了用户的信任程度,并减少了昂贵的部署后修复费用和声誉受损风险。
二、优先考虑事件响应培训
安全事件响应培训在网络安全中至关重要,因为它使组织能够有效地处理和减轻安全事件带来的影响。这种培训为人员提供了必要的技能和知识,以迅速有效地应对各种网络威胁,例如恶意软件攻击、数据泄露和系统中断。
这是CrowdStrike猎鹰平台做得好的一点,由于该公司对逻辑错误的快速识别和纠正,减少了系统遭受停机和负面影响的程度,这显示了有准备充分的事件响应团队的重要性。适当的事件响应培训涉及制定一个全面的事件响应计划、演练和随时掌握最新的威胁情报。
三、促进国际网络安全合作
由于网络威胁具有全球影响的属性,因此国际合作在网络安全中至关重要。网络攻击者通常不受国界影响,因此组织协调全球响应对于有效打击这些威胁至关重要。这种合作包括在国家和组织之间共享威胁情报、最佳实践和事件响应策略。
此次CrowdStrike宕机事件影响了全球系统。这些受影响组织之间的国际合作和信息共享对于迅速有效地解决这种全球问题至关重要,能帮助不同国家的组织增强其整体的网络安全态势,提高其发现和应对威胁的能力,并降低网络事件造成的威胁风险。国际合作还促进了全球网络安全标准和框架的发展,促进了在安全实践方面的一致性和互操作性。
此外,研发团队的联手合作能够研究出应对新兴网络威胁的创新解决方案,进而使所有参与的国家受益。因为各国通力合作来应对共同挑战,这种协作方式还有助于建立信任和加强外交关系。总体而言,加强网络安全的国际合作对于为全球个体创造一个更安全的数字环境至关重要。
四、开展定期审计和测试
此次CrowdStrike宕机事件显示了开展定期审计和测试的重要性。本可以通过更频繁和更彻底的测试程序来识别到导致系统崩溃的错误更新。通过开展定期审计和测试,组织可以识别并纠正安全漏洞,确保其系统的完整性,并维持高水平安全。
这些实践还有助于不断提高组织的网络安全态势,提升其抵抗网络威胁的韧性。此外,定期审计和测试促进形成了主动应对网络安全的方法,使组织能够领先于潜在威胁并降低数据泄露和业务中断的风险。
五、网络安全专业知识和资金
此次CrowdStrike宕机事件凸显了快速识别和纠正问题所需的高水平专业知识和资源。网络安全威胁的复杂性、管理及减轻这些威胁的复杂性、对网络安全专业知识和资金的投入增加,对开发健全的系统和防止类似事件再次发生至关重要。随着网络攻击的发生频率和复杂性增加,组织必须优先考虑组建和维护一支强大的网络安全工作队伍。
这不仅包括雇佣熟练的专业人员,还包括投资于对人员的持续教育和培训。充足的资金确保这些专业人员能够获得必要的工具和技术来有效地保护组织的资产。此外,一个资金充足的网络安全计划使组织能够实施全面的安全措施、开展定期审计和测试、制定健全的事件响应计划。
六、在效率与安全之间取得平衡
确保在追求效率的过程中不绕过或忽视安全措施,是防止漏洞不被网络攻击者利用的关键。这涉及执行已被无缝集成到组织工作流程中的安全程序和控制措施,使同时实现效率和强大的保护成为可能。
各组织应该培养一种安全被视为运营流程的基本要素而非障碍的文化。通过这样做,组织可以实现在保持高水平安全的同时高效运营的一种平衡。此外,定期审查和更新安全政策和程序能确保这些政策和程序的有效性,并且确保其不会妨碍业务运营。
七、在事件期间保持透明沟通
此次CrowdStrike宕机事件凸显了快速和透明沟通的重要性,与客户的及时更新和清晰沟通有助于减轻事件影响,并指导客户完成补救措施。及时的沟通可以防止错误信息的传播、减少恐慌和维护信任。还能使所有人都意识到他们在减轻事件影响中承担的职责和责任,从而协同各方努力。
科技公司应该建立清晰的沟通程序和渠道,确保信息快速和准确地传播。这包括为不同类型的事件准备模板和指南,定期开展沟通演练,并更新所有利益相关者的最新联系名单。通过优先考虑快速沟通,科技公司可以增强其事件响应能力,降低安全事件的影响,并保护公司声誉。
八、分阶段推出更新
分阶段推出更新是管理新软件或系统变更部署的有效策略。通过分阶段发布更新,组织可以在全面部署更新之前观察小规模更新所带来的影响。这种方法能够较早地发现和解决问题,降低产生大规模宕机的风险。
此次CrowdStrike宕机事件同时影响了很多系统,凸显了分阶段推出更新的潜在优势。如果分阶段部署更新,逻辑错误可能在影响大量系统之前就被识别和纠正。
九、通过备份服务器和替代数据中心来确保业务连续性
备份服务器和替代数据中心是全面IT策略的关键组成部分,特别是对于那些严重依赖数字运营的企业。它们作为防止数据丢失和系统故障的保障措施,确保了业务连续性并减少停机时间。CrowdStrike事件凸显了对于制定稳健的灾难恢复计划的需求,以快速恢复受影响的业务并减少对企业运营的影响。
十、自动化日常IT流程,将人为错误降至最低
自动化系统降低了人为错误的可能性,确保流程的一致性,并使IT人员能专注于更有战略性的任务。例如,自动化备份解决方案可以安排并执行定期备份,无需人员手动干预,确保了备份的及时性且全面性。同样地,自动化工具可以管理更新和补丁安装,无需持续监督即可保障系统的安全性和及时更新。
有效的网络安全流程和措施本可以显著减轻此次CrowdStrike宕机事件带来的影响。在大规模部署之前定期开展测试更新,可能会较早地识别出有缺陷的更新。实施我们已经讨论过的其他推荐做法也能阻止我们现在面临的状况。
重要的是要承认并非一切事情都是负面的。CrowdStrike公司在事件响应和快速沟通方面处理得非常好。希望这一事件可以作为一个经验教训,提醒企业优先考虑网络安全,因为即使是小问题也可能产生重大的连锁反应。通过反思CrowdStrike公司做得好的地方和可以改进的地方,组织可以加强自身的网络安全措施,防止类似的事件未来再次发生。
原文始发于微信公众号(奇安信集团):史上最大规模宕机事件的10个重要教训
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论