DORA · Operational resilience

Когда одно обновление остановило мир: сбой CrowdStrike как кейс DORA

Монолинейная сетка конечных устройств под одной оранжевой шиной обновления; непрерывный блок машин, отмеченных красным как неисправные. Подпись: одна зависимость, каждая конечная точка, 8,5 миллиона машин отключено.

Один дефектный файл канала вывел из строя 8,5 миллиона Windows-машин, отменил рейсы и заморозил торговые залы. В рамках DORA вопрос больше не «чья вина?», а «где было ваше моделирование?»

19 июля 2024 года дефектное обновление контента в широко распространённом агенте безопасности конечных точек вывело из строя около 8,5 миллиона систем Windows в течение нескольких часов. Авиакомпании остановили флоты, больницы вернулись к бумажной работе, а финансовые учреждения обнаружили, что один сторонний файл способен сделать то, что не удалось ни одному злоумышленнику. Никакого противника, никакого вредоносного ПО, никакого взлома — именно это делает случившееся самым чистым кейсом по устойчивости десятилетия.

Инцидент

Один поставщик, один файл канала, одна глобальная рассылка. Обновление достигло каждой машины с работающим агентом практически одновременно, а режим отказа был тотальным: синий экран, петля перезагрузки, ручное восстановление на каждом устройстве. Масштаб превратил программный дефект в инфраструктурное метеорологическое явление.

Регуляторная интерпретация

Европейский закон о цифровой операционной устойчивости (DORA) не находит утешения в отсутствии злоумышленника. Его основное требование к финансовым структурам: сбои ИКТ, умышленные или нет, должны предвидеться, выдерживаться и преодолеваться. Три его столпа прямо задействованы: риск третьих сторон в области ИКТ (неисправный компонент находился в глубинах цепочки поставок почти каждой организации, зачастую ниже уровня контрактной видимости), тестирование цифровой устойчивости (сценарные тесты должны охватывать серьёзные, но правдоподобные сбои; одновременный отказ агента конечной точки был правдоподобным, серьёзным и почти нигде не моделировался) и отчётность об инцидентах (у учреждений были часы, не дни, чтобы понять и классифицировать собственную уязвимость).

Что изменили бы вычисления

Зависимость была познаваемой: полный инвентарь активов показывает одного и того же агента на каждой конечной точке — единую точку коррелированного отказа. Радиус поражения был вычислим: моделирование Монте-Карло по этому инвентарю, какое DORA-MAST запускает для финансовых структур, а cVaR — для любой отрасли, оценивает сценарий «доверенный агент одновременно отказывает везде» в финансовых потерях, превращая смутное беспокойство в число уровня совета директоров. И восстановление идёт быстрее при наличии доказательств: организации, точно знавшие, какие машины запускали какую версию агента, восстановились за часы; те, кто восстанавливал парк из таблиц, потратили дни. Автоматический сбор доказательств поддерживает этот ответ актуальным.

Предсказывайте, моделируйте, устраняйте заблаговременно: ничего из этого не требовало ясновидения. Требовался инвентарь, модель и воля рассчитать неблагоприятный путь до того, как его придётся пережить.

Большинство пострадавших организаций не были невезучи. Они просто не были смоделированы.

The CCI angle

Solutions referenced: DORA-MAST · cVaR · EviGensee the products or talk to a practitioner.