DORA · Operational resilience

Cuando una actualización paró el mundo: el apagón de CrowdStrike como caso de estudio DORA

Rejilla monolínea de puestos bajo un bus de actualización naranja; un bloque contiguo de máquinas marcadas en rojo como caídas. Leyenda: una dependencia, cada puesto, 8,5 millones de máquinas fuera de servicio.

Un solo archivo defectuoso dejó fuera de servicio 8,5 millones de máquinas Windows, paró vuelos y congeló mesas de trading. Bajo DORA, la pregunta ya no es «¿de quién es el fallo?» sino «¿dónde estaba su simulación?»

El 19 de julio de 2024, una actualización de contenido defectuosa de un agente de seguridad de endpoint muy extendido dejó incapaces de arrancar a unos 8,5 millones de sistemas Windows en cuestión de horas. Las aerolíneas inmovilizaron flotas, los hospitales volvieron al papel, y las instituciones financieras descubrieron que un solo archivo de terceros podía lograr lo que ningún atacante había conseguido. Sin adversario, sin malware, sin intrusión: exactamente eso lo convierte en el caso de estudio de resiliencia más limpio de la década.

El incidente

Un proveedor, un archivo de configuración, una distribución mundial. La actualización llegó a cada máquina con el agente prácticamente en el mismo instante, y el modo de fallo fue total: pantalla azul, arranque en bucle, recuperación manual equipo por equipo. La escala convirtió un defecto de software en meteorología de infraestructura.

La lectura regulatoria

El reglamento europeo de resiliencia operativa digital (DORA) no encuentra consuelo en la ausencia de atacante. Su exigencia central: que la perturbación de las TIC, maliciosa o no, se anticipe, se resista y se supere. Tres de sus pilares quedan directamente comprometidos: el riesgo de terceros TIC (el componente caído residía en lo profundo de casi todas las cadenas de suministro, a menudo por debajo de la visibilidad contractual), las pruebas de resiliencia digital (los escenarios deben cubrir perturbaciones severas pero plausibles; la caída simultánea de un agente de endpoint era plausible, severa y casi en ningún sitio simulada), y la notificación de incidentes (las instituciones tuvieron horas, no días, para entender y clasificar su propia exposición).

Lo que el cálculo habría cambiado

La dependencia era conocible: un inventario completo muestra el mismo agente en cada equipo, un punto único de fallo correlacionado. El radio de impacto era calculable: una simulación Monte-Carlo sobre ese inventario, la que DORA-MAST ejecuta para entidades financieras y cVaR para cualquier industria, tasa en términos de pérdida financiera el escenario «el agente de confianza cae en todas partes a la vez», convirtiendo una inquietud vaga en un número presentable al consejo. Y la recuperación es más rápida con las evidencias a mano: las instituciones que sabían exactamente qué máquina ejecutaba qué versión se recuperaron en horas; las que reconstruían su parque desde hojas de cálculo tardaron días.

Predecir, simular, remediar de antemano: nada de eso exigía clarividencia. Hacía falta un inventario, un modelo y la voluntad de calcular el camino infeliz antes de vivirlo.

La mayoría de las instituciones afectadas no tuvo mala suerte. No tuvo modelo.

The CCI angle

Solutions referenced: DORA-MAST · cVaR · EviGensee the products or talk to a practitioner.