DORA · Operational resilience

Quando uma atualização parou o mundo: a falha CrowdStrike como caso de estudo DORA

Grelha monolinha de máquinas endpoint sob um único bus de atualização laranja; um bloco contíguo de máquinas assinaladas a vermelho como falhadas. Legenda: uma dependência, todos os endpoints, 8,5 milhões de máquinas inativas.

Um único ficheiro de canal defeituoso derrubou 8,5 milhões de máquinas Windows, imobilizou aviões e congelou salas de negociação. Sob o DORA, a questão já não é 'de quem é a culpa?' mas 'onde estava a sua simulação?'

A 19 de julho de 2024, uma atualização de conteúdo defeituosa num agente de segurança de endpoint amplamente implementado tornou cerca de 8,5 milhões de sistemas Windows incapazes de arrancar em apenas algumas horas. Companhias aéreas imobilizaram frotas, hospitais reverteram para papel e instituições financeiras descobriram que um único ficheiro de terceiros podia fazer o que nenhum atacante tinha conseguido. Sem adversário, sem malware, sem violação: é precisamente isso que o torna o caso de estudo de resiliência mais nítido da década.

O incidente

Um fornecedor, um ficheiro de canal, uma distribuição global. A atualização chegou a cada máquina que executava o agente praticamente ao mesmo momento, e o modo de falha foi total: ecrã azul, ciclo de reinício, recuperação manual por dispositivo. A escala transformou um defeito de software em fenómeno meteorológico de infraestrutura.

A leitura regulatória

O Regulamento Europeu de Resiliência Operacional Digital (DORA) não retira nenhum conforto da ausência de um atacante. A sua exigência central às entidades financeiras é que as perturbações nas TIC, maliciosas ou não, sejam antecipadas, resistidas e recuperadas. Três dos seus pilares estão diretamente envolvidos: o risco de terceiros nas TIC (o componente defeituoso situava-se profundamente na cadeia de abastecimento de quase todas as instituições, frequentemente abaixo da visibilidade ao nível contratual), os testes de resiliência digital (os testes de cenário devem cobrir perturbações severas mas plausíveis; a falha simultânea de um agente de endpoint era plausível, severa e quase nunca simulada) e a comunicação de incidentes (as instituições tinham horas, não dias, para compreender e classificar a sua própria exposição).

O que o cálculo teria mudado

A dependência era conhecível: um inventário de ativos completo mostra o mesmo agente em cada endpoint, um único ponto de falha correlacionada. O raio de impacto era calculável: uma simulação Monte Carlo sobre esse inventário, do tipo que o DORA-MAST executa para entidades financeiras e o cVaR executa para qualquer setor, quantifica em termos de perda financeira o cenário "agente de confiança falha em todo o lado ao mesmo tempo", transformando uma preocupação vaga num número apresentável ao conselho. E a recuperação é mais rápida com evidência disponível: as instituições que sabiam exatamente quais máquinas executavam que versão do agente recuperaram em horas; as que reconstituíam o seu parque a partir de folhas de cálculo demoraram dias. A recolha automatizada de evidências mantém essa resposta atual.

Prever, simular, remediar antecipadamente: nada disto exigia clarividência. Exigia um inventário, um modelo e a vontade de calcular o caminho infeliz antes de o viver.

A maioria das instituições afetadas não teve azar. Simplesmente não tinham modelo.

The CCI angle

Solutions referenced: DORA-MAST · cVaR · EviGensee the products or talk to a practitioner.