Cloudflare revela motivo do pior apagão em seis anos

Cloudflare revela motivo do pior apagão em seis anos

Rede da Cloudflare ao redor do mundo (imagem: divulgação)

Resumo

A Cloudflare enfrentou um apagão de cinco horas devido a uma atualização incorreta no sistema anti-bot, afetando plataformas como ChatGPT e X.
O CEO Matthew Prince assumiu a responsabilidade e anunciou medidas técnicas, incluindo validação rigorosa de arquivos e botões de emergência globais.
A falha começou com uma consulta mal configurada no ClickHouse, causando duplicação de dados e erros HTTP 5xx.

A Cloudflare enfrentou sua pior interrupção desde 2019 na terça-feira (18/11), deixando fora do ar plataformas globais como ChatGPT, X e até o site do Tecnoblog por cerca de cinco horas. A falha foi causada por uma atualização incorreta no sistema anti-bot, que gerou sobrecarga em servidores críticos após duplicação acidental de dados de configuração.

Num comunicado oficial, seu CEO assumiu a responsabilidade pelo incidente, inicialmente confundido com um ataque DDoS, e anunciou quatro medidas técnicas para evitar novas quedas. Entre elas, estão mecanismos de desligamento emergencial e revisão rigorosa de arquivos internos, parte de esforços para fortalecer a infraestrutura da empresa.

Problema começou em sistema anti-bot

O CEO Matthew Prince explicou que a falha ocorreu durante atualização de segurança no ClickHouse, sistema de análise de dados usado internamente. Uma consulta mal configurada passou a listar colunas duplicadas após mudança de permissões. Isso fez o arquivo de configuração pesar duas vezes seu tamanho normal.

Clientes que não usavam a função anti-bot permaneceram online.

Gráfico do volume de erros HTTP 5xx na rede da Cloudflare em 18/11 (imagem: divulgação)

O sistema de proxy central entrou em colapso ao carregar o arquivo corrompido, gerando erros HTTP 5xx. Serviços como Workers KV e Cloudflare Access também foram afetados indiretamente. Inicialmente, a equipe suspeitou que fosse um ataque DDoS de grande escala.

Falha afetou serviços globais por horas

A partir das 8h28, cerca de 20% dos sites que usam a rede da Cloudflare começaram a apresentar falhas. Até a página que dá o status da operação da Cloudflare ficou offline, indicando falsamente suspeitas de ataque. A equipe identificou o real problema às 11h24.

“Dada a importância da Cloudflare no ecossistema da internet, qualquer interrupção em qualquer um dos nossos sistemas é inaceitável. O fato de ter havido um período em que nossa rede não conseguiu rotear tráfego é profundamente doloroso para cada membro da nossa equipe. Sabemos que falhamos com vocês hoje.”

– Matthew Prince, CEO da Cloudflare

A recuperação exigiu a substituição manual do arquivo defeituoso e a reinicialização dos servidores. O tráfego normalizou gradualmente até as 14h06.

“Em nome de toda a equipe da Cloudflare, gostaria de pedir desculpas pelos transtornos que causamos à Internet hoje.”

– Matheus Prince, CEO da Cloudflare

Empresa lista medidas para o futuro

A Cloudflare detalhou quatro medidas técnicas para evitar a repetição do problema. Em resumo, são elas:

Validação rigorosa de arquivos internos: Tratar configurações geradas pela própria Cloudflare como se fossem dados externos, com verificações automáticas de tamanho e formato antes de serem aplicados;

Botões de emergência globais: Criar mecanismos para desligar rapidamente funções problemáticas em toda a rede, como “freios de emergência” digitais;

Controle de relatórios de erro: Limitar automaticamente o volume de logs e registros detalhados de falhas (core dumps) para evitar que congestionem servidores durante crises;

Testes de cenários extremos: Simular falhas em módulos essenciais (como o proxy que roteia tráfego) para identificar gargalos e adicionar redundâncias, garantindo que um erro não derrube todo o sistema.

A companhia também reconheceu atrasos na recuperação de seu próprio dashboard interno durante a crise, prometendo melhorar a escalabilidade de sistemas críticos para equipes de resposta rápida. As medidas começam a ser implementadas imediatamente, com prioridade para os botões de emergência e a validação de arquivos.

Com informações de The Verge
Cloudflare revela motivo do pior apagão em seis anos

Cloudflare revela motivo do pior apagão em seis anos
Fonte: Tecnoblog