Falha na AWS US-EAST-1: o que aconteceu e como foi resolvido

Na madrugada de 19 para 20 de outubro de 2025, a Amazon Web Services (AWS) enfrentou um dos maiores incidentes operacionais recentes na região US-EAST-1 (N. Virginia). Durante quase quatro horas, diversos serviços — incluindo EC2, Lambda, DynamoDB e CloudWatch — apresentaram altas taxas de erro e latência.

O problema teve origem em uma falha no sistema de resolução DNS do DynamoDB, o que desencadeou uma reação em cadeia que afetou outros serviços interdependentes. A seguir, explicamos como o incidente se desenvolveu, quais foram as principais causas e como a AWS conduziu o processo de recuperação.

O início do problema: falha no DNS do DynamoDB

Entre 11h49 PM (19/out) e 2h24 AM (20/out), usuários começaram a relatar erros de conexão e lentidão ao acessar serviços hospedados na região US-EAST-1. Pouco tempo depois, a AWS confirmou que o problema estava relacionado a falhas na resolução de DNS dos endpoints regionais do DynamoDB.

Como muitos outros serviços da AWS dependem do DynamoDB — incluindo IAM, Lambda e Global Tables —, o impacto rapidamente se espalhou. A falha interrompeu não apenas o acesso direto aos bancos de dados, mas também afastou recursos críticos de autenticação e provisionamento.

Às 2h24 AM, a AWS conseguiu mitigar o problema principal no DNS. No entanto, o dano já havia se estendido para outros componentes internos, o que manteve diversos serviços instáveis por mais algumas horas.

Efeito cascata: EC2 e rede interna sob impacto

Após a resolução inicial do problema no DynamoDB, a AWS enfrentou uma nova falha no subsistema interno do EC2, responsável por iniciar novas instâncias. Esse componente também dependia do DynamoDB, o que tornou o processo de recuperação mais complexo.

Com o EC2 afetado, surgiram problemas adicionais nos Network Load Balancers (NLB) — peças centrais para manter a conectividade entre serviços. A degradação desses balanceadores impactou diretamente Lambda, DynamoDB, CloudWatch e SQS, resultando em falhas de invocação de funções, perda de monitoramento e atrasos na entrega de mensagens.

Portanto, mesmo após o conserto inicial, o efeito cascata entre os sistemas internos prolongou a indisponibilidade. Para estabilizar o ambiente, a AWS limitou temporariamente a criação de novas instâncias EC2 e o processamento de filas SQS. Essa estratégia ajudou a reduzir a sobrecarga e a garantir uma recuperação gradual.

Caminho para a recuperação: mitigação e estabilização

Entre 5h e 10h da manhã (PDT), as equipes da AWS implementaram mitigações em múltiplas zonas de disponibilidade (AZs). As primeiras zonas começaram a apresentar sinais de recuperação às 8h43 AM, quando os engenheiros identificaram que o problema persistente estava em um subsystem interno responsável pelo monitoramento dos NLBs.

Após estabilizar esse componente, a AWS iniciou a normalização do tráfego de rede e das chamadas de API, recuperando gradualmente serviços críticos. Por volta das 9h38 AM, os health checks dos NLBs foram restaurados e, ao longo do dia, os limites temporários de EC2 e Lambda foram removidos.

Às 3h01 PM, a AWS confirmou que todas as operações haviam retornado ao normal. Serviços como AWS Config, Redshift e Connect ainda processavam backlogs de mensagens, mas já sem impacto direto sobre os clientes.

Impactos e lições aprendidas

Incidentes na região US-EAST-1 tendem a ter grande repercussão global, já que muitos serviços e aplicações utilizam endpoints e recursos centralizados nessa região. Além disso, vários serviços globais da AWS — como IAM e DynamoDB Global Tables — dependem de endpoints em US-EAST-1, o que amplia o alcance dos impactos.

Esse evento reforça a importância de adotar estratégias de resiliência multirregional. Empresas que hospedam sistemas críticos na AWS devem considerar:

Distribuição de workloads entre múltiplas regiões (multi-region design).
Uso de políticas de failover automáticas via Route 53 para DNS.
Monitoramento independente para detectar degradações de serviço fora do ecossistema AWS.

Além disso, a falha destaca o quanto dependências internas entre serviços cloud podem transformar uma falha pontual em um apagão sistêmico. Portanto, arquiteturas modernas precisam incluir mecanismos de isolamento e redundância que limitem o efeito cascata de falhas.

Conclusão

O incidente de outubro de 2025 no AWS US-EAST-1 demonstrou que mesmo provedores de nuvem com altíssima confiabilidade estão sujeitos a falhas complexas. A rápida recuperação e a comunicação contínua da AWS mostraram eficiência operacional, mas também evidenciaram a necessidade de melhores práticas de design distribuído por parte dos clientes.

Em um cenário em que a dependência da nuvem é cada vez maior, compreender as causas e os efeitos desses incidentes é fundamental para construir infraestruturas mais resilientes e menos vulneráveis a pontos únicos de falha.

About The Author

André Ortega

Formando em Processamento de Dados e Ciência da Computação. Especialista Cisco (CCNP Enterprise e CCNP Security). Vinte anos de experiência com redes e segurança.

See author's posts

Relacionado

victorinoadmin em Componentes AVI Networks Load Balancer (NSX Advanced Load Balancer)24/11/2025
Ótimo material! Seria bem legal se aprofundar mais no tema.
./fernando em Aprenda Python e ganhe pontos para renovar as certificações CCNA, CCNP e CCIE29/10/2024
Excelente conteúdo, André! Obrigado por compartilhar.
André Ortega em Reset Cisco FTD (zerar FTD sem reinstalar)18/10/2024
Quando é feito o reset, sim volta a ter os 90 dias de trial. No procedimento acima, confesso que não…
ALEX LIRA CAMACHO em Reset Cisco FTD (zerar FTD sem reinstalar)15/10/2024
Muito boa a dica, mas ficou a duvida sobre a licença, com reset de fabrica ela volta para os 90…
André Ortega em Atualizando Cisco 9300 (Install Mode)30/08/2024
Olá Dominique. Essas são os arquivos usados para cada modo (install ou bundle). O modo install (que "quebra o arquivo…

André Ortega

Senhas vazadas em escala: lições do relatório 2026

Patch Tuesday de janeiro/2026: riscos críticos para clientes VPN

Campanha coordenada mira gateways VPN Cisco e Palo Alto

You may have missed

Configurando Syslog no Cisco Firewall (FMC)

Como identificar um MAC Address aleatório (Locally Administered)