Magister CTO
Infraestructura

AWS US-East-1 sufre caída por fallo térmico en data center

Caída de AWS en US-East-1: Falla de refrigeración provoca interrupción crítica de servicios en EC2, EBS y Aurora

Incidente térmico provoca caída de AWS en la región US-East-1

Amazon Web Services (AWS) sufrió una significativa interrupción de servicio la madrugada del 13 de junio, tras un evento térmico en uno de sus centros de datos situados en la región US-East-1, una de las zonas más críticas y utilizadas por clientes a nivel global.


Impacto en los servicios críticos

El corte afectó a múltiples servicios AWS, incluidos EC2 (Elastic Compute Cloud), EBS (Elastic Block Store) y Aurora. La región US-East-1, ubicada en el norte de Virginia, es la más antigua y donde operan numerosas plataformas tecnológicas. Entre los clientes afectados se incluyen grandes compañías tecnológicas, servicios financieros y aplicaciones que requieren alta disponibilidad.

El problema comenzó alrededor de las 02:00 horas UTC, cuando AWS detectó temperaturas superiores a lo normal en parte del centro de datos. Como resultado, la compañía aplicó protocolos de emergencia y cerró algunos sistemas para prevenir daños mayores en el hardware.

  • Servidores EC2 dejaron de responder en varias zonas de disponibilidad.
  • Volúmenes de almacenamiento EBS experimentaron pérdida de conectividad.
  • Bases de datos en Aurora quedaron inaccesibles para algunos usuarios.

Respuesta y resolución de AWS

AWS informó en su panel de estado que el origen fue un fallo en los sistemas de refrigeración. Esto llevó al equipo técnico a intervenir de forma manual, restableciendo gradualmente la climatización y la infraestructura afectada. Los servicios comenzaron a volver a la normalidad en las siguientes horas, aunque algunos clientes reportaron incidencias residuales durante la mañana.

La compañía ha reiterado su compromiso con la disponibilidad, señalando que revisará sus sistemas térmicos para reforzar la resiliencia frente a este tipo de eventos. Este incidente se produce en un contexto de creciente demanda de infraestructura en la nube, donde la continuidad del negocio depende de la disponibilidad de los data centers.


Implicaciones para administradores y desarrolladores

Para CTOs, administradores de sistemas y desarrolladores, el incidente subraya la importancia de diseñar arquitecturas distribuidas y de disponer de planes de contingencia a nivel de región, incluso dentro de infraestructuras aparentemente robustas como AWS. También refuerza la necesidad de mantener sistemas de recuperación ante desastres actualizados y testados regularmente.

Para ampliar información sobre eventos y disponibilidad en AWS, se puede consultar la página oficial de estado de AWS y comunicados recientes relacionados con la infraestructura cloud.


Related Articles

Google Cloud lanza Axion N4A para computación Arm rentable

Javier Torres

Gartner alerta sobre riesgos de la IA para organizaciones TI

Javier Torres

Empleo en redes: tendencias en contratación y certificaciones

Javier Torres