Cloudflare confirmó que la interrupción masiva que afectó a muchísimos servicios ayer no tuvo nada que ver con un incidente de seguridad, y lo más importante: no se perdió ningún dato.
El problema, aunque fue grave, ya está casi completamente solucionado. Todo comenzó a las 17:52 UTC, cuando uno de los componentes clave de su infraestructura (Workers KV, un sistema de almacenamiento de datos tipo clave-valor) se desconectó por completo. Esto provocó fallos en cadena en varios de los servicios de computación e inteligencia artificial que dependen de esa tecnología.
Por si no lo conoces, Workers KV es como una enorme base de datos distribuida que se usa dentro de Cloudflare Workers, la plataforma que permite ejecutar código sin necesidad de servidores. Es una pieza esencial, y cuando algo falla ahí, se siente en muchas otras partes del sistema.
Además, esta caída no solo afectó a Cloudflare, sino también a otros servicios ampliamente usados, incluyendo Google Cloud Platform, lo que explica por qué tantos usuarios notaron errores en distintas plataformas.
Tasa de error de KV de los trabajadores durante el incidente(Fuente: Cloudflare)
Conoce más: Apagón Masivo de Internet: Google, Cloudflare, Character.AI, Twitch...
Cloudflare explica su gran caída y lo que piensa hacer para evitar otra igual
Después del gran apagón de ayer jueves 12 de Junio de 2025, Cloudflare publicó una especie de "autopsia" del incidente, explicando qué pasó exactamente, cuánto duró y qué van a hacer para que no vuelva a suceder.
¿Cuánto tiempo duró?
La interrupción duró casi 2 horas y media. Todo empezó con un fallo en el sistema de almacenamiento que utiliza Workers KV, una pieza esencial del motor que hace funcionar muchos de los servicios de Cloudflare.
¿Y cuál fue la causa?
La culpa fue, en parte, de un proveedor de nube externo que tuvo su propio problema. Esa nube de terceros es la que respalda parte del almacenamiento de Workers KV. Cuando falló, tiró abajo en cadena varios servicios que dependen de esa estructura para funcionar.
Cloudflare lo explica así:
“La causa fue un fallo en la infraestructura de almacenamiento que usamos para Workers KV. Esta infraestructura es crítica, ya que se usa para configuración, autenticación y entrega de contenido en muchos productos nuestros.”
¿Qué servicios se vieron afectados?
Básicamente, casi todo el ecosistema de Cloudflare sufrió de alguna manera. Aquí te lo resumimos de forma clara:
-
Workers KV: tuvo un 90% de errores. Si no estaba en caché, simplemente no funcionaba.
-
Access, WARP y Gateway: fallos graves en login, autenticación y manejo de dispositivos. WARP no podía registrar nuevos dispositivos.
-
Panel de control y CAPTCHA (Turnstile): fallos en inicio de sesión y verificación. Se tuvo que usar un “interruptor de emergencia” que introdujo riesgo de reutilización de tokens.
-
Navegador remoto (Browser Isolation): no se podían iniciar ni mantener sesiones por errores derivados.
-
Stream, Imágenes y Pages: las transmisiones se cayeron, las cargas de imágenes fallaron por completo y las publicaciones de Pages se estrellaban con errores casi totales.
-
Workers AI y AutoRAG: quedaron totalmente fuera de servicio.
-
Objetos duraderos, D1 y colas: errores altos o servicios completamente inactivos.
-
Realtime y AI Gateway: también quedaron casi completamente inutilizables.
-
Zaraz y Workers Assets: fallos al cargar configuraciones, aunque el impacto al usuario final fue limitado.
-
CDN y Workers Builds: latencia alta, errores regionales y fallos totales en nuevas compilaciones.
En resumen, fue un desastre técnico de esos que dejan marcas.
¿Qué va a hacer Cloudflare ahora?
Cloudflare no se quedó de brazos cruzados. Ya anunciaron una serie de cambios importantes para mejorar la resiliencia de sus sistemas:
-
Menos dependencia de terceros: empezarán a mover Workers KV a Cloudflare R2, su propio sistema de almacenamiento de objetos. Esto les da más control y menos riesgo.
-
Capas de protección entre servicios: van a implementar barreras para evitar que un fallo en un área afecte a todas las demás.
-
Mejor recuperación progresiva: están desarrollando herramientas para restaurar los servicios de forma escalonada, evitando esos picos de tráfico que colapsan los sistemas en recuperación.
Conclusión: Un buen susto, pero también una buena lección
Aunque fue una caída importante y muy molesta para millones de usuarios y empresas, Cloudflare respondió rápido, fue transparente y ya está tomando medidas concretas para fortalecer su infraestructura.
Este tipo de incidentes, aunque no deseables, sirven para mejorar, y lo más importante: no hubo hackeo ni pérdida de datos. Solo una dependencia rota que puso en evidencia lo frágiles que pueden ser incluso las plataformas más grandes de Internet.