Microsoft ha informado a sus clientes empresariales que, durante casi un mes, un error provocó la pérdida parcial de registros de seguridad clave, lo que podría haber dejado a las empresas más vulnerables al no poder detectar actividad sospechosa o no autorizada.
Este problema fue reportado inicialmente por Business Insider a principios de este mes, explicando que Microsoft había comenzado a notificar a sus clientes sobre la inconsistencia en la recopilación de datos entre el 2 y el 19 de septiembre. Los registros perdidos incluyen información de seguridad crucial que normalmente se utiliza para monitorear tráfico, comportamientos sospechosos e intentos de inicio de sesión en las redes, lo que aumenta el riesgo de que posibles ataques pasen desapercibidos.
Una revisión preliminar del incidente, compartida con los clientes y también publicada por Joao Ferreira, MVP de Microsoft, ha arrojado más luz sobre el problema. La revisión indica que la situación fue aún más grave para algunos servicios y que los problemas de registro continuaron hasta el 3 de octubre.
Según la revisión de Microsoft, los siguientes servicios fueron afectados, aunque el grado de impacto varía según el servicio:
Microsoft Entra: Los registros de inicio de sesión y de actividad pudieron estar incompletos. Además, los registros de Entra que se envían a través de Azure Monitor hacia productos de seguridad como Microsoft Sentinel, Microsoft Purview y Microsoft Defender for Cloud también se vieron afectados.
Azure Logic Apps: Se detectaron brechas intermitentes en los datos de telemetría dentro de Log Analytics, así como en los registros de recursos y configuraciones de diagnóstico de Logic Apps.
API de Azure Healthcare: Los registros de diagnóstico fueron parcialmente incompletos.
Microsoft Sentinel: Se identificaron posibles brechas en los registros o eventos de seguridad, lo que afectó la capacidad de los clientes para analizar datos, detectar amenazas y generar alertas de seguridad.
Azure Monitor: Hubo interrupciones o reducción de datos al ejecutar consultas basadas en los registros de los servicios afectados. Si los clientes tenían alertas configuradas basadas en esos datos, es posible que no se activaran correctamente.
Azure Trusted Signing: Los registros SignTransaction y SignHistory estuvieron incompletos, lo que redujo el volumen de registros de firma y causó problemas de facturación insuficiente.
Azure Virtual Desktop (AVD): Los datos en Application Insights estaban parcialmente incompletos, aunque la conectividad y la funcionalidad principal de AVD no se vieron afectadas.
Power Platform: Se detectaron pequeñas discrepancias en varios informes, incluyendo informes de análisis en los portales de administración y creación, informes de licencias, exportaciones de datos a Data Lake, Application Insights, y el registro de actividad.
Microsoft explicó que todo esto fue provocado por un error que se introdujo al intentar solucionar un problema diferente en su servicio de recopilación de registros. En otras palabras, al corregir un fallo, se creó accidentalmente otro que terminó afectando a varios servicios importantes.
Podría interesarte leer: Aprovecha Microsoft Azure para Cumplir con la Normativa NIS2
"El cambio inicial fue para solucionar un límite en el servicio de registro, pero cuando se implementó, desencadenó inadvertidamente una condición de bloqueo cuando se le indicaba al agente que cambiara el punto final de carga de telemetría de una manera que cambiaba rápidamente mientras se estaba realizando un envío al punto final inicial. Esto resultó en un bloqueo gradual de los subprocesos en el componente de envío, lo que impidió que el agente cargara la telemetría.
El bloqueo solo afectó al mecanismo de envío dentro del agente, mientras que otras funcionalidades funcionaban normalmente, incluida la recopilación y la confirmación de datos en la memoria caché local duradera del agente. Un reinicio del agente o del sistema operativo resuelve el bloqueo y el agente carga los datos que tiene dentro de su memoria caché local al iniciarse.
Hubo situaciones en las que la cantidad de datos de registro recopilados por el agente era mayor que el límite de la memoria caché del agente local antes de que se produjera un reinicio y, en estos casos, el agente sobrescribió los datos más antiguos en la memoria caché (el búfer circular retiene los datos más recientes, hasta el límite de tamaño). Los datos de registro que superan el límite de tamaño de la memoria caché no se pueden recuperar". Microsoft.
Microsoft comentó que, aunque lograron corregir el error siguiendo prácticas de implementación seguras, no lograron detectar el nuevo problema de inmediato. Se tardaron varios días en identificarlo y comenzar a solucionarlo. En una declaración a TechCrunch, John Sheehan, vicepresidente corporativo de Microsoft, aseguró que el error ya ha sido resuelto y que todos los clientes afectados han sido notificados.