Sophos AI en Black Hat USA '25: Detección de Anomalías.

Escrito por Adriana Aguilar | Aug 14, 2025 1:00:00 PM

En ciberseguridad, la detección de anomalías promete identificar amenazas destacando comportamientos “fuera de lo normal”. El problema práctico, como seguro has vivido, es la avalancha de falsos positivos cuando intentas detectar líneas de comando maliciosas: ruido, fatiga de alertas y tiempo perdido.

La investigación presentada por Sophos en Black Hat USA 2025 plantea un giro interesante: no uses la detección de anomalías como único “cazador”, úsala como fuente de datos benignos poco comunes para entrenar mejor tus clasificadores supervisados. ¿El resultado? Muchos menos falsos positivos y más foco en lo verdaderamente malicioso.

El cambio de enfoque: de “encontrar lo malo” a comprender mejor lo legítimo

La idea clave es alimentar (no sustituir) tus modelos supervisados con comandos anómalos pero benignos. Para eso, Sophos combinó dos piezas:

Detección de anomalías para localizar comandos poco frecuentes.

Etiquetado automático con LLMs (usaron o3-mini de OpenAI) para clasificar esos comandos anómalos como benignos o maliciosos con alta precisión.

Lo contraintuitivo es que el éxito no depende de que la detección de anomalías encuentre lo malicioso, sino de que, al identificar “rareza benigna”, ensancha el entendimiento del modelo sobre lo que es normal en tu entorno. Ese “catálogo de benignos complejos” es lo que reduce drásticamente los falsos positivos.

Cómo se hizo: datos, features y dos estrategias de escala

Durante enero de 2025, la investigación procesó más de 50 millones de líneas de comando diarias con dos enfoques de ingestión y “featurización”:

Implementación a escala completa (toda la telemetría)

Infraestructura: Apache Spark + AWS SageMaker con auto-escalado.

Ingeniería de características manual, centrada en:

Entropía (complejidad/aleatoriedad del comando).

Nivel carácter (presencia de tokens/Caracteres especiales).

Nivel token (frecuencias y significancia en distribuciones).

Checks de comportamiento (indicadores de ofuscación, transferencias de datos, credential dumping, memoria, etc.).

Ventaja: cobertura total y granularidad.

Desafío: coste computacional elevado.

Implementación a escala reducida (muestras diarias ~4 M de líneas)

Embeddings semánticos con Jina Embeddings V2 (preentrenado en comandos, scripts y código).

Cómputo viable en SageMaker GPU y EC2 CPU de bajo costo.

Sin feature engineering manual: el vector semántico captura relaciones complejas entre comandos.

Ventaja: coste mucho menor y despliegue más simple.

Desafío: al muestrear, puedes tardar más en cubrir toda la diversidad.

Lo importante: Ambos caminos funcionaron, ofreciendo alternativas según tu presupuesto y necesidades de tiempo de cómputo.

Conoce más: Sophos es más que un Antivirus, es seguridad robusta para las empresas

Detección de anomalías: tres algoritmos complementarios

Tras featurizar, identificaron anomalías con tres métodos no supervisados que se solapan para dar robustez:

Isolation Forest: aisla puntos raros dividiendo el espacio en particiones aleatorias.

k-means modificado: usa la distancia al centroide para detectar puntos alejados de las tendencias comunes.

PCA (análisis de componentes principales): busca altos errores de reconstrucción en el subespacio proyectado.

Este ensamble hace que no dependas de un único criterio de “rareza”.

Figura 1: Distribución acumulativa de líneas de comando recopiladas por día durante el mes de prueba utilizando el método a gran escala. El gráfico muestra todas las líneas de comando, la deduplicación por línea de comando única y la casi deduplicación por similitud coseno de las incrustaciones de líneas de comando. (Fuente: Sophos)

Evitar duplicados: embeddings + similitud coseno

Muchas anomalías son variantes casi idénticas (p. ej., cambiar un parámetro). Para no sobreponderar un patrón, deduplicaron candidatos con embeddings (Jina) y similitud coseno, quedándose con anomalías realmente distintas antes de etiquetar.

Etiquetado automático con LLM y validación

El LLM de razonamiento o3-mini etiquetó cada anomalía como benigna o maliciosa. La validación manual posterior mostró precisión casi perfecta en lo benigno durante una semana completa de datos, suficiente para integrar directamente esos benignos a los conjuntos de entrenamiento con mínima intervención humana.

Traducción operativa: puedes ampliar tu dataset de “buenos” sin contratar un ejército de analistas, y con confianza estadística.

Podría interesarte leer: Sophos NDR (Network Detection and Response)

¿Y los resultados? Menos ruido, más señal

Evaluaron los modelos con dos benchmarks:

Time split test: tres semanas posteriores al entrenamiento.

Incident test AUC: conjunto con etiquetas de analistas (investigaciones reales + active learning).

Compararon dos líneas base:

RB (Regex Baseline): etiquetas por reglas regex simples.

AB (Aggregated Baseline): etiquetas de regex + sandbox + casos de clientes + telemetría (pipeline más maduro).

Mejoras al añadir benignos “derivados de anomalías”:

AB → AB + Full-scale: +27.97 puntos AUC en el benchmark de incidentes (de 0.6138 a 0.8935).

AB → AB + Reduced-scale: AUC 0.8063 en incidentes (mejora relevante con menos coste).

RB → RB + Full-scale: de 0.7072 a 0.7689 en incidentes.

RB → RB + Reduced-scale: AUC 0.7077 (menor impacto, pero mantiene Time split altísimo).

En todos los casos, el ruido (falsos positivos) baja, y la detección útil sube.

Figura 2: Distribución acumulativa de líneas de comando recopiladas por día durante el mes de prueba utilizando el método de escala reducida. La escala reducida se estabiliza más lentamente porque los datos muestreados probablemente están encontrando más óptimos locales. (Fuente: Sophos)

Qué significa para ti (y cómo adoptarlo paso a paso)

Prepara datos y plataforma

Centraliza telemetría de comandos (EDR, shells, scripts, remote tools).
Asegura gobernanza (retención, PII, minimización de datos).

Define capacidad de cómputo: spark-like (escala completa) o embeddings batch (escala reducida).

Orquesta la detección de anomalías

Ejecuta Isolation Forest + k-means modificado + PCA.
Establece umbrales por entorno/rol (servidores, VDI, CI/CD, jump hosts).

Deduplica con embeddings

Genera embeddings y filtra por similitud coseno (quita clones).

Etiqueta con LLM (y define guardrails)

LLM para etiquetado benigno/malicioso.
Política de seguridad: el LLM no autoriza acciones, solo etiqueta.
QA periódico: muestreo manual para medir deriva y recalibrar.

Reentrena tus clasificadores supervisados

Incorpora los benignos complejos a tu dataset.
Valida con Incident test AUC y Time split test.
Mide tasa de falsos positivos por dominio (SO, segmento, turno, equipo).

Mantenimiento continuo

Drift monitoring (cambios de patrón).
Retraining schedule (mensual/trimestral).
Red teaming para forzar casos límite.

Riesgos y cómo mitigarlos

Dependencia ciega del LLM: limita su rol al etiquetado, con QA recurrente.
Datos sensibles: anonimiza y segmenta; aplica mínimo privilegio en pipelines.
Coste: si tu carga es grande, empieza por escala reducida con embeddings.
Deriva del entorno: monitoriza cambios (nuevas herramientas, DevOps, golden images).

Lee más: ¿Qué es Sophos y cómo mejora la ciberseguridad empresarial?

Conclusión: la detección de anomalías no “falló”; solo tenía otro trabajo

El aprendizaje de la investigación es potente: usar anomalías para ampliar lo benigno (y no para “adivinar lo malo” a ciegas) cambia el juego. Con esa diversidad benigna alimentando tus clasificadores, disminuyen los falsos positivos, el SOC respira, y tu equipo se concentra en lo crítico.

Recuerda que en TecnetOne, somos socios certificados de Sophos y estamos siempre para ayudarte a ti y a tu empresa a estar siempre actualizados en el ámbito de la tecnología, obteniendo los servicios de más alta calidad.

Ver post completo