Los asistentes con inteligencia artificial (IA) están transformando la forma en que trabajamos, nos comunicamos y navegamos en internet. Herramientas como ChatGPT, Copilot de Microsoft, Gemini de Google o Claude de Anthropic permiten automatizar tareas complejas, programar, redactar documentos e incluso generar código en cuestión de segundos. Concebidos inicialmente como asistentes versátiles para ejecutar tareas cotidianas (desde agendar reuniones hasta administrar archivos), estos sistemas se han integrado rápidamente en nuestra vida diaria.
Sin embargo, el desarrollo vertiginoso de esta tecnología está mostrando un panorama paralelo preocupante, donde estos mismos agentes de IA podrían convertirse en armas al servicio del cibercrimen. Ya no se trata solo de asistentes obedientes, sino de sistemas que razonan, se adaptan y actúan con niveles de autonomía impensados hasta hace pocos años.
Reportes recientes de medios especializados como MIT Technology Review y plataformas como LLM Agent Honeypot advierten sobre el surgimiento de una nueva amenaza digital: asistentes de IA capaces de ejecutar ciberataques con una eficiencia sin precedentes, abriendo la puerta a un nuevo tipo de criminalidad automatizada que pone en jaque la ciberseguridad a nivel global.
El avance de los agentes que aprenden, piensan... y atacan
Los asistentes con inteligencia artificial ya no son como los bots de antes, que solo seguían instrucciones simples en entornos muy controlados. Los nuevos agentes de IA pueden entender el contexto, adaptarse a lo que pasa a su alrededor y actuar por su cuenta, sin necesidad de que alguien los esté guiando paso a paso. Es decir, ya no solo ejecutan tareas: piensan y deciden.
Empresas como OpenAI, Google y Anthropic están trabajando en sistemas cada vez más avanzados, como Operator, Jarvis o distintos agentes de prueba. Ya hay prototipos que pueden navegar por sitios web, manejar archivos, analizar información e incluso tomar decisiones operativas por sí mismos.
Y el avance es rápido. Según datos de Anthropic, su modelo Claude 3.7 Sonnet mejoró muchísimo en pruebas de ciberseguridad tipo Capture The Flag (CTF), que simulan ataques reales a sistemas informáticos. En apenas un año, pasó de tener un rendimiento “nivel secundaria” a resolver desafíos con una habilidad similar a la de un estudiante universitario. Más sorprendente aún: logró resolver el 33% de los retos sin necesidad de pensar mucho, frente al 5% que lograba en el año anterior.
Pero lo que de verdad empieza a preocupar a los expertos es cuando estos modelos se conectan con herramientas diseñadas para hacer ciberataques reales. Por ejemplo, en una prueba en conjunto con la Universidad Carnegie Mellon, Anthropic puso a Claude a interactuar con redes simuladas que tenían hasta 50 servidores.
Aunque por ahora estos agentes no pueden lanzar ataques súper complejos de forma completamente autónoma, cuando se les da acceso a herramientas desarrolladas por investigadores (como el kit de utilidades “Incalmo”) sí fueron capaces de replicar ataques comparables a robos masivos de datos sensibles. Y eso, aunque todavía esté en fase experimental, deja en claro hacia dónde se dirige esta tecnología... y por qué no podemos ignorarla.
Conoce más sobre: ¿Será la IA el arma clave de los cibercriminales en 2025?
El lado oscuro del potencial de los agentes con IA
Imagina servidores llenos de información aparentemente confidencial (como si fueran archivos del gobierno o bases de datos militares) diseñados no para protegerse, sino para atraer a intrusos. Ese es el corazón de uno de los experimentos más reveladores que se han hecho hasta ahora para entender cómo se comportan los agentes de inteligencia artificial cuando operan en escenarios reales. Estos servidores vulnerables, conocidos como “honeypots”, funcionan como trampas digitales para detectar agentes maliciosos y observar cómo actúan.
Una de las técnicas más interesantes usadas en estos entornos es la inyección de prompts: comandos ocultos que se incrustan en los sistemas para ver si un agente de IA los detecta y responde. Si lo hace, y lo hace rápido (en menos de 1,5 segundos), es una señal bastante clara de que no estamos ante un humano ni un bot convencional. Es una IA actuando por su cuenta.
Gracias a este enfoque, los investigadores lograron identificar ocho posibles agentes autónomos entre más de once millones de interacciones digitales. Dos de ellos fueron confirmados como reales, con origen en Hong Kong y Singapur, lo que sugiere que ya hay agentes IA activos operando de forma encubierta desde distintas partes del mundo.
El objetivo de este tipo de pruebas es detectar señales tempranas de lo que muchos temen: una nueva ola de ciberataques automatizados y dirigidos por agentes autónomos. Y la idea no es quedarse solo en servidores de prueba. Los planes apuntan a expandir estos “detectores” a redes sociales, bases de datos abiertas y sitios web vulnerables, para ver cómo estos agentes se comportan en entornos donde proliferan el spam, el phishing o la desinformación.
¿Por qué esto debería preocuparnos? Porque estos agentes tienen dos ventajas enormes sobre cualquier atacante humano: pueden operar a gran escala y a muy bajo costo. Algunos expertos ya advierten que si los ciberdelincuentes empiezan a delegar tareas como la selección de objetivos a estos sistemas, podríamos ver un salto masivo en la cantidad y la eficacia de ataques como el ransomware.
De hecho, según un informe reciente, los ciberataques aumentaron un 75% en el tercer trimestre de 2024. Las organizaciones recibieron en promedio casi 1.900 ataques semanales, y más de 1.200 de esos casos fueron ransomware dirigidos principalmente a hospitales, fábricas y organismos públicos.
Lo que hace que estos agentes sean especialmente difíciles de frenar es que no se comportan como los bots tradicionales. No siguen patrones repetitivos ni reglas fijas. Pueden observar un sistema, entenderlo y decidir cómo vulnerarlo. Esta capacidad de adaptación hace que las defensas clásicas (esas que buscan anomalías predecibles) no sean tan efectivas contra ellos.
Un problema que crece más rápido de lo que se puede controlar
Tanto en la industria tecnológica como en los gobiernos hay algo en lo que todos están de acuerdo: no podemos quedarnos de brazos cruzados. El momento de actuar es ahora. Muchos expertos comparan la situación actual con la que teníamos antes de que ChatGPT explotara en popularidad. Nadie sabe exactamente cuándo los agentes de IA van a ser capaces de ejecutar un ataque completo por su cuenta… pero podría pasar de un momento a otro, sin previo aviso.
Para tener una idea de lo rápido que están evolucionando, basta con mirar algunos estudios recientes. Por ejemplo, una prueba realizada en un entorno académico mostró que los agentes actuales pudieron explotar hasta el 25% de las vulnerabilidades informáticas descritas, incluso sin tener mucha información previa. En comparación, los bots clásicos apenas lograron hacer algo significativo.
Aunque hoy por hoy estos sistemas aún no representan un riesgo inminente de forma totalmente autónoma, su desarrollo avanza a un ritmo exponencial. Y eso es justamente lo que preocupa: no se trata solo de lo que pueden hacer hoy, sino de lo que podrían estar haciendo en cuestión de meses.
Como lo señaló un líder en ciberseguridad de una de las mayores empresas de la nube, algunos ataques se están volviendo más fáciles de ejecutar. Y aunque las herramientas de detección y respuesta siguen funcionando, la frecuencia y la escala de estos ataques podrían aumentar drásticamente si no se implementan cambios importantes pronto.