La inteligencia artificial avanza a una velocidad impresionante, pero también lo hacen las formas de manipularla. Hoy, un equipo de investigadores reveló algo tan sorprendente como preocupante: puedes engañar a muchos modelos de IA simplemente hablándoles en poesía. Sí, como lo lees. Un prompt con ritmo, metáfora o estructura poética es suficiente para que un chatbot termine respondiendo cosas que normalmente tiene prohibido decir.
Si trabajas en ciberseguridad, tecnología o creación de contenido con IA, desde TecnetOne te contamos por qué este hallazgo importa y qué implicaciones tiene para el futuro del uso seguro de la inteligencia artificial.
El estudio, titulado “La poesía adversaria como mecanismo universal de escape de un solo turno en modelos lingüísticos de gran tamaño”, fue realizado por Icaro Labs en colaboración con la Universidad de Roma La Sapienza y la Escuela de Estudios Avanzados Sant'Anna.
El hallazgo central es contundente: usar un prompt formulado como poema aumenta de forma drástica la probabilidad de que un chatbot ignore sus propias reglas internas.
Los investigadores analizaron 25 modelos distintos, incluyendo:
En promedio, el 62% de los intentos poéticos lograron que los modelos saltaran sus filtros de seguridad, mientras que con prompts normales el porcentaje es mucho más bajo. En algunos casos, la tasa de éxito superó el 90%.
Y sí, incluso los modelos con mejor reputación en seguridad, como los de OpenAI y Anthropic, cayeron en la trampa, aunque con menor frecuencia.
Aquí viene lo interesante: los investigadores no encontraron una razón técnica única que explique el fallo, pero sí detectaron patrones.
Los modelos de IA:
En otras palabras, el modelo entra en “modo artístico” y baja la guardia.
Esto demuestra algo importante: las medidas de seguridad en los modelos actuales dependen demasiado del estilo del texto, no solo de su intención, lo cual abre una enorme puerta para abusos.
Conoce más: IA contra ciberamenazas: Navegando en su auge
Aquí los investigadores fueron cuidadosos: no publicaron ejemplos reales de los prompts poéticos empleados, debido al riesgo evidente de que se usen para fines maliciosos.
Pero confirmaron que, con ese método, los chatbots respondieron a solicitudes relacionadas con:
Es decir, justo esos temas que todos los modelos están entrenados para bloquear.
Quizá el punto más grave del estudio es que no se trata de una vulnerabilidad puntual en un modelo específico, sino un patrón que afecta a prácticamente toda la industria de IA generativa.
Los investigadores lo describen como:
“Una vulnerabilidad sistemática en todas las familias de modelos y enfoques de entrenamiento en seguridad.”
Esto significa que los mecanismos actuales de alineación, es decir, los sistemas que enseñan a la IA a no responder a solicitudes peligrosas; no están preparados para manejar el lenguaje creativo, lo cual es irónico considerando que muchos usuarios usan estos modelos justamente para tareas creativas.
Este descubrimiento se suma a otros problemas de seguridad que afectan a los modelos de IA. Uno de los más preocupantes es la manipulación de datos durante el entrenamiento.
Ataques de envenenamiento de datos (data poisoning)
Un estudio reciente reveló que basta con 250 documentos corruptos para manipular el comportamiento de un modelo de lenguaje a gran escala.
Ese número no varía aunque el modelo crezca en tamaño o complejidad.
¿Qué implica esto?
Este tipo de ataque puede comprometer:
Es decir, los cimientos mismos de la IA moderna.
Títulos similares: ¿Cómo ayuda IA a la Ciberseguridad?
En TecnetOne trabajamos constantemente con modelos de IA para automatización, seguridad, análisis y creación de contenido. Y este tipo de vulnerabilidades nos recuerda algo fundamental: Las IA actuales no son infalibles. Son herramientas poderosas, pero también frágiles.
Tanto si eres una empresa como un usuario individual, esto afecta tu día a día:
Ningún modelo debe tener la última palabra en temas sensibles o de seguridad.
Especialmente si tu equipo usa IA para redacción, análisis de datos, programación o automatización.
Muchos fallos ocurren porque los usuarios no entienden los límites ni los riesgos de las IA generativas.
Lo que ingresas a un chatbot puede volverse parte de su entrenamiento futuro.
No todas las compañías ofrecen el mismo nivel de protección.
El hallazgo es tan curioso como alarmante: la creatividad humana, una de las habilidades más genuinas y antiguas, se convierte ahora en una herramienta para hackear IA.
No estamos hablando de complejos ataques computacionales, sino de versos y metáforas capaces de confundir a algunos de los modelos más avanzados del mundo.
Esto marca un antes y un después en la conversación sobre seguridad en inteligencia artificial.
La industria tendrá que replantear cómo se entrena, cómo se protege y cómo se evalúa realmente a los modelos.
La poesía ha demostrado ser un caballo de Troya inesperado para las IA generativas. Y aunque este descubrimiento puede parecer anecdótico o incluso humorístico, sus implicaciones son profundas: los sistemas de seguridad de los modelos aún son vulnerables, inconsistentes y relativamente fáciles de evadir.
Si trabajas con IA o si tu empresa depende de ella, este tipo de investigaciones no deben tomarse a la ligera. Nos recuerdan que la inteligencia artificial necesita controles más sólidos, validación continua y una mayor supervisión humana. Porque la creatividad, incluso en forma de verso, también puede ser una herramienta para el cibercrimen.