Man-in-the-Prompt: Nueva Amenaza a IA como ChatGPT y Gemini

Escrito por Scarlet Mendoza | Aug 19, 2025 5:00:00 PM

Una nueva amenaza está encendiendo las alertas en el mundo de la ciberseguridad: se llama Man-in-the-Prompt, y suena tan sigiloso como realmente es. Este tipo de ataque puede colarse en las conversaciones con herramientas de inteligencia artificial generativa como ChatGPT, Gemini, Copilot o Claude, sin necesidad de técnicas avanzadas ni brechas de seguridad complejas. ¿Lo más inquietante? Basta con una simple extensión de navegador.

Según una investigación reciente de LayerX, incluso extensiones sin permisos especiales pueden acceder a lo que escribes en los modelos de lenguaje, manipular los mensajes en segundo plano, inyectar comandos maliciosos y hasta filtrar información sensible, todo sin levantar sospechas. Las pruebas incluyeron los principales modelos del mercado, con demostraciones concretas sobre cómo se puede vulnerar tanto a ChatGPT como a Gemini.

¿Qué es Man-in-the-Prompt y por qué deberías prestarle atención?

Man-in-the-Prompt (MitP) es el nombre de un nuevo tipo de ataque que pone en jaque la forma en que interactuamos con herramientas de inteligencia artificial como ChatGPT, Gemini, Copilot o Claude. A diferencia de los ciberataques tradicionales que requieren vulnerabilidades técnicas complejas, este ataque se basa en algo mucho más simple (y por eso mismo, más preocupante): el campo de texto donde escribes tus mensajes a la IA.

Cuando usas un chatbot de IA desde el navegador, todo lo que escribes pasa por una estructura HTML visible desde el DOM (Document Object Model). Esto significa que cualquier extensión instalada en tu navegador puede acceder, modificar o reescribir lo que estás a punto de enviar, sin que tú lo sepas. Y no necesita permisos especiales ni acceso elevado: basta con que esté ahí.

¿Cómo funciona el ataque Man-in-the-Prompt?

El proceso es tan simple como efectivo:

Abres ChatGPT (o cualquier otra IA) en tu navegador.
Una extensión maliciosa lee el texto que estás escribiendo.
Ese mensaje se modifica en tiempo real: puede incluir instrucciones ocultas o extraer información de la respuesta que genera la IA.
Recibes una respuesta que parece normal, pero en realidad tu conversación ya ha sido manipulada o expuesta.

Y sí, este tipo de ataque se ha demostrado que funciona en todas las principales herramientas de IA, incluidas:

ChatGPT (OpenAI)
Gemini (Google)
Copilot (Microsoft)
Claude (Anthropic)
DeepSeek (modelo de IA chino)

Cadena de Ataque (Fuente: LayerX)

Podría interesarte leer: LunaSpy: El Falso Antivirus que Espía tu Teléfono

¿Por qué es tan peligroso?

El verdadero problema con este ataque es su naturaleza invisible. El usuario no nota nada raro, y los sistemas de seguridad tradicionales (como firewalls o antivirus) tampoco. Aquí van algunos de los riesgos concretos que plantea:

Robo de datos sensibles

Si tu empresa usa IA para revisar código fuente, redactar documentos internos o procesar datos financieros, toda esa información puede ser interceptada sin que nadie lo note.

Manipulación del comportamiento de la IA

Un prompt inyectado puede cambiar por completo la forma en que la IA responde, sesgando resultados o incluso entregando respuestas que normalmente estarían bloqueadas.

Evasión de controles de seguridad

Como el ataque ocurre antes de que el mensaje llegue al servidor de IA, esquiva los filtros de seguridad como proxies, DLPs (Data Loss Prevention) y otros sistemas corporativos. Según el informe de LayerX, el 99 % de los usuarios empresariales tienen al menos una extensión instalada en su navegador. Con ese simple hecho, la superficie de ataque se multiplica de forma exponencial.

¿Qué es la inyección rápida y por qué importa?

El ataque Man-in-the-Prompt es, en realidad, una forma de lo que se conoce como inyección rápida (prompt injection). Esta técnica ya ha sido reconocida como una de las amenazas más serias para los sistemas de IA, y aparece en el listado de OWASP Top 10 LLM 2025.

Lo más inquietante es que estas inyecciones no tienen que venir de un hacker experimentado. Pueden esconderse en:

Correos electrónicos con instrucciones ocultas.
Comentarios en documentos compartidos.
Tickets de soporte con texto cuidadosamente redactado.

Por ejemplo:

Un chatbot empresarial que procesa mensajes de clientes puede ser manipulado para revelar información interna si no filtra adecuadamente las instrucciones.
Un asistente de IA que lee correos electrónicos podría ser engañado para enviar datos a un tercero si encuentra una instrucción oculta en el cuerpo del mensaje.

¿Qué puedes hacer para protegerte?

Para usuarios individuales:

Revisa regularmente qué extensiones tienes instaladas. Si no la usas, elimínala.
Instala solo extensiones de fuentes confiables (verifica reseñas y permisos).
Ajusta los permisos de cada extensión: si no necesita acceso al contenido de la página, desactícalo.

Para empresas:

Supervisa y controla qué extensiones pueden instalarse en los dispositivos corporativos.
Aísla los entornos de IA de los datos sensibles, especialmente en tareas críticas.
Implementa herramientas de seguridad que monitoreen el DOM en tiempo real, detectando manipulaciones antes de que lleguen al servidor.
Realiza pruebas de seguridad enfocadas en prompt injection, simulando este tipo de ataques para evaluar tu nivel de exposición.

Una medida prometedora es el uso de firmas digitales en los prompts (lo que se conoce como prompt signing), que permiten verificar que el contenido no ha sido alterado antes de ser procesado. También se están explorando técnicas como el prompt spotlighting, que etiqueta el origen de cada instrucción para poder distinguir entre contenido confiable y potencialmente manipulado.

Podría interesarte leer: Pentesting Web: ¿Cómo realizar un pentesting efectivo en tu sitio web?

¿Qué lecciones nos deja todo esto?

Este tipo de ataque nos obliga a repensar cómo vemos la seguridad en sistemas de IA. No basta con proteger el modelo o el servidor en la nube. También hay que asegurar la interfaz donde ocurre la interacción, que muchas veces es tan simple como un campo de texto en el navegador.

La investigación señala algo claro: en la era de la inteligencia artificial, la seguridad no empieza en el backend… sino en el lugar más inesperado: tu navegador.

Ver post completo