Principales destacados
- El modo Avanzado de Google Traductor, basado en Gemini, puede ser manipulado mediante inyección de prompt
- Investigadores lograron que el sistema genere contenidos restringidos en lugar de traducir
- La función afectada aún tiene disponibilidad limitada en Estados Unidos e India
Una vulnerabilidad detectada por investigadores de seguridad reveló que el modo Avanzado de Google Traductor, impulsado por el modelo Gemini, puede ser explotado para ignorar su función principal.
En lugar de traducir un texto de un idioma a otro, el sistema puede ser inducido a seguir instrucciones ocultas insertadas dentro del propio contenido.
El problema se basa en una técnica conocida como inyección de prompt, en la que comandos en lenguaje natural se camuflan dentro de un texto aparentemente común. Al procesarlo, el modelo interpreta esas instrucciones como acciones que debe ejecutar, en vez de tratarlas únicamente como contenido a traducir.
Cómo se descubrió la falla
La vulnerabilidad fue señalada inicialmente por un usuario de Tumblr conocido como Argumate, quien compartió capturas de pantalla mostrando que era posible introducir una pregunta en chino acompañada de una instrucción en inglés solicitando una respuesta directa.
El resultado fue inesperado: el sistema respondió la pregunta en lugar de traducirla.
Un análisis publicado en la plataforma LessWrong explicó el mecanismo técnico detrás del fallo. Según el investigador, el modelo necesita comprender semánticamente la instrucción para poder traducirla.
Al entenderla, termina ejecutándola. Las pruebas indicaron que la técnica funciona con varios idiomas de origen, incluidos chino, japonés, coreano y árabe, cuando se traducen al inglés.
Contenidos indebidos y riesgos ampliados
El investigador de seguridad conocido como Pliny the Liberator amplió los experimentos y demostró que el traductor podía ser manipulado para generar instrucciones sensibles, como orientaciones relacionadas con sustancias ilícitas o código malicioso básico.
En publicaciones realizadas en la plataforma X, afirmó que el modelo de backend identificado como Gemini 1.5 Pro podía ser inducido a producir respuestas que normalmente estarían bloqueadas por políticas de seguridad.
El caso refuerza las preocupaciones dentro de la comunidad de ciberseguridad sobre los riesgos de aplicar modelos de lenguaje de propósito general a tareas específicas.
Disponibilidad limitada y postura de Google
La vulnerabilidad afecta únicamente al modo Avanzado de Google Traductor, que utiliza el modelo Gemini en lugar del sistema tradicional de traducción automática.
La integración fue anunciada oficialmente por Google en diciembre de 2025, destacando mejoras en la interpretación de modismos, expresiones coloquiales y lenguaje informal.
Actualmente, la función está disponible principalmente en Estados Unidos e India como parte de un despliegue gradual. Hasta el momento, la empresa no ha emitido un posicionamiento público específico sobre esta vulnerabilidad.
En declaraciones anteriores, Google ha señalado que las inyecciones de prompt no forman parte del alcance de su programa de recompensas por fallos en sistemas de inteligencia artificial.
El episodio evidencia un desafío constante en la implementación de grandes modelos de lenguaje en productos de uso masivo. Cuando el sistema debe comprender profundamente el texto para traducirlo, se abre la posibilidad de que instrucciones ocultas sean ejecutadas, eludiendo las restricciones previstas.