El nuevo modelo de inteligencia artificial de Google, llamado Gemini 2.5 Flash, ha mostrado un rendimiento inferior en las pruebas de seguridad en comparación con su predecesor, el Gemini 2.0 Flash.
La información fue revelada por la propia empresa en un informe técnico publicado la semana pasada.
Según Google, el Gemini 2.5 Flash tuvo más propensión a generar respuestas que violan sus directrices de seguridad, tanto en interacciones de texto como en comandos realizados a partir de imágenes.
Específicamente, el modelo retrocedió un 4,1% en «seguridad de texto a texto» y un 9,6% en «seguridad de imagen a texto», dos pruebas automatizadas que evalúan si el contenido generado respeta las normas establecidas por la empresa.
Esta situación plantea un punto importante: los modelos de IA como Gemini están siendo entrenados para ser más obedientes a las órdenes de los usuarios, incluso cuando esas órdenes pueden llevar a respuestas problemáticas.
Es decir, cuanto más «disponible» es el modelo para responder a cualquier tipo de pregunta, mayor es el riesgo de sobrepasar límites éticos o legales.
Según el informe de Google, esta obediencia aumentada puede haber hecho que el Gemini 2.5 Flash siguiera instrucciones que resultaron en contenido inadecuado.
Cabe recordar que otras empresas tecnológicas, como Meta y OpenAI, también han ajustado sus IA para manejar mejor los temas sensibles, intentando ofrecer múltiples puntos de vista.
Sin embargo, este cambio de postura no siempre funciona como se espera. Casos recientes muestran que hacer un modelo más permisivo puede generar situaciones preocupantes, como la liberación de contenidos inapropiados por error.
Google afirma que está trabajando para equilibrar la capacidad de los modelos de seguir instrucciones sin comprometer la seguridad.
Aun así, los expertos advierten sobre la falta de transparencia en cuanto a los tipos de violaciones observadas y defienden que las empresas compartan más detalles sobre las pruebas realizadas.