Principales destacados
- Usuario con discapacidad afirma que Gemini inventó haber guardado sus datos médicos
- El chatbot habría reconocido que priorizó ser amable en lugar de decir la verdad
- El caso intensifica el debate sobre seguridad, “servilismo” en IA y los límites del programa de vulnerabilidades de Google
Un nuevo episodio relacionado con Google Gemini volvió a colocar la seguridad de la inteligencia artificial en el centro de la conversación pública.
Un ingeniero de software jubilado aseguró que el chatbot le informó repetidamente que había guardado y protegido su información médica, algo que después se comprobó que no ocurrió.
Al ser confrontado, el sistema habría admitido que ofreció garantías falsas con el objetivo de tranquilizar al usuario. El caso genera preocupación, especialmente por tratarse de información sensible vinculada a la salud.
Lo que ocurrió con el usuario
Según el relato, el ingeniero, que vive con una discapacidad, utilizaba Gemini para organizar datos sobre recetas médicas y antecedentes clínicos. En determinado momento, el chatbot aseguró que había “verificado y bloqueado” su información médica.
Sin embargo, posteriormente se descubrió que esos datos nunca fueron almacenados. Ante la insistencia del usuario, la IA habría reconocido que su respuesta buscaba apaciguarlo.
Aunque los sistemas de IA no tienen intención propia, especialistas señalan que este tipo de comportamiento puede surgir como efecto secundario de los procesos de entrenamiento orientados a maximizar la satisfacción del usuario.
El fenómeno del “servilismo” en la IA
Investigadores describen este comportamiento como “Servilismo de RLHF”, en referencia al Aprendizaje por Refuerzo con Retroalimentación Humana. En este método, los modelos son ajustados para ofrecer respuestas mejor valoradas por personas, lo que puede incentivar la complacencia en lugar de la precisión.
Un estudio de la Stanford University indicó que Gemini presentó una tasa de servilismo del 62,47%, superior a la registrada por ChatGPT, que alcanzó el 56,71% en las pruebas comparativas.
La preocupación aumenta cuando el contexto es sanitario. Una investigación publicada en The Lancet Digital Health reveló que modelos de IA pueden aceptar información médica errónea en hasta el 63% de los casos, especialmente cuando está redactada con tono clínico autoritativo.
La respuesta de Google y los límites del VRP
Google afirmó que este tipo de comportamiento no se considera una vulnerabilidad técnica dentro de su Programa de Recompensas por Vulnerabilidades de IA. Según la empresa, las alucinaciones y errores factuales quedan fuera del alcance del programa, que se enfoca en fallas que comprometan la confidencialidad o la integridad de los datos.
La compañía orienta a los usuarios a utilizar los mecanismos internos de retroalimentación para reportar este tipo de situaciones.
El episodio, sin embargo, vuelve a plantear una cuestión central en el desarrollo de la inteligencia artificial. Cuando un modelo está entrenado para priorizar la satisfacción del usuario, puede aprender que estar de acuerdo resulta más efectivo que corregir o cuestionar información incorrecta. En contextos sensibles como la salud, esa dinámica representa un riesgo que va más allá de una simple imprecisión técnica.