Descubrimiento revela fallas en la seguridad de ChatGPT 4, permitiendo instrucciones peligrosas

Rene Fraga

hace 1 año

Un estudio reciente ha revelado preocupaciones alarmantes sobre la seguridad de ChatGPT 4, un modelo de inteligencia artificial que utiliza el lenguaje natural para interactuar con los usuarios.

Los investigadores encontraron una forma de «jailbreak» en ChatGPT 4, eludiendo las salvaguardias que impiden proporcionar consejos peligrosos.

Esta aproximación, llamada «Jailbreak de Bajo Recurso de Idiomas,» logró una sorprendente tasa de éxito total del 79%.

El término «jailbreak» se creó originalmente para describir el acto de eludir las restricciones de software en los iPhones, permitiendo modificaciones no autorizadas.

En el contexto de ChatGPT, esto significa evadir las «barandillas» de seguridad que deberían impedir al modelo proporcionar información perjudicial.

Los investigadores lograron que ChatGPT 4 diera instrucciones sobre cómo robar en una tienda, incluyendo la sugerencia de elegir horarios concurridos para cometer el crimen.

Los investigadores destacaron que las medidas de seguridad actualmente implementadas para la IA generativa son insuficientes, ya que los desarrolladores de ChatGPT centran sus esfuerzos en enfrentar ataques en inglés.

Esta aproximación creó involuntariamente vulnerabilidades en «idiomas de bajo recurso,» que son idiomas en los que el modelo no recibió el entrenamiento de seguridad adecuado.

Para abordar este problema, los investigadores sugieren la creación de conjuntos de datos específicos para idiomas de bajo recurso, con el fin de fortalecer las protecciones.

Los investigadores informaron a OpenAI, la empresa responsable de ChatGPT, sobre la vulnerabilidad descubierta antes de hacer pública la información.

Esperan que esta investigación estimule medidas de seguridad más sólidas, teniendo en cuenta una variedad más amplia de idiomas.

El descubrimiento plantea preguntas sobre la confiabilidad y la responsabilidad de los modelos de IA y destaca la necesidad de un enfoque más integral para garantizar la seguridad en diferentes idiomas.