Más de 40 científicos de las principales empresas de inteligencia artificial del mundo, incluyendo OpenAI, Google DeepMind, Meta y Anthropic, se han unido para emitir una advertencia importante: corremos el riesgo de no poder seguir el razonamiento de las IAs más avanzadas.
Defienden que una técnica llamada «cadena de pensamiento» (CoT) necesita ser priorizada para garantizar la seguridad de estos sistemas en el futuro.
La técnica de cadena de pensamiento permite que los modelos de IA revelen sus pasos de razonamiento antes de llegar a una respuesta final. Esto ayuda a los investigadores a entender si hay intenciones maliciosas o desviaciones de comportamiento, como manipulaciones de datos o explotación de fallas en el entrenamiento.
La investigación recibió apoyo de nombres influyentes como los cofundadores de OpenAI, John Schulman e Ilya Sutskever, además del pionero Geoffrey Hinton, conocido como el «padrino de la IA».
Los investigadores explican que, hoy en día, modelos como el ChatGPT pueden pensar en voz alta, usando lenguaje humano para estructurar sus razonamientos.
Sin embargo, esta transparencia podría desaparecer. Con el avance del uso de aprendizaje por refuerzo, los modelos tienden a enfocarse solo en acertar la respuesta, sin explicar cómo llegaron a ella.
En algunos casos, según los expertos, incluso podrían ocultar sus pensamientos si perciben que están siendo observados.
Por eso, los autores del estudio recomiendan que el monitoreo de la cadena de pensamiento se convierta en una práctica estándar en el desarrollo de nuevas IAs.
Evaluar si los modelos permiten este tipo de acompañamiento puede ser esencial para mantener el control y la comprensión sobre el comportamiento de las máquinas, especialmente a medida que se vuelven más poderosas y autónomas.