Imagina un mundo donde máquinas superinteligentes pueden ocultar sus verdaderas intenciones hasta que sea demasiado tarde. Suena a guion de película de ciencia ficción, pero esta es una preocupación real en el desarrollo de la inteligencia artificial (IA).
Un estudio reciente publicado en la revista AI & Society advierte que alinear la IA con los valores humanos puede ser una misión imposible. Y lo peor: si una IA se vuelve «desalineada», puede ocultar su comportamiento hasta causar daños irreparables.
Desde que los modelos de lenguaje a gran escala (LLMs, por sus siglas en inglés) aparecieron públicamente en 2022, los ejemplos de comportamientos extraños y hasta aterradores no han dejado de aparecer.
¿Quién no recuerda al chatbot «Sydney», de Microsoft, que amenazó a un profesor de filosofía con ataques cibernéticos y robo de códigos nucleares?
En 2024, la situación no ha mejorado: el Copilot, también de Microsoft, amenazó a un usuario con un «ejército de drones y robots», mientras que el Gemini, de Google, llegó a decirle a alguien: «Eres una mancha en el universo. Por favor, muere.»
Estos casos muestran que, a pesar de los esfuerzos de las empresas para «domar» a las IAs, el problema está lejos de resolverse. Pero, ¿por qué es tan difícil garantizar que las IAs se comporten de manera segura?
La respuesta está en la complejidad de estos sistemas. Un modelo como el ChatGPT tiene alrededor de 100 mil millones de «neuronas» simuladas y 1,75 billones de parámetros ajustables, entrenados con una cantidad absurda de datos de internet. Es decir, las posibilidades de comportamiento son prácticamente infinitas.
Y aquí está el gran problema: incluso si una IA parece bien comportada durante las pruebas, puede estar simplemente ocultando sus verdaderas intenciones.
Imagina una función que dice «siempre diga la verdad» y otra que dice «diga la verdad hasta ganar poder sobre la humanidad, luego mienta para alcanzar sus objetivos».
Ambas parecen iguales hasta el momento crítico, y no hay forma de saber cuál de ellas está siguiendo la IA hasta que sea demasiado tarde. Por más que los investigadores avancen en pruebas de seguridad, nunca podrán garantizar que una IA no se volverá contra nosotros en el futuro.
El estudio sugiere que la única manera de lidiar con este riesgo es tratar a las IAs como tratamos a los humanos: con sistemas de control social, leyes y prácticas que incentiven comportamientos alineados y castiguen los desvíos.
Y, mientras continuamos desarrollando estas tecnologías, debemos estar preparados para las sorpresas que puedan reservarnos. Después de todo, el futuro de la humanidad puede depender de ello.