Google recientemente dio a conocer nuevos métodos para entrenar robots utilizando videos, con el objetivo de mejorar la comprensión de estas máquinas.
El equipo de investigadores de Google DeepMind Robotics ha estado explorando el potencial de este enfoque, que combina inteligencia artificial generativa con modelos de base amplia.
En una entrada de blog, destacan las investigaciones en curso para que los robots comprendan mejor las expectativas de los seres humanos hacia ellos.
Tradicionalmente, los robots están diseñados para realizar una tarea única repetidamente a lo largo de su vida útil. Aunque son eficientes en esa función específica, enfrentan dificultades cuando hay cambios o errores no intencionados.
El nuevo método llamado AutoRT utiliza modelos de base amplia para diversos propósitos. En un ejemplo dado por el equipo de DeepMind, el sistema utiliza un Modelo de Lenguaje Visual (VLM) para una mejor percepción de la situación.
AutoRT es capaz de gestionar un grupo de robots que trabajan en conjunto, equipados con cámaras para obtener una visión del entorno y los objetos presentes en él.
Además, un gran modelo de lenguaje (LLM, por sus siglas en inglés) sugiere tareas que pueden ser realizadas por el hardware, incluido el actuador final del robot.
Los LLM se consideran esenciales para que los robots comprendan eficazmente comandos en lenguaje natural, reduciendo la necesidad de programación rígida.
El sistema AutoRT ha pasado por extensas pruebas en los últimos meses. Es capaz de coordinar hasta 20 robots simultáneamente, con un total de 52 dispositivos diferentes. En total, DeepMind ha recopilado más de 77,000 experimentos, abarcando más de 6,000 tareas.
Otra novedad presentada por el equipo es RT-Trajectory, que utiliza videos como entrada para el aprendizaje de los robots.
Muchos equipos están explorando el uso de videos de YouTube para entrenar robots a gran escala, pero RT-Trajectory agrega una capa interesante, superponiendo un esbozo bidimensional del movimiento del brazo sobre el video.
El equipo afirma que el entrenamiento con RT-Trajectory tuvo el doble de éxito en comparación con el entrenamiento RT-2, alcanzando el 63% en 41 tareas.
Estos avances no solo contribuyen al desarrollo de robots capaces de moverse con precisión y eficiencia en situaciones nuevas, sino que también permiten aprovechar el conocimiento de conjuntos de datos existentes.