Icono del sitio Google Discovery en Español

Google revela VideoPoet: un modelo de lenguaje multimodal para generación de videos

Investigadores de Google anunciaron la creación de VideoPoet, un potente modelo de lenguaje multimodal capaz de generar videos a partir de diversas fuentes de entrada, como texto, imágenes, videos y audio.

VideoPoet utiliza una arquitectura de transformador con decodificador y se considera un modelo zero-shot, lo que significa que puede crear contenido para el cual no fue específicamente entrenado.

El proceso de entrenamiento de VideoPoet sigue dos etapas similares a las de otros modelos de lenguaje: preentrenamiento y adaptación específica para tareas.

Los investigadores destacan que el modelo preentrenado de VideoPoet sirve como base para realizar varias tareas de generación de video.

Una característica diferencial de VideoPoet es su capacidad para integrar diversas capacidades de generación de video dentro de un solo modelo de lenguaje, eliminando la necesidad de componentes entrenados por separado para cada tarea específica.

Esto lo diferencia de otros modelos de video que siguen enfoques de modelos de difusión, que añaden ruido a los datos de entrenamiento y luego los reconstruyen.

Con VideoPoet, es posible realizar tareas como generación de video a partir de texto, imagen a video, estilización de video, relleno y ampliación de video, así como generación de audio a partir de videos.

VideoPoet es un modelo autorregresivo, lo que significa que genera su salida basándose en lo que se generó previamente. Durante el entrenamiento, VideoPoet se alimenta con datos de video, texto, imagen y audio, utilizando tokenizadores para convertir la información entre las diferentes modalidades.

Los investigadores enfatizan el potencial prometedor de los modelos de lenguaje en el campo de la generación de videos y señalan direcciones futuras de investigación, incluida la expansión de VideoPoet para admitir la generación «cualquier-para-cualquier», como texto a audio, audio a video y subtítulos de video, entre otras posibilidades.

«Nuestros resultados sugieren el potencial prometedor de los LLM en el área de generación de video», dijeron los investigadores. «Para futuras direcciones, nuestra estructura debería ser capaz de admitir la generación ‘cualquier para cualquier’, por ejemplo, la extensión a texto para audio, audio para video y subtítulos de video debería ser posible, entre muchas otras.»

Salir de la versión móvil