Google revela VideoPoet: un modelo de lenguaje multimodal para generación de videos

Rene Fraga
3 minutos de lectura

Investigadores de Google anunciaron la creación de VideoPoet, un potente modelo de lenguaje multimodal capaz de generar videos a partir de diversas fuentes de entrada, como texto, imágenes, videos y audio.

VideoPoet utiliza una arquitectura de transformador con decodificador y se considera un modelo zero-shot, lo que significa que puede crear contenido para el cual no fue específicamente entrenado.

El proceso de entrenamiento de VideoPoet sigue dos etapas similares a las de otros modelos de lenguaje: preentrenamiento y adaptación específica para tareas.

Rookie the Raccoon - An AI Generated movie by VideoPoet, a Large Language Model

Los investigadores destacan que el modelo preentrenado de VideoPoet sirve como base para realizar varias tareas de generación de video.

Una característica diferencial de VideoPoet es su capacidad para integrar diversas capacidades de generación de video dentro de un solo modelo de lenguaje, eliminando la necesidad de componentes entrenados por separado para cada tarea específica.

Imagen relacionada con Google revela VideoPoet: un modelo de lenguaje multimodal para generación de videos

Esto lo diferencia de otros modelos de video que siguen enfoques de modelos de difusión, que añaden ruido a los datos de entrenamiento y luego los reconstruyen.

Con VideoPoet, es posible realizar tareas como generación de video a partir de texto, imagen a video, estilización de video, relleno y ampliación de video, así como generación de audio a partir de videos.

VideoPoet es un modelo autorregresivo, lo que significa que genera su salida basándose en lo que se generó previamente. Durante el entrenamiento, VideoPoet se alimenta con datos de video, texto, imagen y audio, utilizando tokenizadores para convertir la información entre las diferentes modalidades.

Los investigadores enfatizan el potencial prometedor de los modelos de lenguaje en el campo de la generación de videos y señalan direcciones futuras de investigación, incluida la expansión de VideoPoet para admitir la generación «cualquier-para-cualquier», como texto a audio, audio a video y subtítulos de video, entre otras posibilidades.

«Nuestros resultados sugieren el potencial prometedor de los LLM en el área de generación de video», dijeron los investigadores. «Para futuras direcciones, nuestra estructura debería ser capaz de admitir la generación ‘cualquier para cualquier’, por ejemplo, la extensión a texto para audio, audio para video y subtítulos de video debería ser posible, entre muchas otras.»

Seguir:
Renê Fraga es fundador de Google Discovery y editor en jefe de Eurisko, un ecosistema editorial independiente dedicado a la tecnología, la ciencia y la innovación. Profesional del marketing digital, con posgrado por la ESPM, sigue de cerca a Google desde la década de 2000 y escribe desde hace más de 20 años sobre tecnología, productos digitales e inteligencia artificial. Fundó Google Discovery en 2006, convirtiéndolo en uno de los principales sitios especializados en Google en Brasil, y fue columnista de TechTudo (Globo.com).
No hay comentarios