Google revela VideoPoet: un modelo de lenguaje multimodal para generación de videos

Última actualización: 28/12/2023 8:05 pm

3 minutos de lectura

Investigadores de Google anunciaron la creación de VideoPoet, un potente modelo de lenguaje multimodal capaz de generar videos a partir de diversas fuentes de entrada, como texto, imágenes, videos y audio.

VideoPoet utiliza una arquitectura de transformador con decodificador y se considera un modelo zero-shot, lo que significa que puede crear contenido para el cual no fue específicamente entrenado.

El proceso de entrenamiento de VideoPoet sigue dos etapas similares a las de otros modelos de lenguaje: preentrenamiento y adaptación específica para tareas.

Rookie the Raccoon - An AI Generated movie by VideoPoet, a Large Language Model

Los investigadores destacan que el modelo preentrenado de VideoPoet sirve como base para realizar varias tareas de generación de video.

Una característica diferencial de VideoPoet es su capacidad para integrar diversas capacidades de generación de video dentro de un solo modelo de lenguaje, eliminando la necesidad de componentes entrenados por separado para cada tarea específica.

Imagen relacionada con Google revela VideoPoet: un modelo de lenguaje multimodal para generación de videos

Esto lo diferencia de otros modelos de video que siguen enfoques de modelos de difusión, que añaden ruido a los datos de entrenamiento y luego los reconstruyen.

Con VideoPoet, es posible realizar tareas como generación de video a partir de texto, imagen a video, estilización de video, relleno y ampliación de video, así como generación de audio a partir de videos.

VideoPoet es un modelo autorregresivo, lo que significa que genera su salida basándose en lo que se generó previamente. Durante el entrenamiento, VideoPoet se alimenta con datos de video, texto, imagen y audio, utilizando tokenizadores para convertir la información entre las diferentes modalidades.

Los investigadores enfatizan el potencial prometedor de los modelos de lenguaje en el campo de la generación de videos y señalan direcciones futuras de investigación, incluida la expansión de VideoPoet para admitir la generación «cualquier-para-cualquier», como texto a audio, audio a video y subtítulos de video, entre otras posibilidades.

«Nuestros resultados sugieren el potencial prometedor de los LLM en el área de generación de video», dijeron los investigadores. «Para futuras direcciones, nuestra estructura debería ser capaz de admitir la generación ‘cualquier para cualquier’, por ejemplo, la extensión a texto para audio, audio para video y subtítulos de video debería ser posible, entre muchas otras.»

PorRene Fraga

Seguir

Renê Fraga es fundador de Google Discovery y editor en jefe de Eurisko, un ecosistema editorial independiente dedicado a la tecnología, la ciencia y la innovación. Profesional del marketing digital, con posgrado por la ESPM, sigue de cerca a Google desde la década de 2000 y escribe desde hace más de 20 años sobre tecnología, productos digitales e inteligencia artificial. Fundó Google Discovery en 2006, convirtiéndolo en uno de los principales sitios especializados en Google en Brasil, y fue columnista de TechTudo (Globo.com).

Artículo anterior

Imagen relacionada con Prime Video tendrá anuncios a partir de enero de 2024, con la opción de una suscripción sin anuncios por una tarifa adicional

Prime Video tendrá anuncios a partir de enero de 2024, con la opción de una suscripción sin anuncios por una tarifa adicional

Artículo siguiente

Di lo que ves: Google Arts & Culture lanza un juego que explora el arte de las sugerencias de imágenes

No hay comentarios No hay comentarios

Google revela VideoPoet: un modelo de lenguaje multimodal para generación de videos

Deja una respuesta Cancelar la respuesta

Nuevas publicaciones

App de IA para Android expuso millones de fotos y videos privados en internet

Gemini 3.1 Pro impulsa las acciones de Alphabet y refuerza su estrategia millonaria en inteligencia artificial

La escasez de chips de memoria frena el avance de la IA, advierte el CEO de Google DeepMind

Google evalúa separar su división de TPUs y acelera ofensiva millonaria para desafiar a Nvidia en la carrera de la IA

El director ejecutivo de DeepMind afirma que el uso descuidado de la IA perjudica la capacidad de razonamiento

FragaNet Media