Close Menu
    Facebook X (Twitter) Instagram
    GD en Español
    • Google
    • Android
    • YouTube
    • Gmail
    • Chrome
    • Maps
    • Drive
    • Photos
    • Gemini
    • Pixel
    • 🇧🇷🇵🇹 En portugués
    GD en Español
    Home»Google»Google revela VideoPoet: un modelo de lenguaje multimodal para generación de videos
    Google

    Google revela VideoPoet: un modelo de lenguaje multimodal para generación de videos

    Rene FragaRene Fraga28/12/2023

    Investigadores de Google anunciaron la creación de VideoPoet, un potente modelo de lenguaje multimodal capaz de generar videos a partir de diversas fuentes de entrada, como texto, imágenes, videos y audio.

    VideoPoet utiliza una arquitectura de transformador con decodificador y se considera un modelo zero-shot, lo que significa que puede crear contenido para el cual no fue específicamente entrenado.

    El proceso de entrenamiento de VideoPoet sigue dos etapas similares a las de otros modelos de lenguaje: preentrenamiento y adaptación específica para tareas.

    Los investigadores destacan que el modelo preentrenado de VideoPoet sirve como base para realizar varias tareas de generación de video.

    Una característica diferencial de VideoPoet es su capacidad para integrar diversas capacidades de generación de video dentro de un solo modelo de lenguaje, eliminando la necesidad de componentes entrenados por separado para cada tarea específica.

    Esto lo diferencia de otros modelos de video que siguen enfoques de modelos de difusión, que añaden ruido a los datos de entrenamiento y luego los reconstruyen.

    Con VideoPoet, es posible realizar tareas como generación de video a partir de texto, imagen a video, estilización de video, relleno y ampliación de video, así como generación de audio a partir de videos.

    https://storage.googleapis.com/googwebreview.appspot.com/grow-ext-cloud-images-uploads/2z73455wyhhm-1mtsV1LWXSHTiEABiYXKQx-08df0dcc93bdb403ca30f844d0a927e9-videopoet_header_video_35F06F4F.mp4

    VideoPoet es un modelo autorregresivo, lo que significa que genera su salida basándose en lo que se generó previamente. Durante el entrenamiento, VideoPoet se alimenta con datos de video, texto, imagen y audio, utilizando tokenizadores para convertir la información entre las diferentes modalidades.

    Los investigadores enfatizan el potencial prometedor de los modelos de lenguaje en el campo de la generación de videos y señalan direcciones futuras de investigación, incluida la expansión de VideoPoet para admitir la generación «cualquier-para-cualquier», como texto a audio, audio a video y subtítulos de video, entre otras posibilidades.

    «Nuestros resultados sugieren el potencial prometedor de los LLM en el área de generación de video», dijeron los investigadores. «Para futuras direcciones, nuestra estructura debería ser capaz de admitir la generación ‘cualquier para cualquier’, por ejemplo, la extensión a texto para audio, audio para video y subtítulos de video debería ser posible, entre muchas otras.»

    Google Discovery no Google News

    Agregue Google Discovery a su feed de Google News.

    Rene Fraga
    • Website
    • Facebook
    • X (Twitter)
    • Instagram
    • LinkedIn

    creó el blog Google Discovery en 2006, convirtiéndose en uno de los principales blogs de tecnología en Brasil. Ha seguido de cerca a la gigante de Mountain View desde la década de 2000 y contribuyó voluntariamente a la traducción de la Búsqueda para el país. Además, fue columnista en TechTudo, de Globo.com, compartiendo su conocimiento sobre Google con una amplia audiencia.

    Lea mas

    Juez de EE.UU. permite a Google seguir pagando a Mozilla por Firefox

    05/09/2025

    Trump elogia a la novia de Sergey Brin en un encuentro con la Big Tech

    05/09/2025

    Google Vids incorpora avatares de IA para crear videos sin cámara

    04/09/2025

    Google libera la personalización del tono en los podcasts de IA de NotebookLM

    04/09/2025

    Estudio muestra que la IA genera casi 3 veces más enlaces rotos que Google

    04/09/2025

    Apple cierra acuerdo con Google para potenciar a Siri con la inteligencia artificial de Gemini

    04/09/2025

    Deja un comentarioCancelar respuesta

    Juez de EE.UU. permite a Google seguir pagando a Mozilla por Firefox

    05/09/2025

    Trump elogia a la novia de Sergey Brin en un encuentro con la Big Tech

    05/09/2025

    YouTube lanza un botón que ayuda a los creadores pequeños a crecer

    04/09/2025

    Google Vids incorpora avatares de IA para crear videos sin cámara

    04/09/2025
    GD en Español
    Facebook X (Twitter) Instagram Pinterest
    • IA
    • Política de privacidad
    • Contacto
    © 2006 - 2025 GD en Español.
    FragaNet Media. All rights reserved.

    Type above and press Enter to search. Press Esc to cancel.