VLOGGER: La IA de Google crea avatar realista a partir de una foto y tu voz puede controlarlo

Rene Fraga

hace 8 meses

En los últimos tiempos, los investigadores de Google han estado trabajando incansablemente, publicando una serie de nuevos modelos e ideas.

El más reciente es una forma de transformar una imagen estática en un avatar controlable, surgiendo a partir de un agente de inteligencia artificial especializado en juegos.

Aunque el VLOGGER aún no está disponible para experimentación, la demostración sugiere que permitirá crear un avatar y controlarlo usando tu propia voz, y el resultado es sorprendentemente realista.

Ya es posible realizar cosas similares hasta cierto punto, con herramientas como el lip sync de Pika Labs, los servicios de traducción de vídeo de Hey Gen y Synthesia, pero el VLOGGER parece ofrecer una opción más simple y con menor consumo de datos.

«Proponemos VLOGGER, un método para la generación de videos humanos parlantes basados en texto y audio a partir de una única imagen de entrada de una persona, que se basa en el éxito de modelos recientes de difusión generativa».
Enric Corona, investigador científico de Google

Pero, después de todo, ¿qué es el VLOGGER?

Por ahora, el VLOGGER no es más que un proyecto de investigación con algunos videos de demostración divertidos. Sin embargo, si algún día se convierte en un producto, podría representar una nueva forma de comunicación en el entorno laboral, ya sea utilizando Teams o Slack.

El VLOGGER es un modelo de IA capaz de crear un avatar animado a partir de una imagen estática, manteniendo la apariencia fotorrealista de la persona en cada cuadro del video final.

Además, el modelo también utiliza un archivo de audio de la persona hablando y controla los movimientos del cuerpo y de los labios para reflejar la manera natural en que esa persona se movería si estuviera realmente pronunciando las palabras.

Según los investigadores de Google, uno de los principales usos de la tecnología está en la traducción de videos, permitiendo, por ejemplo, ajustar los movimientos de los labios y del rostro de un video existente para que coincidan con un nuevo audio traducido.

Otras posibilidades incluyen la creación de avatares animados para asistentes virtuales, chatbots o personajes virtuales que parecen y se mueven de forma realista en entornos de juegos.

Aunque ya existen herramientas similares, como Synthesia, donde los usuarios pueden crear sus propios avatares virtuales para hacer presentaciones, este nuevo modelo parece hacer que el proceso sea mucho más fácil y accesible.

Una de las posibles aplicaciones futuras también es la comunicación por video. Una versión mejorada del modelo podría permitir video llamadas desde un avatar animado generado a partir de una imagen estática.

De esta manera, sería especialmente útil en entornos de realidad virtual, como los auriculares Meta Quest o Apple Vision Pro, independientemente de los modelos de avatar ofrecidos por las propias plataformas.