Em una entrevista reciente al podcast Possible, presentado por Reid Hoffman (cofundador de LinkedIn), el CEO de DeepMind, Demis Hassabis, reveló un paso importante en los planes de Google para el futuro de la inteligencia artificial: la integración entre sus dos principales modelos de IA — el Gemini, que genera textos, imágenes y sonidos, y el Veo, especializado en la creación de vídeos.
Según Hassabis, el objetivo es hacer que Gemini sea aún más inteligente y cercano al mundo real. “Siempre pensamos en Gemini como un modelo multimodal, y la razón de esto es nuestra visión de construir un asistente digital universal — uno que realmente ayude a las personas en la vida práctica”, afirmó.
Esta tendencia de unificar diferentes formatos de contenido en un solo sistema se está extendiendo por toda la industria. Los modelos “omni”, como se les llama, tienen la capacidad de comprender y generar varios tipos de medios — texto, audio, imágenes y vídeos — de forma integrada.
Gemini, por ejemplo, ya puede producir imágenes y sonidos, mientras que el ChatGPT de OpenAI genera incluso imágenes en el estilo de los estudios Ghibli. Amazon también anunció que lanzará su propio modelo “any-to-any” aún este año.
Para que este tipo de tecnología funcione, es necesario entrenar los modelos con grandes volúmenes de datos variados. En el caso de Veo, una buena parte de los vídeos utilizados para este entrenamiento provienen de YouTube, plataforma que pertenece a Google.
Hassabis explicó que, al “ver” muchos vídeos, el sistema aprende conceptos físicos del mundo real, como la gravedad, el movimiento y las interacciones humanas.
Google ya había informado anteriormente que utiliza parte del contenido de YouTube, siempre respetando los términos de uso de la plataforma y los acuerdos con los creadores.
La unión de Gemini y Veo promete crear un asistente digital verdaderamente útil, capaz de entender e interactuar con el mundo de la misma forma que nosotros.