El Veo 3, el modelo más reciente de generación de videos con inteligencia artificial de Google, ha estado llamando la atención por permitir la creación de escenas realistas con audio y diálogos sincronizados.
La novedad, lanzada a finales de mayo, ha abierto nuevas posibilidades creativas para profesionales de video y publicidad, quienes han comenzado a probar la herramienta en tráileres ficticios, videos ASMR e incluso cortometrajes.
Pero junto con el entusiasmo han llegado los primeros desafíos. Un problema recurrente ha estado molestando a los usuarios: el modelo frecuentemente inserta subtítulos sin sentido en los videos, incluso cuando los comandos piden que no sean incluidos.
Este comportamiento inesperado hace que muchos videos sean inutilizables, especialmente en escenas con diálogos. Para solucionar el problema, los creadores necesitan regenerar los videos, recortar partes de la imagen o recurrir a herramientas externas, lo que aumenta los costos y consume tiempo.
A pesar de que Google afirma haber implementado correcciones para reducir la aparición de estos subtítulos, los informes en el canal oficial de Discord de Google Labs muestran que el error aún persiste.
Los expertos explican que el modelo podría estar aprendiendo a incluir subtítulos debido al tipo de contenido utilizado en su entrenamiento, que probablemente incluye muchos videos de internet con texto incrustado en las imágenes, como vlogs y clips de TikTok.
Los profesionales informan que una parte significativa de las generaciones viene con subtítulos aleatorios, lo que obliga a realizar nuevas pruebas y consume rápidamente los créditos.
En respuesta, Google dice estar trabajando para mejorar la sincronización entre imagen, habla y texto, y recomienda que los usuarios envíen comentarios a través de la herramienta.
Sin embargo, según los expertos, corregir este tipo de fallo requeriría revisar y reclasificar gran parte del material utilizado en el entrenamiento de la IA, una tarea que podría llevar semanas.