OpenAI presenta a Sora, su modelo de IA de texto para video

Última actualización: 15/02/2024 7:21 pm

3 minutos de lectura

OpenAI está lanzando un nuevo modelo de generación de videos llamado Sora. La empresa de IA afirma que Sora «puede crear escenas realistas e imaginativas a partir de instrucciones en texto».

Este modelo de texto para video permite a los usuarios crear videos fotorrealistas de hasta un minuto de duración, basados en las sugerencias que han escrito.

Según la publicación de introducción de OpenAI, Sora es capaz de crear «escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del objeto y del escenario».

La empresa también destaca que el modelo puede entender cómo los objetos «existen en el mundo físico» e «interpretar con precisión accesorios y generar personajes cautivadores que expresen emociones vibrantes».

Sora también puede generar un video basado en una imagen estática, además de completar cuadros faltantes en un video existente o extender su duración.

Las demostraciones generadas por Sora, incluidas en la publicación del blog de OpenAI, muestran una escena aérea de California durante la fiebre del oro, un video que parece haber sido grabado desde el interior de un tren en Tokio, entre otros.

Aunque algunos presentan signos evidentes de IA, como un suelo sospechosamente en movimiento en un video de un museo, OpenAI afirma que el modelo «puede tener dificultades para simular con precisión la física de una escena compleja», pero los resultados son impresionantes.

Actualmente, Sora solo está disponible para «red teamers» que están evaluando el modelo en relación con posibles daños y riesgos.

OpenAI también está ofreciendo acceso a algunos artistas visuales, diseñadores y cineastas para obtener retroalimentación.

La empresa destaca que el modelo actual puede no simular con precisión la física de una escena compleja y puede no interpretar correctamente ciertos casos de causa y efecto.

A principios de este mes, OpenAI anunció que está agregando marcas de agua a su herramienta de texto para imagen DALL-E 3, pero señala que estas pueden ser «fácilmente eliminadas».

Como con sus otros productos de IA, OpenAI tendrá que lidiar con las consecuencias de que los videos fotorrealistas generados por IA sean confundidos con la realidad.

PorRene Fraga

Seguir:

Renê Fraga es fundador de Google Discovery y editor en jefe de Eurisko, un ecosistema editorial independiente dedicado a la tecnología, la ciencia y la innovación. Profesional del marketing digital, con posgrado por la ESPM, sigue de cerca a Google desde la década de 2000 y escribe desde hace más de 20 años sobre tecnología, productos digitales e inteligencia artificial. Fundó Google Discovery en 2006, convirtiéndolo en uno de los principales sitios especializados en Google en Brasil, y fue columnista de TechTudo (Globo.com).