Meta presenta AudioCraft, permitiendo la creación de audio realista a partir de texto

Rene Fraga

hace 1 año

Meta anuncia AudioCraft, un marco de trabajo de inteligencia artificial generativa capaz de crear audio y música a partir de descripciones cortas en texto.

La empresa afirma haber avanzado significativamente en la calidad de los sonidos generados por IA, como ladridos de perros, bocinas de automóviles y pasos en un piso de madera.

AudioCraft simplifica el uso de modelos generativos para audio, proporcionando generadores de sonido y música, además de algoritmos de compresión, todo en un solo código fuente.

AudioCraft cuenta con tres modelos de IA generativa: MusicGen, AudioGen y EnCodec.

MusicGen ya existía, pero ahora Meta ha puesto a disposición el código de entrenamiento, lo que permite a los usuarios entrenar el modelo con sus propias bases de datos de música.

Sin embargo, el uso de este modelo para crear música similar a obras existentes plantea importantes cuestiones éticas y legales.

AudioGen, por su parte, es un modelo enfocado en generar sonidos ambientales y efectos de sonido realistas, mientras que EnCodec es un códec neuronal que comprime y reconstruye señales de audio con alta fidelidad.

A pesar de las promesas de beneficios e inspiración para músicos, Meta reconoce los posibles usos indebidos de AudioCraft, como la creación de deepfakes de voces y violación de derechos de autor.

La empresa afirma estar trabajando para mejorar el control y mitigar las limitaciones y sesgos de estos modelos generativos de audio.