QR Nueva Economía

AudioGen, una inteligencia artificial que crea sonidos a partir de descripciones textuales

El modelo está en pleno desarrollo. Sin embargo, no se descarta finalizarlo y ponerlo al disposición del público.

16 Noviembre de 2022

AudioGen.
AudioGen. — Foto: Twitter.

La inteligencia artificial (IA) vuelve a sorprender. Es sabido que los generadores de imágenes a partir de texto llegaron para quedarse a partir del proceso creativo de tecnologías como DALL-E, Midjourney o Stable Diffusion. Ahora, es el turno de darle la bienvenida a AudioGen, un programa que genera sonidos a partir de descripciones textuales.

Según explican los investigadores de Meta y de la Universidad Hebrea de Jerusalén, que son los responsables del proyecto, se utiliza un modelo generativo autorregresivo para interpretar los pedidos en lenguaje natural y generar desde cero muestras de audio.

De esta manera, este modelo de IA supera inconvenientes de audio complejos. Por ejemplo, puede distinguir entre diferentes tipos de sonidos y separarlos acústicamente. Además, puede filtrar a dos personas que hablan al mismo tiempo. Y se trata de una característica elemental para poder generar una amplia variedad de muestras de audio precisas.

 

“El modelo se entrenó utilizando diez conjuntos de datos de audio y etiquetas coincidentes”, aseguraron los investigadores. 


Si bien el proyecto todavía está siendo desarrollado, el equipo de trabajo pretende ponerlo a disposición del público. De este modo, se estima que próximamente se publique el código de AudioGen y demás detalles técnicos en su perfil de GitHub. Además, explican que seguirán trabajando para mejorar las capacidades del programa. Resta saber si estará al alcance de todos, como generadores de imágenes.