Fugatto, el nuevo modelo de IA de NVIDIA, puede crear audio a partir de mensajes de texto
NVIDIA ha presentado un nuevo modelo experimental de IA generativa, que describe como «una navaja suiza para el sonido». El modelo llamado Foundational Generative Audio Transformer Opus 1, o Fugatto, puede tomar comandos de mensajes de texto y usarlos para crear audio o modificar archivos de música, voz y sonido existentes. Fue diseñado por un equipo de investigadores de inteligencia artificial de todo el mundo, y NVIDIA dice que eso fortaleció las «capacidades multiacento y multilingüe» del modelo.
«Queríamos crear un modelo que comprenda y genere sonido como lo hacen los humanos», dijo Rafael Valle, uno de los investigadores detrás del proyecto y gerente de investigación de audio aplicado en NVIDIA. La compañía enumeró algunos posibles escenarios del mundo real en los que Fugatto podría ser útil en su anuncio. Sugirió que los productores musicales podrían usar la tecnología para generar rápidamente un prototipo de una idea de canción, que luego podrían editar fácilmente para probar diferentes estilos, voces e instrumentos.
Las personas podrían usarlo para generar materiales para herramientas de aprendizaje de idiomas con la voz de su elección. Y los desarrolladores de videojuegos podrían usarlo para crear variaciones de recursos pregrabados para adaptarse a los cambios en el juego según las elecciones y acciones de los jugadores. Además, los investigadores descubrieron que el modelo puede realizar tareas que no forman parte de su entrenamiento previo, con algunos ajustes. Podría combinar instrucciones en las que fue entrenado por separado, como generar un discurso que suene enojado con un acento específico o el sonido de los pájaros cantando durante una tormenta. El modelo también puede generar sonidos que cambian con el tiempo, como el golpe de una tormenta a medida que avanza por la tierra.
NVIDIA no dijo si dará acceso público a Fugatto, pero el modelo no es la primera tecnología de IA generativa que puede crear sonidos a partir de indicaciones de texto. Meta lanzó anteriormente un kit de inteligencia artificial de código abierto que puede crear sonidos a partir de descripciones de texto. Google tiene su propia IA de conversión de texto a música llamada MusicLM a la que las personas pueden acceder a través del sitio web AI Test Kitchen de la compañía.
Vía – Engadget