Microsoft prueba una nueva herramienta IA capaz de convertir imágenes en videos reales de personas hablando

Microsoft Research Asia ha presentado una nueva herramienta experimental de inteligencia artificial llamada VASA-1 que puede tomar una imagen fija de una persona (o el dibujo de una) y un archivo de audio existente para crear una cara parlante realista en tiempo real. Tiene la capacidad de generar expresiones faciales y movimientos de cabeza para una imagen fija y los movimientos de labios apropiados para coincidir con un discurso o una canción. Los investigadores subieron un montón de ejemplos a la página del proyecto y los resultados parecen lo suficientemente buenos como para engañar a la gente haciéndoles creer que son reales.

Si bien los movimientos de los labios y la cabeza en los ejemplos aún pueden parecer un poco robóticos y desincronizados al observarlos más de cerca, aún está claro que la tecnología podría usarse indebidamente para crear fácil y rápidamente videos deepfake de personas reales. Los propios investigadores son conscientes de ese potencial y han decidido no publicar «una demostración en línea, API, producto, detalles de implementación adicionales o cualquier oferta relacionada» hasta que estén seguros de que su tecnología «se utilizará de manera responsable y de acuerdo con las normas adecuadas». Sin embargo, no dijeron si planean implementar ciertas salvaguardas para evitar que los malos actores los utilicen con fines nefastos, como crear pornografía deepfake o campañas de desinformación.

Los investigadores creen que su tecnología tiene muchos beneficios a pesar de su potencial de uso indebido. Dijeron que se puede utilizar para mejorar la equidad educativa, así como para mejorar la accesibilidad para quienes tienen dificultades de comunicación, tal vez dándoles acceso a un avatar que pueda comunicarse por ellos. También puede brindar compañía y apoyo terapéutico a quienes lo necesitan, dijeron, insinuando que el VASA-1 podría usarse en programas que ofrecen acceso a personajes de IA con los que las personas pueden hablar.

Según el artículo publicado con el anuncio, VASA-1 se entrenó en el conjunto de datos VoxCeleb2, que contiene «más de 1 millón de expresiones de 6.112 celebridades» que fueron extraídas de videos de YouTube. Aunque la herramienta fue entrenada con rostros reales, también funciona con fotografías artísticas como la Mona Lisa, que los investigadores combinaron de manera divertida con un archivo de audio de la interpretación viral de Anne Hathaway de los Paparazzi de Lil Wayne.

Vía – Engadget

Jeremías Rodríguez

Profesor de Historia. Amante de los libros, la tecnología y el buen café.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.