VASA-1 es el nuevo modelo de inteligencia artificial de Microsoft. Una asombrosa tecnología capaz de crear avatares realistas a partir de dos ingredientes sencillos: una imagen estática y un clip de voz. Si te interesa saber más acerca de VASA-1 y sus avatares hiperrealistas generados por IA, te animamos a seguir leyendo.
Parecía que los de Redmond iban a concentrar todos sus esfuerzos en el desarrollo de este tipo de tecnologías en el asistente Copilot. Una herramienta que combina modelos de lenguaje con las aplicaciones de Microsoft 365. Sin embargo, parece que sus planes son más ambiciosos. La prueba de ello la encontramos en VASA-1.
¿Qué es VASA-1?
VASA son las siglas de Visual Affective Skills App, concepto que se puede traducir como Aplicación de Habilidades Visuales-Afectivas. El número «1» es una clara referencia de que este es solo la primera de una larga lista de versiones que llegarán en el futuro para dejarnos todavía más sorprendidos.
¿Qué es lo que hace de VASA-1 tan especial? ¿Cuál es su principal innovación? Ya existen muchas aplicaciones capaces de dar vida a las fotografías con movimientos similares a los de un GIF. Lo que introduce esta herramienta creada por un equipo de investigadores de IA de Microsoft Research Asia es algo mucho más sofisticado: un sistema de inteligencia artificial que puede hacer cantar y bailar a las fotografías. No se trata de animación, sino de algo más.
El resultado es asombrosamente realista. Hiperrealista sería el término más adecuado. Este modelo puede producir movimientos de labios perfectamente sincronizados con el audio, así como capturar un amplio espectro de matices faciales y movimientos naturales de la cabeza. Todo, en suma, presenta una imagen vívida y auténtica como nunca antes se había visto en otras herramientas similares.
Además de esto, la herramienta también permite la generación en línea de vídeos de 512×512 a hasta 45 fotogramas por segundo (algo menos si es utiliza en modo offline) con una latencia inicial insignificante. Eso facilita el camino para interacciones en tiempo real con avatares realistas que incluso pueden llegar a imitar comportamientos conversacionales humanos.
VASA-1: Algunos ejemplos
Este método muestra la capacidad de manejar archivos de imagen y audio de gran espectro. Así, se pueden incluir fotografías artísticas e incluso audios de diferentes idiomas, no solamente el inglés. En este post hemos incluido algunos ejemplos que realmente nos dejan con la boca abierta. Resulta difícil decir que los rostros que aparecen hablando y gesticulando en los vídeos no corresponden a los de personas reales, sino que se trata de avatares creados a partir de imágenes y audio:
Cualquier usuario con un ordenador de potencia media (por ejemplo, un GPU Nvidia RTX 4090) puede usar esta herramienta para generar vídeos de este nivel realista en apenas unos minutos.
Es impresionante comprobar cómo estas animaciones combinan imágenes y audio de manera tan eficaz, confiriendo al busto parlante que tenemos ante nosotros un grado de realismo inusitado. Sin embargo, los expertos señalan que todavía existen errores que delatan la naturaleza fake de estas imágenes. Detalles imperceptibles para la mayoría de nosotros, pero que no se escapan a los observadores mejor entrenados: algunos defectos sutiles y signos que revelan la intervención de la IA.
Los peligros de una herramienta demasiado precisa
Tan excelente y tan realista es esta herramienta que Microsoft no se ha atrevido a dar el paso de lazar ni siquiera una demo en abierto. La preocupación por el mal uso y los potenciales peligros que supondría para la suplantación de identidades aconseja actuar con mucha cautela.
En todo caso, en la web oficial del Proyecto VASA-1, alojada en el site de Microsoft, encontramos un interesante vídeo de algo más de un minuto de duración en el que podemos asistir al proceso de creación de estos avatares hiperrealistas:
Básicamente, el método consiste en seleccionar una imagen (un rostro humano) y después un archivo de audio. A continuación, la IA los hace «casar». Durante el proceso de creación, el usuario puede perfilar numerosos matices a través de los botones y barras que aparecen en la interfaz. Invirtiendo solo un poco de tiempo y creatividad, se pueden lograr resultados impactantes.
De momento, las intenciones de los desarrolladores de VASA-1 son precisamente las opuestas a la de generar vídeos fake y de suplantación de identidad (o, al menos, eso es lo que ellos dicen). Es decir, ayudar a detectar y combatir los vídeos deep fake. Puede ser cierto, ya que nadie mejor que ellos saben cómo engañar a la mente humana a través de herramientas de IA cada vez más poderosas y precisas.
A pesar de eso, los desarrolladores de VASA-1 también insisten en remarcar los aspectos más positivos de su creación: mejorar la accesibilidad para personas con dificultades de comunicación, ofrecer compañía o apoyo terapéutico a quienes lo necesitan y otras ventajas que derivan del uso de la IA de manera responsable. El reto consiste en que esto sea posible.