Proyecto EMO: generación de vídeos a partir de la foto de una persona

Estamos empezando a ver con asombro algunas de las cosas que es capaz de hacer la Inteligencia Artificial aplicada a nuestros dispositivos cotidianos. Los resultados son realmente sorprendentes, y eso que solo es la punta del iceberg. Un buen ejemplo es el Proyecto EMO, que consiste en la generación de expresivos vídeos a partir de fotos y retratos.

Dicho de otro modo: es una tecnología que da vida a fotos estáticas, a las que dota de sonido y de movimiento. En este post vamos a explicar en qué consiste esta idea con algunos ejemplos interesantes.

¿Qué es el Proyecto EMO?

EMO es el acrónimo de Emote Portrait Alive, un proyecto desarrollado por Linrui Tian, Qi Wang, Bang Zhang y Liefeng Bo, tres ingenieros del Institute of Intelligent Computing, que forma parte del conglomerado tecnológico y empresarial chino Alibaba.

En palabras de sus creadores, se trata de un sistema de generación expresiva de retratos de vídeos impulsados por audio. Es una definición bastante aproximada de lo que el Proyecto EMO es capaz de hacer: tomar la imagen de una persona y dotarla de expresión, voz y movimiento. Parece magia.

No se trata de sencillos trucos de animación que podría hacer cualquier app, sino de un trabajo minucioso y de alta precisión que se refleja en una amplia gama de expresiones faciales, así como de movimientos de cabeza y labios. A esto se le añade el audio, que también determina la forma que toman estos movimientos.

Por otra parte, los vídeos generados pueden tener duración ilimitada. En realidad, dependen de la longitud del vídeo en el que se basan.

¿Cómo funciona?

El funcionamiento de esta increíble herramienta viene explicado al detalle en la propia web del proyecto. El método se estructura en dos fases diferentes:

1. Fase inicial de codificación en la que se estudian todos los aspectos de la imagen de partida (o de referencia), para entender mejor cuál es el movimiento y animación que se le puede aplicar.
2. Fase de procesamiento. En ella, un codificador de audio previamente entrenado procesa la incrustación de audio, mientras que se aplica la capa o máscara de generación de imágenes faciales.

Hay que destacar algunos detalles de este proceso centrados en la eliminación de ruido y en la preservación de la identidad del personaje. Por otro lado, se emplean otros módulos temporales para ajustar la duración del vídeo y la velocidad del movimiento.

Los resultados que vamos a presentar a continuación (ya sea para hacer hablar o incluso hacer cantar a cada retrato) solo pueden ser definidos como espectaculares. La intervención de la IA sirve para lograr elevadas cotas de realismo capaces de engañarnos por completo. Lo cual no deja de ser inquietante, la verdad.

Proyecto EMO. Algunos ejemplos:

Vamos a mostrar algunos ejemplos de lo que esta tecnología puede conseguir. Como verás, podemos utilizar la imagen de un personaje real o bien la de uno generado mediante IA. Podemos conseguir que se mueva y gesticule, que hable en el idioma que nosotros queramos (diciendo lo que queramos que diga) e incluso haciéndole cantar. Verdaderos prodigios.

Estos son algunos vídeos de fotos a las que el Proyecto EMO hace hablar. La actriz Audrey Hepburn vuelve a la vida para hablarnos acerca del derecho de las personas a llorar y expresar sus sentimientos:

También se puede hacer hablar a personajes que no son de carne y hueso. Aquí tenemos a la Mona Lisa, de Leonardo da Vinci, a quien EMO Project ha insuflado vida para recitar el monólogo de Rosalinda en la obra «Como gustéis» de William Shakespeare:

Rizando el rizo, también podemos tomar imágenes de actores reales y hacerles decir cualquier cosa. En este caso, vemos a Rafael Phoenix en su célebre papel de The Joker, pero pronunciando un texto que corresponde a otra película diferente, El caballero oscuro.

Pasemos ahora al mundo de la música. En el siguiente ejemplo, un personaje generado por IA llamado SORA interpreta la canción «Don’t Start Now» de Dua Lipa. El resultado es asombrosamente humano:

Por último presentamos a un jovencísimo Leonardo DiCaprio cantando el tema de la película Godzilla compuesto por el rapero Eminem:

Consideraciones éticas y legales

El uso (o mejor dicho, el mal uso) de la Inteligencia Artificial está en estos momentos en el centro del debate Se trata de una tecnología disruptiva cuyos límites y posibilidades todavía no somos capaces de atisbar y que, mal utilizada, podría tener consecuencias negativas en muchos aspectos diferentes.

Para cubrirse las espaldas, en la página de Proyecto EMO dejan bien claro que todas sus pruebas y creaciones se destinan únicamente a la investigación académica y la demostración de efectos. No hay que buscar segundas intenciones. Sin embargo, una tecnología que puede lograr tal grado de precisión y realismo constituye un verdadero peligro para quien deseara utilizarla para cometer fraudes, suplantaciones de identidad y otros delitos.

WindowsNoticias

Proyecto EMO: generación de vídeos a partir de la foto de una persona

¿Qué es el Proyecto EMO?

¿Cómo funciona?

Proyecto EMO. Algunos ejemplos:

Consideraciones éticas y legales

Deja tu comentario Cancelar la respuesta