Começamos a ver com espanto algumas das coisas que a Inteligência Artificial é capaz de fazer aplicada aos nossos dispositivos do dia a dia. Os resultados são verdadeiramente surpreendentes e isso é apenas a ponta do iceberg. Um bom exemplo é o Projeto EMO, que consiste em gerar vídeos expressivos a partir de fotos e retratos.
Ou seja: é uma tecnologia que dá vida às fotos estáticas, conferindo-lhes som e movimento. Neste post vamos explicar em que consiste essa ideia com alguns exemplos interessantes.
O que é o Projeto EMO?
EMO é a sigla para Emote Retrato Vivo, projeto desenvolvido por Linrui Tian, Qi Wang, Bang Zhang e Liefeng Bo, três engenheiros da Instituto de Computação Inteligente, que faz parte do conglomerado chinês de tecnologia e negócios Alibaba.
Nas palavras de seus criadores, é um sistema de geração expressiva para retratos de vídeo baseados em áudio. É uma definição bastante aproximada do que o Projeto EMO é capaz de fazer: pegar a imagem de uma pessoa e dar-lhe expressão, voz e movimento. Parece mágica.
Estes não são truques simples de animação que qualquer aplicativo poderia fazer, mas sim trabalho meticuloso e de alta precisão o que se reflete em uma ampla gama de expressões faciais, bem como em movimentos de cabeça e lábios. Soma-se a isso o áudio, que também determina a forma que esses movimentos assumem.
Por outro lado, os vídeos gerados podem ter duração ilimitada. Na verdade, eles dependem da duração do vídeo em que se baseiam.
Como funciona?
O funcionamento desta incrível ferramenta é explicado detalhadamente na própria página. site do projeto. O método está estruturado em duas fases distintas:
-
- Fase inicial de codificação em que são estudados todos os aspectos da imagem inicial (ou de referência), para melhor compreender que movimento e animação podem ser aplicados a ela.
- Fase de processamento. Nele, um codificador de áudio pré-treinado processa a incorporação do áudio, enquanto a camada ou máscara de geração de imagem facial é aplicada.
Alguns detalhes desse processo devem ser destacados, focados na eliminação de ruídos e na preservação da identidade do personagem. Por outro lado, outros módulos temporais são utilizados para ajustar a duração do vídeo e a velocidade do movimento.
Os resultados que apresentaremos a seguir (seja fazer cada retrato falar ou mesmo cantar) só podem ser definidos como espetaculares. A intervenção da IA serve para alcançar altos níveis de realismo capazes de nos enganar completamente. O que ainda é perturbador, na verdade.
Projeto EMO. Alguns exemplos:
Vamos mostrar alguns exemplos de o que esta tecnologia pode alcançar. Como você verá, podemos usar a imagem de um personagem real ou gerada por IA. Podemos fazê-lo mover-se e gesticular, falar na língua que quisermos (dizendo o que queremos que diga) e até fazê-lo cantar. Verdadeiros prodígios.
Estes são alguns vídeos de fotos que o Projeto EMO faz falar. A atriz Audrey Hepburn ganha vida para nos contar sobre o direito das pessoas de chorar e expressar seus sentimentos:
Você também pode fazer falar personagens que não são feitos de carne e osso. Aqui temos o Mona Lisa, de Leonardo da Vinci, a quem o Projeto EMO deu vida para recitar o monólogo de Rosalinda na peça "Como você quiser" por William Shakespeare:
Curiosamente, também podemos tirar imagens de atores reais e fazê-los dizer qualquer coisa. Neste caso, vemos Rafael Fênix em seu famoso papel de O piadista, mas pronunciando um texto que corresponde a um filme diferente, O Cavaleiro Trevas.
Agora vamos passar para o mundo da música. No exemplo a seguir, um personagem gerado por IA chamado SORA executar a música «Não comece agora» de Dua Lipa. O resultado é surpreendentemente humano:
Finalmente apresentamos um jovem Leonardo DiCaprio cantando o tema do filme Godzilla composta pelo rapper Eminem:
Considerações éticas e legais
O uso (ou melhor, o mau uso) da Inteligência Artificial está atualmente no centro do debate. uma tecnologia disruptiva cujos limites e possibilidades ainda não conseguimos vislumbrar e que, mal utilizados, podem ter consequências negativas em muitos aspectos diferentes.
Para se proteger, na página do Projeto EMO eles deixam bem claro que todos os seus testes e criações se destinam exclusivamente à pesquisa acadêmica e demonstração de efeitos. Não há necessidade de procurar segundas intenções. No entanto, uma tecnologia que consegue atingir tal grau de precisão e realismo constitui um perigo real para quem deseja utilizá-la para cometer fraudes, roubo de identidade e outros crimes.