EMO-projekt: generering av videor från en persons foto

emo

Vi börjar med förvåning se några av de saker som artificiell intelligens kan göra tillämpade på våra vardagliga enheter. Resultaten är verkligen överraskande, och det är bara toppen av isberget. Ett bra exempel är EMO-projekt, som består av att generera uttrycksfulla videor från foton och porträtt.

Med andra ord: det är en teknik som ger liv åt statiska foton, ger dem ljud och rörelse. I det här inlägget kommer vi att förklara vad denna idé består av med några intressanta exempel.

Vad är EMO-projektet?

EMO är förkortningen för Porträtt Alive Emote, ett projekt utvecklat av Linrui Tian, ​​Qi Wang, Bang Zhang och Liefeng Bo, tre ingenjörer från Institute of Intelligent Computing, som är en del av det kinesiska teknik- och affärskonglomeratet Alibaba.

Med skaparnas ord är det ett uttrycksfullt generationssystem för ljuddrivna videoporträtt. Det är en ganska grov definition av vad Project EMO kan: ta bilden av en person och ge den uttryck, röst och rörelse. Det verkar som magi.

Det här är inte enkla animationsknep som vilken app som helst kan göra, utan snarare noggrant och hög precision arbete vilket återspeglas i ett brett spektrum av ansiktsuttryck, samt huvud- och läpprörelser. Till detta kommer ljudet, som också bestämmer formen dessa rörelser tar.

Å andra sidan kan de genererade videorna ha obegränsad varaktighet. De beror faktiskt på längden på videon de är baserade på.

Hur fungerar det?

Funktionen av detta otroliga verktyg förklaras i detalj på själva sidan. projektwebbplats. Metoden är uppbyggd i två olika faser:

    1. Inledande kodningsfas där alla aspekter av startbilden (eller referensbilden) studeras, för att bättre förstå vilken rörelse och animation som kan tillämpas på den.
    2. Bearbetningsfas. I den bearbetar en förtränad ljudkodare ljudinbäddningen, medan ansiktsbildsgenereringsskiktet eller masken appliceras.

Vissa detaljer i denna process bör lyftas fram, fokuserade på att eliminera brus och bevara karaktärens identitet. Å andra sidan används andra tidsmoduler för att justera videons varaktighet och rörelsehastigheten.

Resultaten som vi kommer att presentera nedan (om man ska få varje porträtt att prata eller till och med sjunga) kan bara definieras som spektakulära. AI-intervention tjänar till att uppnå höga nivåer av realism som kan lura oss fullständigt. Vilket fortfarande är störande, verkligen.

EMO-projekt. Några exempel:

Låt oss visa några exempel på vad denna teknik kan åstadkomma. Som du kommer att se kan vi använda bilden av en riktig karaktär eller den av en som genereras av AI. Vi kan få den att röra sig och gestikulera, tala på det språk vi vill (säga vad vi vill att den ska säga) och till och med få den att sjunga. Riktiga underbarn.

Det här är några videor med foton som EMO-projektet talar om. Skådespelerskan Audrey Hepburn kommer till liv för att berätta om människors rätt att gråta och uttrycka sina känslor:

Du kan också få karaktärer som inte är gjorda av kött och blod att tala. Här har vi Mona Lisa, av Leonardo da Vinci, som EMO Project har blåst liv i för att recitera Rosalindas monolog i pjäsen "Som du vill" av William Shakespeare:

Märkligt nog kan vi också ta bilder av riktiga skådespelare och få dem att säga vad som helst. I det här fallet ser vi Rafael Phoenix i sin berömda roll som The Joker, men uttala en text som motsvarar en annan film, Den mörka riddaren.

Låt oss nu gå vidare till musikens värld. I följande exempel namnges en AI-genererad karaktär SORA framföra låten "Börja inte nu" de Dua Lipa. Resultatet är förvånansvärt mänskligt:

Slutligen presenterar vi en mycket ung Leonardo DiCaprio sjunger filmtemat Godzilla komponerad av rapparen Eminem:

Etiska och juridiska överväganden

Användningen (eller snarare missbruket) av artificiell intelligens står just nu i centrum för debatten. en disruptiv teknik vars gränser och möjligheter vi ännu inte kan skymta och som, missbrukat, kan få negativa konsekvenser i många olika aspekter.

För att täcka ryggen gör de det på EMO-projektsidan väldigt tydligt att alla deras tester och skapelser är avsedda enbart för akademisk forskning och demonstration av effekter. Det finns ingen anledning att leta efter baktankar. En teknik som kan uppnå en sådan grad av precision och realism utgör dock en verklig fara för alla som vill använda den för att begå bedrägerier, identitetsstölder och andra brott.


Lämna din kommentar

Din e-postadress kommer inte att publiceras. Obligatoriska fält är markerade med *

*

*

  1. Ansvarig för uppgifterna: Miguel Ángel Gatón
  2. Syftet med uppgifterna: Kontrollera skräppost, kommentarhantering.
  3. Legitimering: Ditt samtycke
  4. Kommunikation av uppgifterna: Uppgifterna kommer inte att kommuniceras till tredje part förutom enligt laglig skyldighet.
  5. Datalagring: databas värd för Occentus Networks (EU)
  6. Rättigheter: När som helst kan du begränsa, återställa och radera din information.