EMO Project: pagbuo ng mga video mula sa larawan ng isang tao

emo

Nagsisimula kaming makita nang may pagkamangha ang ilan sa mga bagay na kayang gawin ng Artipisyal na Intelligence na inilapat sa aming mga pang-araw-araw na device. Ang mga resulta ay talagang nakakagulat, at iyon lamang ang dulo ng malaking bato ng yelo. Ang isang magandang halimbawa ay ang EMO Project, na binubuo ng pagbuo ng mga nagpapahayag na video mula sa mga larawan at portrait.

Sa madaling salita: ito ay isang teknolohiya na nagbibigay buhay sa mga static na larawan, na nagbibigay sa kanila ng tunog at paggalaw. Sa post na ito ipapaliwanag namin kung ano ang binubuo ng ideyang ito na may ilang mga kagiliw-giliw na halimbawa.

Ano ang EMO Project?

Ang EMO ay ang acronym para sa Portrait Alive Emote, isang proyektong binuo nina Linrui Tian, ​​​​Qi Wang, Bang Zhang at Liefeng Bo, tatlong inhinyero mula sa Institute of Intelligent Computing, na bahagi ng Chinese technology at business conglomerate na Alibaba.

Sa mga salita ng mga tagalikha nito, isa itong nagpapahayag na sistema ng pagbuo para sa mga larawang video na hinimok ng audio. Ito ay isang medyo magaspang na kahulugan ng kung ano ang kaya ng Project EMO: kunin ang imahe ng isang tao at bigyan ito ng ekspresyon, boses at galaw. Parang magic.

Hindi ito simpleng mga trick sa animation na maaaring gawin ng anumang app, ngunit sa halip maselan at mataas na katumpakan ng trabaho na makikita sa isang malawak na hanay ng mga ekspresyon ng mukha, pati na rin ang mga paggalaw ng ulo at labi. Idinagdag dito ang audio, na tumutukoy din sa anyo ng mga paggalaw na ito.

Sa kabilang banda, maaaring magkaroon ng walang limitasyong tagal ang mga nabuong video. Depende talaga sila sa haba ng video na pinagbasehan nila.

Paano ito gumagana?

Ang pagpapatakbo ng hindi kapani-paniwalang tool na ito ay ipinaliwanag nang detalyado sa mismong pahina. website ng proyekto. Ang pamamaraan ay nakabalangkas sa dalawang magkakaibang yugto:

    1. Paunang yugto ng coding kung saan pinag-aaralan ang lahat ng aspeto ng panimulang (o sanggunian) na imahe, upang mas maunawaan kung anong paggalaw at animation ang maaaring ilapat dito.
    2. Yugto ng pagproseso. Dito, pinoproseso ng pre-trained na audio encoder ang audio embedding, habang inilalapat ang facial image generation layer o mask.

Ang ilang mga detalye ng prosesong ito ay dapat na i-highlight, na nakatuon sa pag-aalis ng ingay at pagpapanatili ng pagkakakilanlan ng karakter. Sa kabilang banda, ang iba pang mga temporal na module ay ginagamit upang ayusin ang tagal ng video at ang bilis ng paggalaw.

Ang mga resulta na ipapakita namin sa ibaba (kung gagawing pagsasalita ang bawat portrait o kahit kantahin) ay maaari lamang tukuyin bilang kamangha-manghang. Ang interbensyon ng AI ay nagsisilbing makamit mataas na antas ng realismo na may kakayahang ganap na linlangin tayo. Which is still disturbing, talaga.

EMO Project. Ilang halimbawa:

Ipakita natin ang ilang halimbawa ng kung ano ang maaaring makamit ng teknolohiyang ito. Tulad ng makikita mo, maaari naming gamitin ang imahe ng isang tunay na karakter o isang nabuo ng AI. Magagawa natin itong kumilos at magkumpas, magsalita sa wikang gusto natin (pagsasabi kung ano ang gusto nating sabihin) at maging ang pagpapakanta nito. Mga tunay na kababalaghan.

Ito ang ilang video ng mga larawan na pinag-uusapan ng EMO Project. Ang artista Audrey Hepburn nabuhay upang sabihin sa amin ang tungkol sa karapatan ng mga tao na umiyak at ipahayag ang kanilang mga damdamin:

Maaari mo ring gawing magsalita ang mga karakter na hindi gawa sa laman at dugo. Narito mayroon kaming Mona Lisa, ni Leonardo da Vinci, na binigyan ng hininga ng EMO Project para bigkasin ang monologo ni Rosalinda sa dula "Sa gusto mo" ni William Shakespeare:

Nakakapagtaka, maaari rin tayong kumuha ng mga larawan ng mga tunay na aktor at sabihin sa kanila ang anumang bagay. Sa kasong ito, nakikita natin Rafael Phoenix sa kanyang sikat na papel ng Ang taong mapagbiro, ngunit ang pagbigkas ng isang teksto na tumutugma sa ibang pelikula, Madilim na kabalyero.

Ngayon ay lumipat tayo sa mundo ng musika. Sa sumusunod na halimbawa, isang character na binuo ng AI na pinangalanan SORA isagawa ang kanta "Huwag Magsimula Ngayon" de Dua Lipa. Ang resulta ay kahanga-hangang tao:

Sa wakas ay nagpapakita kami ng isang napakabata Leonardo DiCaprio pagkanta ng tema ng pelikula Godzilla binubuo ng rapper Eminem:

Etikal at legal na pagsasaalang-alang

Ang paggamit (o sa halip, ang maling paggamit) ng Artificial Intelligence ay kasalukuyang nasa gitna ng debate. Ito ay tungkol sa isang nakakagambalang teknolohiya na ang mga limitasyon at posibilidad ay hindi pa natin nakikita at na, maling paggamit, ay maaaring magkaroon ng mga negatibong kahihinatnan sa maraming iba't ibang aspeto.

Upang takpan ang kanilang mga likuran, sa pahina ng Proyekto ng EMO ay napakalinaw nila na ang lahat ng kanilang mga pagsubok at likha ay inilaan lamang para sa akademikong pananaliksik at pagpapakita ng mga epekto. Hindi na kailangang maghanap ng mga lihim na motibo. Gayunpaman, ang isang teknolohiya na maaaring makamit ang ganoong antas ng katumpakan at pagiging totoo ay bumubuo ng isang tunay na panganib para sa sinumang gustong gamitin ito upang gumawa ng pandaraya, pagnanakaw ng pagkakakilanlan at iba pang mga krimen.


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: Miguel Ángel Gatón
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.