EMO-Projekt: Erstellung von Videos aus dem Foto einer Person

emo

Wir fangen an, mit Erstaunen zu sehen, wozu künstliche Intelligenz in der Anwendung auf unsere Alltagsgeräte fähig ist. Die Ergebnisse sind wirklich überraschend, und das ist nur die Spitze des Eisbergs. Ein gutes Beispiel ist das EMO-Projekt, das darin besteht, aus Fotos und Porträts ausdrucksstarke Videos zu erstellen.

Mit anderen Worten: Es handelt sich um eine Technologie, die statischen Fotos Leben einhaucht und ihnen Ton und Bewegung verleiht. In diesem Beitrag erklären wir anhand einiger interessanter Beispiele, worum es bei dieser Idee geht.

Was ist das EMO-Projekt?

EMO ist die Abkürzung für Emote-Portrait lebendig, ein Projekt, das von Linrui Tian, ​​​​Qi Wang, Bang Zhang und Liefeng Bo, drei Ingenieuren aus der Region, entwickelt wurde Institut für Intelligentes Rechnen, das Teil des chinesischen Technologie- und Wirtschaftskonzerns Alibaba ist.

In den Worten seiner Schöpfer handelt es sich um ein ausdrucksstarkes Erzeugungssystem für audiogesteuerte Videoporträts. Das ist eine ziemlich grobe Definition dessen, wozu Project EMO in der Lage ist: Nehmen Sie das Bild einer Person und verleihen Sie ihr Ausdruck, Stimme und Bewegung. Es scheint wie Magie.

Dies sind keine einfachen Animationstricks, die jede App ausführen könnte, sondern vielmehr sorgfältige und hochpräzise Arbeit was sich in einer Vielzahl von Gesichtsausdrücken sowie Kopf- und Lippenbewegungen widerspiegelt. Hinzu kommt der Ton, der auch die Form dieser Bewegungen bestimmt.

Andererseits können die generierten Videos eine unbegrenzte Dauer haben. Sie hängen tatsächlich von der Länge des Videos ab, auf dem sie basieren.

Wie funktioniert das?

Die Funktionsweise dieses unglaublichen Tools wird auf der Seite selbst ausführlich erklärt. Projektwebsite. Die Methode ist in zwei unterschiedliche Phasen gegliedert:

    1. Erste Codierungsphase Dabei werden alle Aspekte des Ausgangsbilds (oder Referenzbilds) untersucht, um besser zu verstehen, welche Bewegungen und Animationen darauf angewendet werden können.
    2. Bearbeitungsphase. Darin verarbeitet ein vorab trainierter Audio-Encoder die Audio-Einbettung, während die Ebene oder Maske zur Gesichtsbildgenerierung angewendet wird.

Einige Details dieses Prozesses sollten hervorgehoben werden, wobei der Schwerpunkt auf der Eliminierung von Rauschen und der Wahrung der Identität des Charakters liegt. Andererseits werden andere zeitliche Module verwendet, um die Dauer des Videos und die Bewegungsgeschwindigkeit anzupassen.

Die Ergebnisse, die wir im Folgenden präsentieren (ob jedes Porträt zum Sprechen oder sogar zum Singen gebracht wird), können nur als spektakulär bezeichnet werden. KI-Intervention dient der Erreichung ein hohes Maß an Realismus, das uns völlig täuschen kann. Was wirklich immer noch beunruhigend ist.

EMO-Projekt. Einige Beispiele:

Lassen Sie uns einige Beispiele zeigen was diese Technologie leisten kann. Wie Sie sehen werden, können wir das Bild eines echten Charakters oder das eines von der KI generierten Charakters verwenden. Wir können es bewegen und gestikulieren, in der Sprache sprechen, die wir wollen (sagen, was wir sagen wollen) und es sogar zum Singen bringen. Wahre Wunderkinder.

Dies sind einige Videos von Fotos, die das EMO-Projekt für Aufsehen sorgt. Die Schauspielerin Audrey Hepburn erwacht zum Leben, um uns vom Recht der Menschen zu erzählen, zu weinen und ihre Gefühle auszudrücken:

Sie können auch Charaktere zum Sprechen bringen, die nicht aus Fleisch und Blut bestehen. Hier haben wir das Mona Lisa, von Leonardo da Vinci, dem das EMO-Projekt Leben eingehaucht hat, um Rosalindas Monolog in dem Stück zu rezitieren "Wie Sie möchten" von William Shakespeare:

Kurioserweise können wir auch Bilder von echten Schauspielern machen und sie dazu bringen, alles zu sagen. In diesem Fall sehen wir Rafael Phoenix in seiner berühmten Rolle des Der Joker, sondern einen Text aussprechen, der einem anderen Film entspricht, Der dunkle Ritter.

Kommen wir nun zur Welt der Musik. Im folgenden Beispiel ein von der KI generierter Charakter mit dem Namen SORA das Lied aufführen «Jetzt nicht anfangen» de Dua Lipa. Das Ergebnis ist erstaunlich menschlich:

Zum Schluss präsentieren wir ein ganz junges Leonardo DiCaprio das Filmthema singen Godzilla komponiert vom Rapper Eminem:

Ethische und rechtliche Überlegungen

Der Einsatz (oder vielmehr der Missbrauch) künstlicher Intelligenz steht derzeit im Mittelpunkt der Debatte eine disruptive Technologie, deren Grenzen und Möglichkeiten wir noch nicht erkennen können und deren Missbrauch in vielerlei Hinsicht negative Folgen haben könnte.

Um sich abzusichern, machen sie auf der EMO-Projektseite deutlich, dass alle ihre Tests und Kreationen ausschließlich der akademischen Forschung und Wirkungsdemonstration dienen. Es besteht keine Notwendigkeit, nach Hintergedanken zu suchen. Allerdings stellt eine Technologie, die ein solches Maß an Präzision und Realismus erreichen kann, eine echte Gefahr für jeden dar, der sie für Betrug, Identitätsdiebstahl und andere Straftaten nutzen möchte.


Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

*

*

  1. Verantwortlich für die Daten: Miguel Ángel Gatón
  2. Zweck der Daten: Kontrolle von SPAM, Kommentarverwaltung.
  3. Legitimation: Ihre Zustimmung
  4. Übermittlung der Daten: Die Daten werden nur durch gesetzliche Verpflichtung an Dritte weitergegeben.
  5. Datenspeicherung: Von Occentus Networks (EU) gehostete Datenbank
  6. Rechte: Sie können Ihre Informationen jederzeit einschränken, wiederherstellen und löschen.