VASA-1 ist Microsofts neues Modell für künstliche Intelligenz. Eine erstaunliche Technologie, die aus zwei einfachen Zutaten realistische Avatare erstellen kann: einem statischen Bild und einem Sprachclip. Wenn Sie daran interessiert sind, mehr darüber zu erfahren VASA-1 und seine von KI generierten hyperrealistischen AvatareWir empfehlen Ihnen, weiterzulesen.
Es schien, als würde Redmond alle seine Kräfte auf die Entwicklung dieser Art von Technologie im Assistenten konzentrieren Copilot. Ein Tool, das Sprachmodelle mit Microsoft 365-Anwendungen kombiniert, scheint jedoch ehrgeiziger zu sein. Der Beweis dafür findet sich in VASA-1.
Was ist VASA-1?
VASA ist die Abkürzung für App für visuelle affektive Fähigkeiten, ein Konzept, das übersetzt werden kann als Anwendung visuell-affektiver Fähigkeiten. Die Zahl „1“ ist ein klarer Hinweis darauf, dass dies nur die erste einer langen Liste von Versionen ist, die in Zukunft erscheinen werden und uns noch mehr überraschen werden.
Was macht VASA-1 so besonders? Was ist Ihre wichtigste Innovation? Es gibt bereits viele Anwendungen, die Fotos mit Bewegungen ähnlich denen eines GIFs zum Leben erwecken können. Was dieses von einem Team von KI-Forschern von Microsoft Research Asia entwickelte Tool vorstellt, ist etwas viel Anspruchsvolleres: ein künstliches Intelligenzsystem, das Fotos zum Singen und Tanzen bringen kann. Es geht nicht um Animation, sondern um etwas anderes.
Das Ergebnis ist erstaunlich realistisch. Hyperrealistisch wäre der passende Begriff. Dieses Modell kann Lippenbewegungen perfekt synchronisiert mit Audio erzeugen und ein breites Spektrum an Gesichtsnuancen und natürlichen Kopfbewegungen erfassen. Alles in allem liefert es ein lebendiges und authentisches Bild, das es bei anderen ähnlichen Tools noch nie gegeben hat.
Darüber hinaus ermöglicht das Tool auch die Online-Generierung von 512x512-Videos mit bis zu 45 Bildern pro Sekunde (etwas weniger im Offline-Modus) mit vernachlässigbarer Anfangslatenz. Dies ebnet den Weg für Echtzeitinteraktionen mit realistischen Avataren, die sogar erreichen können menschliches Gesprächsverhalten nachahmen.
VASA-1: Einige Beispiele
Diese Methode zeigt die Fähigkeit, Bild- und Audiodateien mit einem breiten Spektrum zu verarbeiten. So können künstlerische Fotografien und sogar Audios aus verschiedenen Sprachen eingebunden werden, nicht nur aus Englisch. In diesen Beitrag haben wir aufgenommen einige Beispiele, die uns wirklich sprachlos machen. Es ist schwer zu sagen, dass die Gesichter, die in den Videos sprechend und gestikulierend erscheinen, nicht denen echter Menschen entsprechen, sondern aus Bildern und Audio erstellte Avatare sind:
Jeder Benutzer mit einem Computer mittlerer Leistung (z. B. einer Nvidia RTX 4090-GPU) kann dieses Tool verwenden, um in nur wenigen Minuten Videos dieses realistischen Niveaus zu erstellen.
Es ist beeindruckend zu sehen, wie diese Animationen Bild und Ton so effektiv kombinieren und dem sprechenden Kopf vor uns ein ungewöhnliches Maß an Realismus verleihen. Jedoch, Experten weisen darauf hin, dass es immer noch Fehler gibt, die den Fake-Charakter dieser Bilder offenbaren. Details, die für die meisten von uns nicht wahrnehmbar sind, die aber den am besten ausgebildeten Beobachtern nicht entgehen: einige subtile Mängel und Anzeichen, die ein Eingreifen der KI verraten.
Die Gefahren eines zu präzisen Werkzeugs
Dieses Tool ist so hervorragend und so realistisch, dass Microsoft nicht den Schritt gewagt hat, auch nur eine offene Demo zu veröffentlichen. Die Sorge um der Missbrauch und die potenziellen Gefahren, die ein Identitätsdiebstahl mit sich bringen würde rät zu großer Vorsicht.
Auf jeden Fall auf der offiziellen Website der VASA-1-Projekt, gehostet auf der Microsoft-Website, finden wir ein interessantes, etwas mehr als eine Minute langes Video, in dem wir den Prozess der Erstellung dieser hyperrealistischen Avatare miterleben können:
Im Wesentlichen besteht die Methode darin, ein Bild (ein menschliches Gesicht) und dann eine Audiodatei auszuwählen. Die KI „verheiratet“ sie dann. Während des Erstellungsprozesses kann der Benutzer über die auf der Benutzeroberfläche angezeigten Schaltflächen und Balken zahlreiche Nuancen skizzieren. Mit nur wenig Zeitaufwand und Kreativität können wirkungsvolle Ergebnisse erzielt werden.
Die Absichten der VASA-1-Entwickler sind derzeit genau das Gegenteil von der Generierung gefälschter und Phishing-Videos (so sagen sie zumindest). Das heißt, Helfen Sie dabei, Videos zu erkennen und zu bekämpfen tiefe Fälschung. Das mag wahr sein, denn niemand weiß besser als sie, wie man den menschlichen Geist durch immer leistungsfähigere und präzisere KI-Tools austrickst.
Trotzdem bestehen auch die VASA-1-Entwickler auf einer Hervorhebung die positivsten Aspekte seiner Entstehung: Verbesserung der Zugänglichkeit für Menschen mit Kommunikationsschwierigkeiten, Bereitstellung von Begleitung oder therapeutischer Unterstützung für diejenigen, die diese benötigen, und andere Vorteile, die sich aus dem verantwortungsvollen Einsatz von KI ergeben. Die Herausforderung besteht darin, dies zu ermöglichen.