微软推出VASA-1:人工智能生成的超现实化身

瓦萨-1

VASA-1是微软新的人工智能模型。这是一项令人惊叹的技术,能够通过两个简单的成分创建逼真的化身:静态图像和语音剪辑。如果您有兴趣了解更多 VASA-1 及其由 AI 生成的超现实化身,我们鼓励您继续阅读。

看来雷德蒙德要把所有的精力都集中在助手这一类技术的开发上了 副驾驶。一种将语言模型与 Microsoft 365 应用程序相结合的工具,但它的计划似乎更加雄心勃勃。 VASA-1 中提供了这一点的证明。

什么是 VASA-1?

VASA 是缩写 视觉情感技能应用程序,这个概念可以翻译为 视觉情感技能的应用。数字“1”是一个明确的参考,这只是未来将出现的一长串版本中的第一个,让我们更加惊讶。

瓦萨-1

是什么让 VASA-1 如此特别? 您的主要创新是什么?已经有许多应用程序能够通过类似于 GIF 的动作使照片变得栩栩如生。这个由微软亚洲研究院的人工智能研究人员团队创建的工具引入了更为复杂的东西:一个可以让照片唱歌跳舞的人工智能系统。 这不是关于动画,而是其他事情。

结果是惊人的现实。 超写实 将是最合适的术语。该模型可以产生与音频完美同步的嘴唇运动,并捕捉广泛的面部细微差别和自然的头部运动。总而言之,它呈现了其他类似工具中从未见过的生动而真实的图像。

除此之外,该工具还允许以高达每秒 512 帧的速度在线生成 512x45 视频(如果在离线模式下使用,帧率会稍低),初始延迟可以忽略不计。这为与现实化身的实时互动铺平了道路,甚至可以达到 模仿人类的对话行为。

VASA-1:一些示例

该方法显示了处理广谱图像和音频文件的能力。因此,可以包括来自不同语言的艺术照片甚至音频,而不仅仅是英语。在这篇文章中,我们包括了 一些确实让我们无语的例子。很难说视频中出现的说话和手势的面孔并不对应真人,而是由图像和音频创建的化身:

任何拥有中等功率计算机(例如 Nvidia RTX 4090 GPU)的用户都可以使用此工具在短短几分钟内生成这种逼真级别的视频。

令人印象深刻的是,这些动画如何如此有效地结合图像和音频,为我们面前的说话者提供了不同寻常的真实感。然而, 专家指出,仍然存在一些错误,揭示了这些图像的虚假本质。 我们大多数人都无法察觉的细节,但训练有素的观察者却无法逃脱:一些微妙的缺陷和迹象揭示了人工智能的干预。

工具过于精确的危险

这个工具是如此的优秀和如此的真实,以至于微软都不敢迈出哪怕是公开演示的一步。的关心 滥用和可能造成身份盗窃的潜在危险 建议谨慎行事。

无论如何,在官方网站上 VASA-1项目在微软网站上,我们发现了一段持续一分多钟的有趣视频,我们可以在其中见证创建这些超现实化身的过程:

基本上,该方法包括选择图像(人脸),然后选择音频文件。然后人工智能将他们“结婚”。在创建过程中,用户可以通过界面上出现的按钮和栏勾画出许多细微差别。只需投入一点时间和创造力,就可以取得有影响力的结果。

目前,VASA-1 开发人员的意图与生成虚假和网络钓鱼视频恰恰相反(或者至少他们是这么说的)。也就是说, 帮助检测和打击视频 深假. 这可能是真的,因为没有人比他们更了解如何通过日益强大和精确的人工智能工具来欺骗人类思维。

尽管如此,VASA-1 开发人员还坚持强调 最积极的方面 其创建的初衷是:改善有沟通困难的人的可及性,为有需要的人提供陪伴或治疗支持,以及负责任地使用人工智能带来的其他优势。挑战在于使这成为可能。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责数据:MiguelÁngelGatón
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。